PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

2个月前 科技 17观看
摘要 PEAK:AIO 声称,它利用 CXL 内存解决 AI 推理模型中 GPU 内存的局限性,而不是将 KVCache 内容卸载到 NVMe 闪存驱动器。这家总部位于英国的 AI 与 GPU 数据基础设施专业公司表示,AI 工作负载正从

PEAK:AIO 声称,它利用 CXL 内存解决 AI 推理模型中 GPU 内存的局限性,而不是将 KVCache 内容卸载到 NVMe 闪存驱动器。5Xt喜好网-记录每日喜好的科技时尚娱乐生活

这家总部位于英国的 AI 与 GPU 数据基础设施专业公司表示,AI 工作负载正从 “静态提示” 发展为 “动态上下文流、模型创建流水线 以及 长运行代理”,而工作负载不断增长,使得 GPU 的高带宽内存 (HBM) 的有限容量受到压力,令 AI 任务受内存瓶颈限制。5Xt喜好网-记录每日喜好的科技时尚娱乐生活

这导致任务的工作内存内容——即 KVCache——超出 HBM 容量,令 Token 被驱逐,并在需要时必须重新计算,从而延长任务运行时间。5Xt喜好网-记录每日喜好的科技时尚娱乐生活

包括 VAST Data 推出的 VUA、WEKA 推出的 Augmented Memory Grid,以及 Pliops 推出的 XDP LightningAI PCIe-add-in 卡前端连接 NVMe SSD 等多家供应商,均已尝试通过在外部闪存存储上划分一个类似于虚拟内存交换分区的 HBM 内存区域来扩充 HBM 容量。5Xt喜好网-记录每日喜好的科技时尚娱乐生活

PEAK:AIO 正在开发一款 1RU Token 内存产品,该产品将采用 CXL 内存、 PCIe gen 5、 NVMe 以及 GPU Direct 与 RDMA 配合。5Xt喜好网-记录每日喜好的科技时尚娱乐生活

PEAK:AIO 首席 AI 策略官兼联合创始人 Eyal Lemberger 在一份声明中表示: “无论您是部署跨会话思考的代理,还是扩展到百万 Token 上下文窗口 —— 在此情况下,每个模型的内存需求可能超过 500GB —— 这款设备都能通过将 Token 历史视为内存而非存储来实现扩展。现在是让内存像计算能力一样实现横向扩展的时候了。”5Xt喜好网-记录每日喜好的科技时尚娱乐生活

PEAK:AIO 表示,其设备支持: o 会话、模型与节点间的 KVCache 重用 o 扩展上下文窗口以实现更长的大语言模型历史记录 o 通过 CXL 分层实现 GPU 内存卸载 o 以及通过 NVMe-oF 上的 RDMA 实现超低延迟访问5Xt喜好网-记录每日喜好的科技时尚娱乐生活

它宣称,通过利用 CXL 内存级性能,其实现的 Token 内存可表现得如同 RAM 而非文件;而其他供应商(包括 Pliops、 VAST 和 WEKA)则无法做到这一点。PEAK:AIO 联合创始人及首席战略官 Mark Klarzynski 表示: “这正是现代 AI 所期待的 Token 内存体系。”5Xt喜好网-记录每日喜好的科技时尚娱乐生活

据悉,该技术使 AI 工作负载开发者能够构建一个系统,以内存级延迟缓存 Token 历史、注意力图以及流数据。PEAK:AIO 表示,其方案 “与 Nvidia 的 KVCache 重用及内存回收模型直接契合”,并且 “为基于 TensorRT-LLM 或 Triton 构建的团队提供插件支持,从而以最小的集成工作加速推理过程。”5Xt喜好网-记录每日喜好的科技时尚娱乐生活

理论上,PCIe gen 5 CXL 控制器的延迟约为 200 纳秒,而通过 GPU Direct 访问 NVMe SSD 的延迟约为 1.2 毫秒(即 1,200,000 纳秒),比 CXL 内存访问的延迟长约 6,000 倍。PEAK 的 Token 内存设备能够以 <5 微秒的延迟提供高达 150 GB/秒的持续吞吐量。5Xt喜好网-记录每日喜好的科技时尚娱乐生活

Lemberger 指出: “当其他厂商试图将文件系统扭曲得像内存时,我们构建了真正表现如内存的基础设施,因为这正是现代 AI 所需要的。在大规模应用中,问题不在于保存文件,而在于能够在微秒级别让每个 Token 均可访问。这实质上是一个内存问题,而我们正是通过拥抱最新硅层技术来解决它。”5Xt喜好网-记录每日喜好的科技时尚娱乐生活

PEAK:AIO 的 Token 内存设备为软件定义型,采用现成服务器,并预计将在第三季度投入生产。5Xt喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
问界理想的新擂台:问界M8 VS 理想L8

问界理想的新擂台:问界M8 VS 理想

要说近年来什么行业最“卷”,相信

11-19 104阅读
中国电信完成6G天地一体化测试:这上、下行网速感受下!

中国电信完成6G天地一体化测试:这

11月19日

11-19 119阅读
华为Mate 70已经到店:数量有限 抢到赚到

华为Mate 70已经到店:数量有限 抢

11月19日

11-19 129阅读
‌全新宝马2系Gran Coupé国产版明年上市

‌全新宝马2系Gran Coupé国产版

11-19 121阅读
睿蓝8七座纯电MPV上市,起售价13.78万元

睿蓝8七座纯电MPV上市,起售价13.7

11-19 102阅读
《小巷人家》:街坊邻里的当代理想化图示

《小巷人家》:街坊邻里的当

作者 / 耳东陈运营 / 狮子座先说一桩

11-19 116阅读
《逆天奇案》寡佬是谁?钟嘉瑜最后和谁在一起了?

《逆天奇案》寡佬是谁?钟嘉

在《逆天奇案》中,寡佬是一名警察,

11-19 98阅读
长江文化艺术季闭幕式圆满落幕 平安携手金莎合唱《何以家国》

长江文化艺术季闭幕式圆满

  4日晚,长江文化艺术季闭幕式在宜昌

11-19 104阅读
文化输出第一人!网红博主李子柒回归 时隔三年更新视频

文化输出第一人!网红博主李

11月12日消息,今

11-19 114阅读
童年女神归来!《猫眼三姐妹》动画将迎来重制

童年女神归来!《猫眼三姐妹

根据海外情报师

11-19 116阅读
AI技术将一峰大二原作动画《電人アロー》黑白影像彩色化

AI技术将一峰大二原作动画

由一峰大

11-19 123阅读
《暗喻幻想: ReFantazio》发布最新宣传片 “剧情预告片2”

《暗喻幻想: ReFantazio》

《暗喻幻想: ReFantazio》发布最新宣传

11-19 110阅读
保卫萝卜4太空穿越4关通关攻略

保卫萝卜4太空穿越4关通关

保卫萝卜4是最新发布的游戏,相信喜欢保

11-19 125阅读
N网怎么开启18+开关?NEXUSMODS开启18+开关的详细操作教程

N网怎么开启18+开关?NEXUS

N网怎么开启18+开关?N网全称NEXUSMODS,是

11-19 129阅读
卧龙苍天陨落怎么提升武将好感度?提升武将好感度的方法分享

卧龙苍天陨落怎么提升武将

卧龙苍天陨落怎么提升武将好感度?在卧龙

11-19 105阅读