PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

3周前 科技 9观看
摘要 PEAK:AIO 声称,它利用 CXL 内存解决 AI 推理模型中 GPU 内存的局限性,而不是将 KVCache 内容卸载到 NVMe 闪存驱动器。这家总部位于英国的 AI 与 GPU 数据基础设施专业公司表示,AI 工作负载正从

PEAK:AIO 声称,它利用 CXL 内存解决 AI 推理模型中 GPU 内存的局限性,而不是将 KVCache 内容卸载到 NVMe 闪存驱动器。i78喜好网-记录每日喜好的科技时尚娱乐生活

这家总部位于英国的 AI 与 GPU 数据基础设施专业公司表示,AI 工作负载正从 “静态提示” 发展为 “动态上下文流、模型创建流水线 以及 长运行代理”,而工作负载不断增长,使得 GPU 的高带宽内存 (HBM) 的有限容量受到压力,令 AI 任务受内存瓶颈限制。i78喜好网-记录每日喜好的科技时尚娱乐生活

这导致任务的工作内存内容——即 KVCache——超出 HBM 容量,令 Token 被驱逐,并在需要时必须重新计算,从而延长任务运行时间。i78喜好网-记录每日喜好的科技时尚娱乐生活

包括 VAST Data 推出的 VUA、WEKA 推出的 Augmented Memory Grid,以及 Pliops 推出的 XDP LightningAI PCIe-add-in 卡前端连接 NVMe SSD 等多家供应商,均已尝试通过在外部闪存存储上划分一个类似于虚拟内存交换分区的 HBM 内存区域来扩充 HBM 容量。i78喜好网-记录每日喜好的科技时尚娱乐生活

PEAK:AIO 正在开发一款 1RU Token 内存产品,该产品将采用 CXL 内存、 PCIe gen 5、 NVMe 以及 GPU Direct 与 RDMA 配合。i78喜好网-记录每日喜好的科技时尚娱乐生活

PEAK:AIO 首席 AI 策略官兼联合创始人 Eyal Lemberger 在一份声明中表示: “无论您是部署跨会话思考的代理,还是扩展到百万 Token 上下文窗口 —— 在此情况下,每个模型的内存需求可能超过 500GB —— 这款设备都能通过将 Token 历史视为内存而非存储来实现扩展。现在是让内存像计算能力一样实现横向扩展的时候了。”i78喜好网-记录每日喜好的科技时尚娱乐生活

PEAK:AIO 表示,其设备支持: o 会话、模型与节点间的 KVCache 重用 o 扩展上下文窗口以实现更长的大语言模型历史记录 o 通过 CXL 分层实现 GPU 内存卸载 o 以及通过 NVMe-oF 上的 RDMA 实现超低延迟访问i78喜好网-记录每日喜好的科技时尚娱乐生活

它宣称,通过利用 CXL 内存级性能,其实现的 Token 内存可表现得如同 RAM 而非文件;而其他供应商(包括 Pliops、 VAST 和 WEKA)则无法做到这一点。PEAK:AIO 联合创始人及首席战略官 Mark Klarzynski 表示: “这正是现代 AI 所期待的 Token 内存体系。”i78喜好网-记录每日喜好的科技时尚娱乐生活

据悉,该技术使 AI 工作负载开发者能够构建一个系统,以内存级延迟缓存 Token 历史、注意力图以及流数据。PEAK:AIO 表示,其方案 “与 Nvidia 的 KVCache 重用及内存回收模型直接契合”,并且 “为基于 TensorRT-LLM 或 Triton 构建的团队提供插件支持,从而以最小的集成工作加速推理过程。”i78喜好网-记录每日喜好的科技时尚娱乐生活

理论上,PCIe gen 5 CXL 控制器的延迟约为 200 纳秒,而通过 GPU Direct 访问 NVMe SSD 的延迟约为 1.2 毫秒(即 1,200,000 纳秒),比 CXL 内存访问的延迟长约 6,000 倍。PEAK 的 Token 内存设备能够以 <5 微秒的延迟提供高达 150 GB/秒的持续吞吐量。i78喜好网-记录每日喜好的科技时尚娱乐生活

Lemberger 指出: “当其他厂商试图将文件系统扭曲得像内存时,我们构建了真正表现如内存的基础设施,因为这正是现代 AI 所需要的。在大规模应用中,问题不在于保存文件,而在于能够在微秒级别让每个 Token 均可访问。这实质上是一个内存问题,而我们正是通过拥抱最新硅层技术来解决它。”i78喜好网-记录每日喜好的科技时尚娱乐生活

PEAK:AIO 的 Token 内存设备为软件定义型,采用现成服务器,并预计将在第三季度投入生产。i78喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
纯电210km 奇瑞风云T9超长续航版上市:限时国补14.89万元

纯电210km 奇瑞风云T9超长续航版

11月19日

11-19 83阅读
苹果史上薄机型!曝iPhone 17 Air厚度仅6mm

苹果史上薄机型!曝iPhone 17 Air

11月19日

11-19 72阅读
超204万人预约华为Mate 70:纯血鸿蒙+麒麟芯自研完全体来了

超204万人预约华为Mate 70:纯血鸿

11月19日

11-19 82阅读
李子柒复更,三大平台提前过年

李子柒复更,三大平台提前过年

停更1

11-19 79阅读
一个融了16轮的IPO,投资人集体赚钱了

一个融了16轮的IPO,投资人集体赚

近期

11-19 83阅读
丁禹兮vs范丞丞,偶像演员演技大赏

丁禹兮vs范丞丞,偶像演员演

作者 / 张   特编辑 / 阿   笔运

11-19 80阅读
()

()

点击蓝字 关注我们 摘要 今天

11-19 83阅读
停播超2个月:小杨哥掉粉500万+!

停播超2个月:小杨哥掉粉500

11月15日消息,今

11-19 83阅读
肖战演郭靖!新《射雕》能复兴徐克的武侠梦吗 网友:肩负文化出海重任

肖战演郭靖!新《射雕》能复

11月18日消息,由

11-19 80阅读
迪士尼儿童动画或因LGBT话题停播一集:变性少年参加女子排球赛

迪士尼儿童动画或因LGBT话

据多位参与制作

11-19 82阅读
真人互动恋爱影游《欢迎光临!心动咖啡厅》Steam页面开放 发行日期待定

真人互动恋爱影游《欢迎光

今日(11月16日),真人互动恋爱影游《欢迎

11-19 82阅读
遥远未来的末世乌托邦,2D动作解谜游戏《默途》移动版即将上线

遥远未来的末世乌托邦,2D动

《默途》是由梦匠工作室开发的一款2D

11-19 83阅读
硬件情报站第156期:AMD锐龙9800X3D黄牛价翻倍 网友14900K送保被拒

硬件情报站第156期:AMD锐龙

11-19 89阅读
原神5个战斗性隐藏成就攻略

原神5个战斗性隐藏成就攻

5个战斗性成就是原神须弥地区的隐藏任

11-19 93阅读
饥荒通过卡猪人快速回复san值的详细操作方法

饥荒通过卡猪人快速回复sa

饥荒游戏里面玩家经常会面对san值不足

11-19 90阅读