深入解析 Nvidia 的 AI 推理"操作系统"Dynamo

4个月前 科技 33观看
摘要 在本周的 GPU 技术大会 (GTC) 上,Nvidia 的 Blackwell Ultra 以及即将推出的 Vera 和 Rubin CPU 和 GPU 成为了讨论的焦点。但是这次年度开发者盛会最重要的公告之一可能并非芯片,而是一个名为

在本周的 GPU 技术大会 (GTC) 上,Nvidia 的 Blackwell Ultra 以及即将推出的 Vera 和 Rubin CPU 和 GPU 成为了讨论的焦点。但是这次年度开发者盛会最重要的公告之一可能并非芯片,而是一个名为 Dynamo 的软件框架,它旨在解决大规模 AI 推理的挑战。yrM喜好网-记录每日喜好的科技时尚娱乐生活

在 GTC 舞台上宣布的 Dynamo 被 CEO Jensen Huang 描述为"AI 工厂的操作系统",并被比作引发工业革命的现实世界中的发电机。"发电机是启动上一次工业革命的第一个工具,"这位首席执行官说。"能源的工业革命——水进来,电出去。"yrM喜好网-记录每日喜好的科技时尚娱乐生活

从本质上来说,这个开源推理套件旨在更好地优化推理引擎,如 TensorRT LLM、SGLang 和 vLLM,以便在大量 GPU 上尽可能快速高效地运行。yrM喜好网-记录每日喜好的科技时尚娱乐生活

正如我们之前讨论过的,从模型中更快、更便宜地输出一个个 token,用户体验就会更好。yrM喜好网-记录每日喜好的科技时尚娱乐生活

推理比表面看起来更难yrM喜好网-记录每日喜好的科技时尚娱乐生活

从高层次看,LLM 输出性能可以分为两大类:预填充 (Prefill) 和解码 (Decode)。预填充取决于 GPU 的浮点矩阵数学加速器处理输入提示的速度。提示越长——比如一个摘要任务——这通常需要更长的时间。yrM喜好网-记录每日喜好的科技时尚娱乐生活

另一方面,解码是大多数人与 LLM 性能相关联的部分,它等同于 GPU 能够多快地生成对用户提示的实际 token 响应。yrM喜好网-记录每日喜好的科技时尚娱乐生活

只要你的 GPU 有足够的内存来容纳模型,解码性能通常是内存速度和你生成的 token 数量的函数。一个内存带宽为 8TB/s 的 GPU 将比一个 3.35TB/s 的 GPU 快两倍多地输出 token。yrM喜好网-记录每日喜好的科技时尚娱乐生活

当你开始考虑为更多人提供更大的模型,以及更长的输入和输出序列(如你可能在 AI 研究助手或推理模型中看到的)时,事情开始变得复杂。yrM喜好网-记录每日喜好的科技时尚娱乐生活

大型模型通常分布在多个 GPU 上,而实现这一点的方式可能对性能和吞吐量产生重大影响,这是 Huang 在他的主题演讲中详细讨论的内容。yrM喜好网-记录每日喜好的科技时尚娱乐生活

从 Nvidia CEO Jensen Huang 主题演讲的这张幻灯片可以看出,根据模型分布方式的不同,推理性能可能有很大差异。该图表显示了单个用户的每秒 token 数与每兆瓦总体每秒 token 数之间的关系... 点击放大yrM喜好网-记录每日喜好的科技时尚娱乐生活

"在帕累托前沿下有数百万个点,我们可以用来配置数据中心。我们可以以许多不同的方式并行化、拆分工作并分片工作,"他说。yrM喜好网-记录每日喜好的科技时尚娱乐生活

他的意思是,根据模型的并行方式,你可能能够服务数百万并发用户,但每个用户只有 10 个 token/秒。同时,另一种组合可能只能处理几千个并发请求,但能在眨眼间生成数百个 token。yrM喜好网-记录每日喜好的科技时尚娱乐生活

据 Huang 表示,如果你能找出在这条曲线上的哪个点,你的工作负载能提供理想的个体性能组合,同时也能实现最大可能的吞吐量,那么你就能为你的服务收取溢价,同时也能降低运营成本。我们想象这正是至少一些 LLM 提供商在将其生成式应用和服务扩展到越来越多客户时所面临的平衡挑战。yrM喜好网-记录每日喜好的科技时尚娱乐生活

启动 DynamoyrM喜好网-记录每日喜好的科技时尚娱乐生活

据我们了解,在性能和吞吐量之间找到这种平衡点是 Dynamo 提供的关键能力之一。yrM喜好网-记录每日喜好的科技时尚娱乐生活

除了为用户提供关于什么是专家、流水线或张量并行的理想组合的见解外,Dynamo 还将预填充和解码分离到不同的加速器上。yrM喜好网-记录每日喜好的科技时尚娱乐生活

根据 Nvidia 的说法,Dynamo 中的 GPU 规划器会根据需求确定应该有多少加速器专用于预填充和解码。yrM喜好网-记录每日喜好的科技时尚娱乐生活

然而,Dynamo 不仅仅是一个 GPU 分析器。该框架还包括提示路由功能,它可以识别并将重叠的请求引导到特定的 GPU 组,以最大化键值 (KV) 缓存命中的可能性。yrM喜好网-记录每日喜好的科技时尚娱乐生活

如果你不熟悉,KV 缓存代表模型在任何给定时间的状态。因此,如果多个用户在短时间内询问类似的问题,模型可以从这个缓存中提取信息,而不必一次又一次地重新计算模型状态。yrM喜好网-记录每日喜好的科技时尚娱乐生活

除了智能路由器外,Dynamo 还具有低延迟通信库,用于加速 GPU 到 GPU 的数据流,以及内存管理子系统,负责将 KV 缓存数据从 HBM 推送或拉取到系统内存或冷存储,以最大化响应性并最小化等待时间。yrM喜好网-记录每日喜好的科技时尚娱乐生活

对于运行 Llama 模型的基于 Hopper 的系统,Nvidia 声称 Dynamo 可以有效地将推理性能提高一倍。同时,对于更大的 Blackwell NVL72 系统,GPU 巨头声称启用该框架后,DeepSeek-R1 比 Hopper 有 30 倍的优势。yrM喜好网-记录每日喜好的科技时尚娱乐生活

广泛兼容性yrM喜好网-记录每日喜好的科技时尚娱乐生活

虽然 Dynamo 显然针对 Nvidia 的硬件和软件栈进行了调优,但与它所取代的 Triton 推理服务器一样,该框架旨在与流行的模型服务软件库集成,如 vLLM、PyTorch 和 SGLang。yrM喜好网-记录每日喜好的科技时尚娱乐生活

这意味着,如果你正在使用包含多个 AMD 或 Intel 加速器以及 Nvidia GPU 的异构计算环境,你不需要认证和维护另一个推理引擎,而是可以继续使用 vLLM 或 SGLang(如果你已经在使用这些)。yrM喜好网-记录每日喜好的科技时尚娱乐生活

显然,Dynamo 不会与 AMD 或 Intel 硬件一起工作,但它将在任何 Nvidia GPU 上运行,追溯到 Ampere 架构。因此,如果你仍在使用一堆 A100,你仍然可以从 Nvidia 的新 AI 操作系统中受益。yrM喜好网-记录每日喜好的科技时尚娱乐生活

Nvidia 已经在 GitHub 上发布了使用 Dynamo 的指南,并将提供该框架作为容器镜像——或称为 NIM——以便于部署。(R)yrM喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
比亚迪造出的第一款实车“316”亮相,王传福称第二天就砍掉了

比亚迪造出的第一款实车“316”

11 月

11-19 128阅读
《无限暖暖》12月5日全球公测

《无限暖暖》12月5日全球公测

11-19 109阅读
红魔10 Pro系列发布:骁龙8至尊版+1.5K 144Hz“悟空屏”,起售价4999元

红魔10 Pro系列发布:骁龙8至尊版+

11-19 105阅读
撑起“北方第二城”,凭什么是它?

撑起“北方第二城”,凭什么是它?

全国

11-19 116阅读
这个东北小镇,拿捏年轻人的第一件貂

这个东北小镇,拿捏年轻人的第一件

你会

11-19 128阅读
6年前,主持实习生弦子,为何诬告朱军性骚扰?如今她又怎样了?

6年前,主持实习生弦子,为何

11-19 107阅读
《权利的游戏》二丫结局是什么?她杀死了夜王?

《权利的游戏》二丫结局是

《权利的游戏》二丫结局是什在美

11-19 105阅读
电影《朝花夕拾》将映   张珊萌担任制片人及主演

电影《朝花夕拾》将映

  “积谷防饥,养儿防老”,关注乡村“

11-19 109阅读
日本导演神山健治执导 动画电影《指环王:洛汗之战》内地定档12月14日

日本导演神山健治执导 动

11月19日消息,今

11-19 121阅读
2024年全球票房十强!电影《毒液:最后一舞》中国票房破6亿

2024年全球票房十强!电影《

11月13日消息,根

11-19 107阅读
《暗喻幻想: ReFantazio》发布最新宣传片 “剧情预告片2”

《暗喻幻想: ReFantazio》

《暗喻幻想: ReFantazio》发布最新宣传

11-19 112阅读
TGA:DLC、拓展包、新赛季、重制版等均可提名所有奖项

TGA:DLC、拓展包、新赛季、

今日(11月16日),TGA主创Geoff Keighley与

11-19 120阅读
原神疗养观察任务流程|原神疗养观察攻略

原神疗养观察任务流程|原

原神疗养观察是游戏中须弥地区魔神任务

11-19 104阅读
原神大走廊的尽头隐藏成就|大走廊的尽头任务攻略

原神大走廊的尽头隐藏成就

大走廊的尽头是原神须弥沙漠地区的隐藏

11-19 131阅读
饥荒宠物洞召唤宠物所需物品一览

饥荒宠物洞召唤宠物所需物

宠物洞是饥荒游戏里面的一个特殊场景,在

11-19 127阅读