Nvidia 表示 Spectrum-X 自适应路由可提升存储网络带宽

6个月前 科技 31观看
摘要 Nvidia 表示,其融合 InfiniBand 技术的 Spectrum-X 以太网可将存储网络的读取带宽提升近 50%。Spectrum-X 是基于 Spectrum-4 ASIC 的以太网交换机产品与 InfiniBand 产品的结合。它支持 RoCE

Nvidia 表示,其融合 InfiniBand 技术的 Spectrum-X 以太网可将存储网络的读取带宽提升近 50%。uQ8喜好网-记录每日喜好的科技时尚娱乐生活

Spectrum-X 是基于 Spectrum-4 ASIC 的以太网交换机产品与 InfiniBand 产品的结合。它支持 RoCE v2 (用于融合以太网上的远程直接内存访问) 和 BlueField-3 SuperNIC。Nvidia 的 InfiniBand 产品具有自适应路由功能,当初始选择的路由繁忙或链路中断时,可以通过最不拥塞的网络路由发送数据包。Spectrum-4 SN5000 交换机提供高达 51.2 Tbps 带宽,配备 64 个 800 Gbps 以太网端口。它具有用于自适应路由和拥塞控制的 RoCE 扩展功能,这些功能可与 BlueField-3 产品协同工作。uQ8喜好网-记录每日喜好的科技时尚娱乐生活

自适应路由的数据包可能会乱序到达目的地,而 Nvidia 的 BlueField-3 产品能够正确重组这些数据包,"将它们按顺序放入主机内存,使自适应路由对应用程序透明。"uQ8喜好网-记录每日喜好的科技时尚娱乐生活

Nvidia 的一篇博客解释说,由于 Spectrum-X 自适应路由能够减轻流量冲突并提高有效带宽,其有效存储性能远高于 RoCE v2,而"RoCE v2 是大多数数据中心用于 AI 计算和存储网络的以太网协议。"uQ8喜好网-记录每日喜好的科技时尚娱乐生活

博客讨论了大语言模型 (LLM) 训练过程中的检查点操作,这种训练可能持续数天、数周甚至数月。系统会定期保存作业状态,这样如果训练运行失败,可以从保存的检查点状态重启,而不是从头开始。博客指出:"对于拥有数十亿和万亿参数的模型,这些检查点状态变得非常大 - 当今最大的 LLM 可达数 TB 数据 - 保存或恢复它们会产生'大象流量'...可能会使交换机缓冲区和链路不堪重负。"uQ8喜好网-记录每日喜好的科技时尚娱乐生活

这里假设检查点数据是通过网络发送到共享存储(例如存储阵列),而不是发送到 GPU 服务器的本地存储,后者是 Microsoft LLM 训练中使用的技术。uQ8喜好网-记录每日喜好的科技时尚娱乐生活

Nvidia 还表示,在 LLM 推理操作中,当从存储 RAG (检索增强生成) 数据的网络存储源向 LLM 发送数据时,也会出现这种网络流量峰值。它解释说:"向量数据库是多维的,可能会非常大,特别是在包含图像和视频的知识库的情况下。"uQ8喜好网-记录每日喜好的科技时尚娱乐生活

RAG 数据需要以最小的延迟发送到 LLM,这在"多租户生成式 AI 工厂中变得更为重要,因为每秒查询量是巨大的。"uQ8喜好网-记录每日喜好的科技时尚娱乐生活

Nvidia 表示已在其 Israel-1 AI 超级计算机上测试了这些 Spectrum-4 功能。测试过程测量了 Nvidia HGX H100 GPU 服务器客户端访问存储时产生的读写带宽,分别在标准 RoCE v2 网络配置下和启用 Spectrum-X 的自适应路由和拥塞控制功能的情况下进行测试。uQ8喜好网-记录每日喜好的科技时尚娱乐生活

测试使用不同数量的 GPU 服务器作为客户端,范围从 40 个到 800 个 GPU。在每种情况下,Spectrum-X 都表现更好,读取带宽提升 20% 到 48%,写入带宽提升 9% 到 41%。uQ8喜好网-记录每日喜好的科技时尚娱乐生活

Nvidia 表示 Spectrum-X 与其他产品配合良好,可加速存储到 GPU 的数据路径:uQ8喜好网-记录每日喜好的科技时尚娱乐生活

- AIR 云端网络模拟工具,用于对交换机、SuperNIC 和存储建模 - Cumulus Linux 网络操作系统,围绕自动化和 API 构建,"确保大规模运营和管理的顺畅" - 用于 SuperNIC 和 DPU 的 DOCA SDK,为存储、安全等提供可编程性和性能 - 与交换机遥测集成的 NetQ 网络验证工具集 - GPUDirect Storage,用于存储和 GPU 内存之间的直接数据路径,提高数据传输效率uQ8喜好网-记录每日喜好的科技时尚娱乐生活

我们可以期待 Nvidia 的合作伙伴如 DDN、Dell、HPE、Lenovo、VAST Data 和 WEKA 将支持这些 Spectrum-X 功能。uQ8喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
抖音电商拐点已至,从美妆行业开始跌落?

抖音电商拐点已至,从美妆行业开始

前几日,抖音首次公布了“双11”大

11-19 121阅读
SVM频闪指标低的旗舰!iQOO Neo10系列屏幕参数出炉

SVM频闪指标低的旗舰!iQOO Neo10

11月18日

11-19 117阅读
李子柒复更,三大平台提前过年

李子柒复更,三大平台提前过年

停更1

11-19 108阅读
LP周报丨珠海给去看展的投资人,送上了100亿大礼包

LP周报丨珠海给去看展的投资人,送

最近

11-19 120阅读
生成式AI热潮之下,应届毕业生的机会何在?

生成式AI热潮之下,应届毕业生的机

图片来源:由无界AI生成“互联网充

11-19 123阅读
长安十二时辰龙波是好是坏 龙波扮演者是谁资料作品介绍(长安十二时辰龙波是好是坏)

长安十二时辰龙波是好是坏

《长安十二时辰》这部剧正在热播,在

11-19 101阅读
李子柒被质疑漆器做假,发出过敏照片力证,全身红肿成“电视机”

李子柒被质疑漆器做假,发出

2024年11月12日停更长达三年的李子柒

11-19 128阅读
《好东西》豆瓣9.1,放映时观众数次鼓掌,导演:桥段全靠硬编

《好东西》豆瓣9.1,放映时

邵艺辉自编自导,宋佳、钟楚曦、章宇、

11-19 128阅读
李子柒为何依然重要

李子柒为何依然重要

自从李子柒上次

11-19 108阅读
《白夜追凶》续集来了 白夜破晓全阵容官宣:潘粤明等原班人马

《白夜追凶》续集来了 白

11月16日消息,“

11-19 103阅读
《如龙8外传 夏威夷海盗》演员采访视频:谷田步篇

《如龙8外传 夏威夷海盗》

世嘉公开了《人中之龙8外传Pirates in

11-19 129阅读
原子之心武器蓝图攻略_全武器蓝图获取方法详细介绍

原子之心武器蓝图攻略_全

原子之心游戏里面玩家可以通过获取武器

11-19 112阅读
饥荒无消耗驯服猪人的详细操作方法

饥荒无消耗驯服猪人的详细

猪人是饥荒游戏里面的特殊生物,因为数量

11-19 116阅读
原神愚人者人愚之任务攻略|愚人者人愚之隐藏任务详解

原神愚人者人愚之任务攻略

愚人者人愚之是原神须弥地区的隐藏任务

11-19 129阅读
饥荒萤火虫怎么捕捉?饥荒捕捉萤火虫的技巧分享

饥荒萤火虫怎么捕捉?饥荒

在饥荒游戏里面,我们可以通过捕捉萤火虫

11-19 110阅读