IBM Storage Scale被采用于Blue Vela AI超级计算机

8个月前 科技 56观看
摘要 IBM的Vela AI超级计算机功能已经不足以满足IBM研究院的AI训练需求。于是2023年开始研发的Blue Vela旨在满足GPU计算能力方面的重大扩展,用以支持AI模型训练需求。截至目前,Blue Vela正被积极用

IBM的Vela AI超级计算机功能已经不足以满足IBM研究院的AI训练需求。于是2023年开始研发的Blue Vela旨在满足GPU计算能力方面的重大扩展,用以支持AI模型训练需求。截至目前,Blue Vela正被积极用于运行Granite模型训练作业。0dZ喜好网-记录每日喜好的科技时尚娱乐生活

IBM Storage Scale被采用于Blue Vela AI超级计算机0dZ喜好网-记录每日喜好的科技时尚娱乐生活

IBM Blue Vela示意图。0dZ喜好网-记录每日喜好的科技时尚娱乐生活

Blue Vela基于英伟达的SuperPod概念打造,并采用IBM自家的Storage Scale设备。0dZ喜好网-记录每日喜好的科技时尚娱乐生活

Vela被托管在IBM Cloud之上,但Blue Vela集群则托管在IBM研究院的本地数据中心当中。这意味着IBM研究院拥有全部系统组件的所有权及责任,涵盖从基础设施层到软件技术栈的整个体系。0dZ喜好网-记录每日喜好的科技时尚娱乐生活

IBM Storage Scale被采用于Blue Vela AI超级计算机0dZ喜好网-记录每日喜好的科技时尚娱乐生活

Blue Vela系统中的各层。0dZ喜好网-记录每日喜好的科技时尚娱乐生活

随着训练体量更大、连接更紧密的模型所需要的GPU数量的增长,通信延迟成为影响结果的关键瓶颈。因此,Blue Vela的设计从网络起步,围绕四种不同专用网络构建而成。0dZ喜好网-记录每日喜好的科技时尚娱乐生活

  • 计算InfiniBand结构,促进GPU到GPU之间的通信,如下所示;
  • 存储InfiniBand结构,提供对各存储子系统的访问,如下所示;
  • 带内以太网主机网络,用于计算结构外部各节点间的通信;
  • 带外网络(也称管理网络),提供对服务器和交换机上的管理接口的访问。

Blue Vela基于英伟达的SuperPod参考架构。其采用128节点计算Pod,其中包含4个可扩展单元,每单元又包含32个节点。这些节点均采用英伟达H100 GPU。英伟达的Unified Fabric Manager统一结构管理器(FCM)则用于管理由计算和存储结构组成的InfiniBand网络。该管理器有助于识别并解决单个GPU限流或者不可用问题,而且无法兼容以太网网络。0dZ喜好网-记录每日喜好的科技时尚娱乐生活

IBM Storage Scale被采用于Blue Vela AI超级计算机0dZ喜好网-记录每日喜好的科技时尚娱乐生活

IBM Storage Scale被采用于Blue Vela AI超级计算机0dZ喜好网-记录每日喜好的科技时尚娱乐生活

各计算节点基于戴尔PowerEdge XE9680服务器,具体组成包括:0dZ喜好网-记录每日喜好的科技时尚娱乐生活

  • 双48核第四代Gen英特尔至强Scalable处理器;
  • 八英伟达H100 GPU加80 GB高带宽内存(HBM);
  • 2 TB RAM;
  • 十英伟达ConnectX-7 NDR 400 Gbps InfiniBand主机通信适配器(HCA);

-其中八个专用于计算结构;0dZ喜好网-记录每日喜好的科技时尚娱乐生活

-两个专用于存储结构0dZ喜好网-记录每日喜好的科技时尚娱乐生活

  • 八块4 TB Enterprise NVMe U.2 Gen4 SSD;
  • 双25G以太网主机链路;
  • 1G管理以太网端口。

 0dZ喜好网-记录每日喜好的科技时尚娱乐生活

IBM“修改了标准存储结构配置,旨在集成IBM新的Storage Scale System(SSS)6000,我们自己也成为首家部署该系统的公司。”0dZ喜好网-记录每日喜好的科技时尚娱乐生活

这些SSS设备属于集成化的纵向/横向扩展存储系统,可容纳1000台设备,且安装有Storage Scale。其支持自动、透明的数据缓存以加快查询速度。0dZ喜好网-记录每日喜好的科技时尚娱乐生活

每个SSS 6000设备均可通过其InfiniBand和PCI Gen 5互连提供高达310 GBps的读取吞吐量及155 GBps的写入吞吐量。Blue Vela最初拥有两个满配SSS 6000机箱,每机箱配备48 x 30 TB U.2 G4 NVMe驱动器,可提供近3 PB的原始存储容量。每台SSS设备最多可额外再容纳七个外部JBOD机箱,每机箱最多可提供22 TB的容量扩展。此外,Blue Vela结构最多可容纳32台SSS 6000设备。0dZ喜好网-记录每日喜好的科技时尚娱乐生活

IBM Storage Scale被采用于Blue Vela AI超级计算机0dZ喜好网-记录每日喜好的科技时尚娱乐生活

IBM表示,基于FCM驱动器及3:1压缩比率,其最大有效容量可高达5.4 PB,具体取决于存储在FCM当中的数据特性。0dZ喜好网-记录每日喜好的科技时尚娱乐生活

Blue Vela使用戴尔PowerEdge R760XS服务器以建立单独的管理节点,可用于运行身份验证与授权、工作负载调度、可观察性及安全性等服务。0dZ喜好网-记录每日喜好的科技时尚娱乐生活

在性能方面,论文作者表示“从一开始,这套基础设施也表现出了良好的吞吐量潜力。与同等配置的其他环境相比,其开箱即用性能提高了5%。”0dZ喜好网-记录每日喜好的科技时尚娱乐生活

“集群的当前性能显示出良好的吞吐量水平(每天90至321B,具体取决于训练设置与实际训练的模型)。”0dZ喜好网-记录每日喜好的科技时尚娱乐生活

Blue Vela性能统计。0dZ喜好网-记录每日喜好的科技时尚娱乐生活

IBM研究论文中列出了关于Blue Vela数据中心设计、管理功能以及软件堆栈的更多详细信息,感兴趣的朋友可以点击此处(https://arxiv.org/abs/2407.05467)查看。0dZ喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
国产男装,终于靠女性“支棱”起来了?

国产男装,终于靠女性“支棱”起来

文丨关樾出品丨消费最前线去年双

11-19 123阅读
辽宁省40+高校升级5.5G:上传提升2倍 下载快4.2Gbps

辽宁省40+高校升级5.5G:上传提升2

11月18日

11-19 105阅读
‌OPPO Reno13系列及IoT生态新品发布会定于11月25日

‌OPPO Reno13系列及IoT生态新品

11-19 114阅读
《无限暖暖》12月5日全球公测

《无限暖暖》12月5日全球公测

11-19 105阅读
孙正义黄仁勋互曝往事:差点买下英伟达,错失两千亿美元

孙正义黄仁勋互曝往事:差点买下英

孙正

11-19 107阅读
冯小刚和范冰冰关系不简单, 冯小刚力挺范冰冰复出引众怒

冯小刚和范冰冰关系不简单

众所周知范爷范冰冰在还没被封杀

11-19 103阅读
《号手就位》主角为什么都选择入伍,最后他们如何了?

《号手就位》主角为什么都

《号手就位》是中国首部火箭军题

11-19 111阅读
要回归了?李奈映透露丈夫元斌正在选剧本 有望复出拍戏

要回归了?李奈映透露丈夫元

47岁韩国男星元斌,凭着帅气

11-19 100阅读
老九门张副官是不是百岁山?饰演张副官的演员是谁?

老九门张副官是不是百岁山

在热门电视剧《老九门》中,张副官

11-19 124阅读
演员许文广《故乡的泥土》央八开播 首演农民角色获赞好真实

演员许文广《故乡的泥土》

  近日,由原著作者田运章担任总编剧,

11-19 100阅读
《Amerzone:探险家的记忆传承》跳票至明年第二季度

《Amerzone:探险家的记忆传

Microids已将重制版游戏《Amerzone:探

11-19 124阅读
和平精英灵敏度怎么调最稳?和平精英灵敏度设置2024最新版

和平精英灵敏度怎么调最稳

《和平精英》是一款全民枪战竞技手游,采

11-19 148阅读
原神终将结束的花神诞祭全任务攻略一览

原神终将结束的花神诞祭全

终将结束的花神诞祭是原神须弥地区主线

11-19 122阅读
原子之心激光模块解谜攻略

原子之心激光模块解谜攻略

原子之心游戏里面有一个被动安保激光模

11-19 112阅读
原神失物匿于繁华任务怎么做|失物匿于繁华任务攻略

原神失物匿于繁华任务怎么

失物匿于繁华是原神须弥地区魔神主线任

11-19 121阅读