谷歌“Ironwood” TPU Pod与其他AI超级计算机的对比

2周前 科技 2观看
摘要 作为上周Google Cloud Next 2025大会前的预简报以及主旨演讲期间,谷歌高层不断将一组“Ironwood” TPU v7p系统的Pod与劳伦斯利弗莫尔国家实验室的“El Capitan”超级计算机进行对比。他们反

作为上周Google Cloud Next 2025大会前的预简报以及主旨演讲期间,谷歌高层不断将一组“Ironwood” TPU v7p系统的Pod与劳伦斯利弗莫尔国家实验室的“El Capitan”超级计算机进行对比。他们反复这么做,而且方式错误,这让我们感到非常恼火。0z9喜好网-记录每日喜好的科技时尚娱乐生活

在大规模AI系统方面,进行这样的比较是完全合理的,即便在一种情况下(El Capitan)该机器的主要用途是运行传统的高性能计算(HPC)仿真和建模工作负载,而在另一种情况下(Ironwood Pod)该机器根本无法进行高精度浮点计算,实际上只是为了进行AI训练和推理。可以说,采用CPU和GPU混合架构进行计算的机器,由于其在数值类型和精度上的广泛适用性以及能够处理多种工作负载,更像是通用机器,而这种多用途的机器架构确实具有一定价值。0z9喜好网-记录每日喜好的科技时尚娱乐生活

然而,事实证明,劳伦斯利弗莫尔的El Capitan以及阿贡国家实验室的“Aurora”等超大规模机器,完全可以与使用定制XPU加速器构建的机器相抗衡,归功于美国能源部与超级计算机制造商之间达成的优惠协议,这些系统在性价比方面明显优于谷歌自己使用设备的支付成本,并远远低于谷歌向客户出租TPU进行AI工作负载时收取的费用。0z9喜好网-记录每日喜好的科技时尚娱乐生活

下面是我们看到的一张问题图表:0z9喜好网-记录每日喜好的科技时尚娱乐生活

谷歌“Ironwood” TPU Pod与其他AI超级计算机的对比0z9喜好网-记录每日喜好的科技时尚娱乐生活

在这组数据中,谷歌将El Capitan的持续性能与采用44,544个AMD “Antares-A” Instinct MI300A混合CPU-GPU计算引擎的系统在64位浮点精度下运行High Performance LINPACK(HPL)基准测试的成绩相比,后者是以理论峰值性能与配有9,216个TPU v7p计算引擎的Ironwood pod进行比较。0z9喜好网-记录每日喜好的科技时尚娱乐生活

这是一个完全荒谬的比较,谷歌的高层本应该知道这一点,而且他们确实知道。但或许更重要的是,性能只是故事的一半。你还必须考虑计算成本。高性能必须以尽可能低的成本实现,而没有人比美国能源部在获取HPC设备方面获得更好的优惠了。0z9喜好网-记录每日喜好的科技时尚娱乐生活

在缺少大量数据的情况下,我们对现代AI/HPC系统进行了价格/性能分析,其中许多系统是基于CPU与GPU的组合构建的,其中GPU来自AMD或Nvidia,而CPU在原始计算能力方面并非特别关键。请看下图:0z9喜好网-记录每日喜好的科技时尚娱乐生活

谷歌“Ironwood” TPU Pod与其他AI超级计算机的对比0z9喜好网-记录每日喜好的科技时尚娱乐生活

我们意识到这个比较并不完美。谷歌和Amazon Web Services的定价包括租用系统三年的成本,当然这还包含了电力、冷却、设施和管理费用。而对于图中许多超级计算机,预算则涵盖了三至四年期间的设施、电力和冷却费用,我们尽力不将将机器投入使用及调试过程中所涉及到的一次性工程成本(NRE)计算在内。对于各个AI机器,我们在没有相关信息时对机器规模和成本做出了估计。0z9喜好网-记录每日喜好的科技时尚娱乐生活

所有估计部分均以粗斜红体标示,对于暂时无法做出估算的数据我们都以问号标明。0z9喜好网-记录每日喜好的科技时尚娱乐生活

我们只显示了通过3D环面互连连接在一起形成相当大规模Pod的TPU系统。因此,上一代仅能在2D环面拓扑下扩展到256个计算引擎的“Trillium” TPU v6e系统未被纳入对比。0z9喜好网-记录每日喜好的科技时尚娱乐生活

正如你所预期的那样,在过去的四年中,无论是FP64高精度处理,还是FP16和FP8低精度处理的成本都有所下降,而机器性能则持续提高。这本身是件好事。但机器的成本却增长迅速,以至于我们如今所称的“能力级”AI超级计算机价格已经高达数十亿美元。(例如上图中展示的xAI“Colossus”机器,于去年安装。)0z9喜好网-记录每日喜好的科技时尚娱乐生活

在上表中,我们计算了在长期承诺折扣(CUDs,与Amazon Web Services中的预留实例定价类似,可为长期租用提供折扣)下谷歌TPU pod的租用成本。传统的HPC超级计算机通常在投入使用时可维持三年,有时甚至四年,因此这是一个很好的比较点。对于Ironwood TPU pod的估算价格,我们假设谷歌在从TPU v4 pod跳跃到TPU v5p pod时采取了较为激进的定价策略。0z9喜好网-记录每日喜好的科技时尚娱乐生活

现在,为了解除混淆。一个Ironwood TPU v7p pod在FP16精度下的额定性能为21.26 exaflops,而在FP8精度下则翻倍达到42.52 exaflops。该Pod具有1.69 PB的HBM内存,我们估计其构建成本约为4.45亿美元,三年租用成本超过11亿美元。换算下来,谷歌使用由9,216个Ironwood TPU互联组成的Ironwood pod,每Teraflops的成本大约为21美元,而租用成本大约为每Teraflops 52美元。0z9喜好网-记录每日喜好的科技时尚娱乐生活

由惠普企业构建的El Capitan机器花费劳伦斯利弗莫尔600万美元美金(600百万美元),这相当于在FP16精度下的峰值性能成本为每Teraflops 14美元。由于Intel在阿贡的“Aurora”机器上核销了3亿美元,导致该DOE实验室仅花费2亿美元购置这套AI/HPC系统,这台系统在FP16精度下的16.1 exaflops性能使得每Teraflops的成本仅为12美元。值得一提的是,Aurora机器所使用的“Ponte Vecchio” GPU与El Capitan的MI300A CPU-GPU混合系统以及Ironwood pod的TPU v7p引擎不同,它们不支持FP8处理,但支持INT8处理,就像之前两代在3D环面架构下使用的谷歌TPU一样。0z9喜好网-记录每日喜好的科技时尚娱乐生活

FP8和INT8格式在任何具备该功能且其工作负载能利用该功能的机器上,都能使价格/性能比翻倍;而FP4(Nvidia的“Blackwell” GPU上提供,并将在未来的XPU AI计算引擎中添加)则再次将其翻倍。0z9喜好网-记录每日喜好的科技时尚娱乐生活

我们基于HPC使用FP64性能、AI使用FP16性能进行归一化处理以便简单比较,但也增加了一栏用于FP8或INT8处理。各公司目前都会尽可能在训练和推理过程中使用统一的浮点格式,最终INT16、INT8和INT4格式也将逐步被淘汰。0z9喜好网-记录每日喜好的科技时尚娱乐生活

AWS P5 UltraCluster是由Nvidia “Hopper” H100 GPU构建的集群的典型代表,这些GPU在2022年末、2023年以及2024年初都在使用。我们计算了租用一台拥有20,000个GPU的集群的成本,并依据当时普遍的H100及其他系统成本反推了预估的购置成本。Microsoft Azure和Google Cloud建造类似设备以及向最终用户出租其运算能力所需花费的大致相同。实际上,AWS和Microsoft已经锁定了GPU实例的价格,而这种做法是否合法尚存争议。0z9喜好网-记录每日喜好的科技时尚娱乐生活

如果我们的估计正确,Ironwood pod的构建成本和客户租用成本,大约只有这些具备类似性能的H100集群成本的三分之一,而且其使用的计算引擎数量还不到后者的一半(至少从插槽数量上来看是如此)。0z9喜好网-记录每日喜好的科技时尚娱乐生活

但最后,我们必须明确一点。在峰值理论性能上,El Capitan在FP16和FP8精度下的性能要比Ironwood pod高2.05倍。Ironwood pod并不具备El Capitan 24倍的性能。的确,El Capitan在FP64精度下具有2.73 exaflops的峰值性能,而Ironwood则完全没有,且El Capitan在HPL测试中以FP64模式获得了1.74 exaflops的成绩。0z9喜好网-记录每日喜好的科技时尚娱乐生活

我们目前还没有El Capitan的HPL-MxP测试结果,但预计将在2025年6月于汉堡举行的ISC大会上公布。HPL-MxP使用大量混合精度计算以达到与全FP64计算在HPL测试中相同的结果,如今这种方法能提供大约一个数量级的有效性能提升。这种混合精度的使用预示了未来真正的HPC应用可通过调整和提升低精度计算来或者在相同硬件上完成更多工作,或者用更少的硬件完成相同工作量的方向。0z9喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
电池容量大了iPhone快一倍 今年国产手机咋突然悟了

电池容量大了iPhone快一倍 今年

不知道为

11-19 64阅读
小米发布超级智能驾驶技术Hyper Autonomous Driving(HAD)

小米发布超级智能驾驶技术Hyper

11-19 61阅读
93亿并购,“弟弟”成了“爹”

93亿并购,“弟弟”成了“爹”

11月1

11-19 60阅读
中银300亿母基金加速推进

中银300亿母基金加速推进

银行

11-19 65阅读
千诀科技完成数千万元天使轮融资

千诀科技完成数千万元天使轮融资

近日,

11-19 62阅读
2012年,“非诚勿扰”女高朋王佳暴虐杀害丈夫,如今快要出狱了

2012年,“非诚勿扰”女高朋

11-19 60阅读
深入人心的人生句子,精致有个性,总有一句适合你(深入人心的人生句子)

深入人心的人生句子,精致有

一、 人生没有多走的路,脚下的每

11-19 61阅读
2024东方卫视跨年首发阵容,胡歌唐嫣代表《繁花》剧组亮相

2024东方卫视跨年首发阵容

12月25日,2024东方卫视跨年首发阵

11-19 58阅读
44岁董洁:曾是无数人的“白月光”,却陷入中年尴尬

44岁董洁:曾是无数人的“白

董洁,她曾经是无数人心中的白月光,但也

11-19 62阅读
24岁影后李庚希被喊黑幕!曾被徐静蕾力捧没听倪萍劝告

24岁影后李庚希被喊黑幕!曾

11月16日晚,金鸡奖评选上曝出最大冷门

11-19 66阅读
帝国时代4秘籍大全2024_帝国时代4国家崛起秘籍作弊码大全(含隐藏秘籍)

帝国时代4秘籍大全2024_帝

帝国时代4是帝国时代4系列游戏的最新版

11-19 103阅读
在360安装目录创建exe文件提示目标文件夹访问被拒绝的解决方法

在360安装目录创建exe文件

最近有网友反映,自己想要在360安全卫士

11-19 90阅读
奥特曼格斗进化0怎么获得奥特之父?奥特曼格斗进化0解锁奥父教程

奥特曼格斗进化0怎么获得

《奥特曼格斗进化0》游戏中玩家可以操

11-19 111阅读
饥荒存档在哪个文件夹?饥荒存档位置一览

饥荒存档在哪个文件夹?饥

饥荒存档在哪个文件夹?饥荒游戏里面玩家

11-19 158阅读
原神训练有素的考古学家隐藏成就任务攻略

原神训练有素的考古学家隐

训练有素的考古学家是须弥沙漠地区的隐

11-19 64阅读