Google 推出第七代 Ironwood TPU 芯片,借助 AI 进行性能对比

3周前 科技 6观看
摘要 在周三的 Cloud Next 大会上,Google 宣布其第七代 Tensor Processing Units (TPU) 即将向云端客户开放租用,可选择 256 芯片或 9,216 芯片的集群方案。Google 打趣地表示,配备 9,216 个自研 AI

在周三的 Cloud Next 大会上,Google 宣布其第七代 Tensor Processing Units (TPU) 即将向云端客户开放租用,可选择 256 芯片或 9,216 芯片的集群方案。Ft3喜好网-记录每日喜好的科技时尚娱乐生活

Google 打趣地表示,配备 9,216 个自研 AI 加速器的集群可以提供 42.5 exaFLOPS 的算力,是目前全球最强公开超级计算机——美国的 El Capitan (1.7 exaFLOPS) 的 24 倍算力。Ft3喜好网-记录每日喜好的科技时尚娱乐生活

这个数据听起来令人印象深刻,但 Google 的营销团队略过了一个重要细节。42.5 exaFLOPS 的峰值性能是基于 FP8 精度计算的,而 El Cap 在 HPC 专用的 LINPACK 基准测试中实现的 1.74 exaFLOPS 是基于 FP64 精度。实际上,El Cap 的理论峰值性能接近 2.74 FP64 exaFLOPS。Ft3喜好网-记录每日喜好的科技时尚娱乐生活

如果换算成 FP8 精度,这台由 AMD 驱动的 HPE-Cray 超级计算机在密集工作负载下的理论峰值性能约为 87 exaFLOPS,而在稀疏工作负载下可达到其两倍。Google 营销将 42.5 exaFLOPS 的 FP8 与 1.74 exaFLOPS 的 FP64 进行对比是不恰当的,实际应该是 42.5 对比至少 87,这意味着 El Capitan 的性能明显优于 9,216 个 TPU v7 芯片组成的集群。所谓 24 倍的说法在我们看来并不准确。Ft3喜好网-记录每日喜好的科技时尚娱乐生活

当我们就此询问 Google 时,一位发言人表示,云计算巨头只是在对比他们当时能找到的 El Capitan 最好的数据。这让我们不禁联想到 Gemini AI 的风格。Ft3喜好网-记录每日喜好的科技时尚娱乐生活

"我们没有 El Capitan 在 FP8 精度下的持续性能数据,"发言人告诉我们。Ft3喜好网-记录每日喜好的科技时尚娱乐生活

"我们做出这个对比的假设是基于 El Capitan 在 AI 工作负载方面展示了他们的最佳算力数据,因为他们也同样关注 AI。Ft3喜好网-记录每日喜好的科技时尚娱乐生活

虽然 El Capitan 可能支持 FP8,但在没有额外的持续性能数据的情况下,我们无法进行对比。我们不能简单地假设降低精度就能线性提升峰值性能。此外需要注意的是,Ironwood 可以通过我们的高速 Jupiter 数据中心网络扩展到超过单个集群,最多支持 400,000 个芯片或 43 个 TPU v7x 集群。"Ft3喜好网-记录每日喜好的科技时尚娱乐生活

撇开这些对比不谈,Google 最新的代号为 Ironwood 的 TPU 相比去年的 Trillium 有了重大升级。Ft3喜好网-记录每日喜好的科技时尚娱乐生活

每个 TPU 都配备了高达 192GB 的高带宽内存 (HBM),带宽在 7.2-7.4TB/s 之间(发布公告中文字部分和图片分别引用了这两个数字)。该芯片主要面向大语言模型 (LLM) 推理设计。Ft3喜好网-记录每日喜好的科技时尚娱乐生活

如我们之前讨论过的,内存带宽是推理工作负载的主要瓶颈。更大的内存容量意味着芯片可以容纳更大的模型。在原始浮点性能方面,Google 表示每个液冷 TPU v7 能够达到 4.6 petaFLOPS 的密集 FP8 运算能力。这使其性能与 Nvidia 的 Blackwell B200 处于同一水平。Ft3喜好网-记录每日喜好的科技时尚娱乐生活

除了其标志性的张量处理引擎外,Ironwood 还配备了 Google 的 SparseCore,专门用于加速排名和推荐系统中常见的"超大规模嵌入"。Ft3喜好网-记录每日喜好的科技时尚娱乐生活

这些芯片的更多细节可以在 The Next Platform 上找到,预计将于今年晚些时候全面上市。Ft3喜好网-记录每日喜好的科技时尚娱乐生活

为了构建这些集群,每个 TPU 都配备了专门的芯片间互联 (ICI),Google 表示其双向每链路带宽可达 1.2 terabits/s,比 Trillium 提升了 1.5 倍。Ft3喜好网-记录每日喜好的科技时尚娱乐生活

据 Google 表示,9,216 芯片的大型集群在满负载运行时将消耗约 10 兆瓦的功率。Google 没有透露每个芯片的 TDP,但这表明其功耗可能在 700W 到 1kW 之间,与同级别的 GPU 相当。虽然这听起来功耗很大,但 Google 强调这些芯片的效率仍比 2015 年第一代 TPU 提高了 30 倍,性能每瓦比去年的芯片提高了 2 倍。Ft3喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
《无限暖暖》12月5日全球公测

《无限暖暖》12月5日全球公测

11-19 63阅读
雷神G50 Ultra手柄预售:TMR摇杆+扳机震动,179元起

雷神G50 Ultra手柄预售:TMR摇杆+

11-19 62阅读
趁iPhone16的AI还没落地,国产手机卷疯了

趁iPhone16的AI还没落地,国产手机

乔布

11-19 61阅读
摸着Meta过河,百度再战AI眼镜

摸着Meta过河,百度再战AI眼镜

“Goo

11-19 62阅读
中银300亿母基金加速推进

中银300亿母基金加速推进

银行

11-19 65阅读
为什么说当下是最适合李子柒回归的时候?

为什么说当下是最适合李子

作者 / 向   向运营 / 狮子座携“

11-19 59阅读
THE BOYZ金善旴遭私生殴打 警方已经逮捕私生

THE BOYZ金善旴遭私生殴打

  11月14日,据韩媒报道称,男

11-19 58阅读
韩钢琴家任奫灿荣膺法国年度金音叉奖

韩钢琴家任奫灿荣膺法国年

韩国钢琴家任奫灿荣获法国权

11-19 59阅读
曝何炅KTV陪大姐喝酒视频,被搂肩一脸不悦,知情者曝真相

曝何炅KTV陪大姐喝酒视频,

11月18日,主持人何炅成为备受热议的对

11-19 61阅读
24岁影后李庚希被喊黑幕!曾被徐静蕾力捧没听倪萍劝告

24岁影后李庚希被喊黑幕!曾

11月16日晚,金鸡奖评选上曝出最大冷门

11-19 66阅读
20年后焕发新生 《半条命2》在线玩家人数冲上巅峰

20年后焕发新生 《半条命2

根据SteamDB的数据显示,围绕《半条命2

11-19 63阅读
三国群英传3秘籍大全_三国群英传3秘籍代码及使用方法一览

三国群英传3秘籍大全_三国

给大家分享三国群英传3秘籍大全,里面包

11-19 60阅读
CS1.6怎么加机器人?CS1.6加机器人方法

CS1.6怎么加机器人?CS1.6

《CS1.6》也就是大家都玩过的反恐精英

11-19 118阅读
小小突击队礼包码,小小突击队周年礼包码2023.9

小小突击队礼包码,小小突击

小小突击队礼包码来啦!这次为大家带来的

11-19 59阅读
饥荒猪皮怎么获得?饥荒猪皮获得方法详细介绍

饥荒猪皮怎么获得?饥荒猪

饥荒猪皮怎么获得?猪皮是饥荒游戏里面的

11-19 61阅读