Google 推出第七代 Ironwood TPU 芯片,借助 AI 进行性能对比

4个月前 科技 28观看
摘要 在周三的 Cloud Next 大会上,Google 宣布其第七代 Tensor Processing Units (TPU) 即将向云端客户开放租用,可选择 256 芯片或 9,216 芯片的集群方案。Google 打趣地表示,配备 9,216 个自研 AI

在周三的 Cloud Next 大会上,Google 宣布其第七代 Tensor Processing Units (TPU) 即将向云端客户开放租用,可选择 256 芯片或 9,216 芯片的集群方案。8qZ喜好网-记录每日喜好的科技时尚娱乐生活

Google 打趣地表示,配备 9,216 个自研 AI 加速器的集群可以提供 42.5 exaFLOPS 的算力,是目前全球最强公开超级计算机——美国的 El Capitan (1.7 exaFLOPS) 的 24 倍算力。8qZ喜好网-记录每日喜好的科技时尚娱乐生活

这个数据听起来令人印象深刻,但 Google 的营销团队略过了一个重要细节。42.5 exaFLOPS 的峰值性能是基于 FP8 精度计算的,而 El Cap 在 HPC 专用的 LINPACK 基准测试中实现的 1.74 exaFLOPS 是基于 FP64 精度。实际上,El Cap 的理论峰值性能接近 2.74 FP64 exaFLOPS。8qZ喜好网-记录每日喜好的科技时尚娱乐生活

如果换算成 FP8 精度,这台由 AMD 驱动的 HPE-Cray 超级计算机在密集工作负载下的理论峰值性能约为 87 exaFLOPS,而在稀疏工作负载下可达到其两倍。Google 营销将 42.5 exaFLOPS 的 FP8 与 1.74 exaFLOPS 的 FP64 进行对比是不恰当的,实际应该是 42.5 对比至少 87,这意味着 El Capitan 的性能明显优于 9,216 个 TPU v7 芯片组成的集群。所谓 24 倍的说法在我们看来并不准确。8qZ喜好网-记录每日喜好的科技时尚娱乐生活

当我们就此询问 Google 时,一位发言人表示,云计算巨头只是在对比他们当时能找到的 El Capitan 最好的数据。这让我们不禁联想到 Gemini AI 的风格。8qZ喜好网-记录每日喜好的科技时尚娱乐生活

"我们没有 El Capitan 在 FP8 精度下的持续性能数据,"发言人告诉我们。8qZ喜好网-记录每日喜好的科技时尚娱乐生活

"我们做出这个对比的假设是基于 El Capitan 在 AI 工作负载方面展示了他们的最佳算力数据,因为他们也同样关注 AI。8qZ喜好网-记录每日喜好的科技时尚娱乐生活

虽然 El Capitan 可能支持 FP8,但在没有额外的持续性能数据的情况下,我们无法进行对比。我们不能简单地假设降低精度就能线性提升峰值性能。此外需要注意的是,Ironwood 可以通过我们的高速 Jupiter 数据中心网络扩展到超过单个集群,最多支持 400,000 个芯片或 43 个 TPU v7x 集群。"8qZ喜好网-记录每日喜好的科技时尚娱乐生活

撇开这些对比不谈,Google 最新的代号为 Ironwood 的 TPU 相比去年的 Trillium 有了重大升级。8qZ喜好网-记录每日喜好的科技时尚娱乐生活

每个 TPU 都配备了高达 192GB 的高带宽内存 (HBM),带宽在 7.2-7.4TB/s 之间(发布公告中文字部分和图片分别引用了这两个数字)。该芯片主要面向大语言模型 (LLM) 推理设计。8qZ喜好网-记录每日喜好的科技时尚娱乐生活

如我们之前讨论过的,内存带宽是推理工作负载的主要瓶颈。更大的内存容量意味着芯片可以容纳更大的模型。在原始浮点性能方面,Google 表示每个液冷 TPU v7 能够达到 4.6 petaFLOPS 的密集 FP8 运算能力。这使其性能与 Nvidia 的 Blackwell B200 处于同一水平。8qZ喜好网-记录每日喜好的科技时尚娱乐生活

除了其标志性的张量处理引擎外,Ironwood 还配备了 Google 的 SparseCore,专门用于加速排名和推荐系统中常见的"超大规模嵌入"。8qZ喜好网-记录每日喜好的科技时尚娱乐生活

这些芯片的更多细节可以在 The Next Platform 上找到,预计将于今年晚些时候全面上市。8qZ喜好网-记录每日喜好的科技时尚娱乐生活

为了构建这些集群,每个 TPU 都配备了专门的芯片间互联 (ICI),Google 表示其双向每链路带宽可达 1.2 terabits/s,比 Trillium 提升了 1.5 倍。8qZ喜好网-记录每日喜好的科技时尚娱乐生活

据 Google 表示,9,216 芯片的大型集群在满负载运行时将消耗约 10 兆瓦的功率。Google 没有透露每个芯片的 TDP,但这表明其功耗可能在 700W 到 1kW 之间,与同级别的 GPU 相当。虽然这听起来功耗很大,但 Google 强调这些芯片的效率仍比 2015 年第一代 TPU 提高了 30 倍,性能每瓦比去年的芯片提高了 2 倍。8qZ喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
讯飞星火4.0 Turbo正式发布,7项“第一”引领大模型规模化应用落地

讯飞星火4.0 Turbo正式发布,7项“

【锋巢网】大模型应用7项第一!10

11-19 131阅读
看懂小米2024年Q3财报:史上强 手握现金1516亿元

看懂小米2024年Q3财报:史上强 手

11月18日

11-19 115阅读
辽宁省40+高校升级5.5G:上传提升2倍 下载快4.2Gbps

辽宁省40+高校升级5.5G:上传提升2

11月18日

11-19 109阅读
山东新起点完成2000万元A轮融资

山东新起点完成2000万元A轮融资

近日,

11-19 131阅读
川普赢了,马斯克能当上 AI 部部长吗?

川普赢了,马斯克能当上 AI 部部长

图片来源:由无界AI生成2018 年,扎

11-19 112阅读
《小巷人家》:街坊邻里的当代理想化图示

《小巷人家》:街坊邻里的当

作者 / 耳东陈运营 / 狮子座先说一桩

11-19 122阅读
“嫖娼门”王全安:前任个个赛西施,花800元睡站台女,终遭报应

“嫖娼门”王全安:前任个个

11-19 108阅读
中国电影出海专业书刊《走向世界:华语电影的跨国流通与市场策略》正式发布

中国电影出海专业书刊《走

  在首届广州电影产业博览交易会上

11-19 119阅读
陈学冬终于有剧要播了,新剧《漂洋过海再爱你》与宋轶搭档

陈学冬终于有剧要播了,新剧

陈学冬好久没有出新作品了,12月24

11-19 103阅读
《好东西》豆瓣9.1,放映时观众数次鼓掌,导演:桥段全靠硬编

《好东西》豆瓣9.1,放映时

邵艺辉自编自导,宋佳、钟楚曦、章宇、

11-19 125阅读
不能现实换钱的新型NFC?《宝可梦卡牌P》再创新热潮

不能现实换钱的新型NFC?《

近期《宝可梦卡牌P》APP正式推出,引发

11-19 131阅读
和平精英灵敏度怎么调最稳?和平精英灵敏度设置2024最新版

和平精英灵敏度怎么调最稳

《和平精英》是一款全民枪战竞技手游,采

11-19 154阅读
饥荒理智怎么恢复?饥荒超全恢复理智值方法一览

饥荒理智怎么恢复?饥荒超

饥荒理智怎么恢复?在饥荒游戏的设定中,玩

11-19 129阅读
原神八个探索性成就任务攻略|八个探索性隐藏成就做法

原神八个探索性成就任务攻

八个探索性成就是原神须弥地区的隐藏任

11-19 111阅读
饥荒中毒了怎么解毒?饥荒解除中毒状态的详细操作方法

饥荒中毒了怎么解毒?饥荒

饥荒中毒了怎么解毒?在饥荒游戏中玩家偶

11-19 127阅读