随着摩尔定律接近终点,数据中心功耗问题日益严峻,AMD正在制定雄心勃勃的新目标:到2030年将芯片能效提升20倍。该公司认为机架级架构是实现这一目标的关键设计要素。
"这里有一个反直觉的现象......设备越大,效率越高,"AMD高级副总裁兼院士Sam Naffziger表示。"我们正在将过去需要整个机架的计算设备整合到单一封装中。"
AMD率先将这一理念应用于CPU和GPU,采用芯片组架构克服了掩模版尺寸限制,从每瓦功耗中榨取更多性能。
这一设计理念的终极体现是AMD的MI300系列APU和GPU,它们形成了由3D堆叠计算单元、I/O芯片和中介层组成的密集三明治结构。
**机架级解决方案**
如今,AMD正将目光投向芯片封装和节点之外的机架级设计,以在未来几年推动效率提升。
"这是我们能够持续显著改进的方式——几乎在数据中心层面进行架构设计,"Naffziger说道。
AMD并非首家得出这一结论的公司。去年GTC大会上,英伟达发布了首个机架级系统GB200 NVL72。
传统上,两家公司的GPU系统都使用NVLink或InfiniBand等高速互连技术来整合资源,让四个或八个加速器协同工作如同一个大型单元。
在GB200 NVL72中,英伟达将这种扩展网络延伸到机架级别,使用18个NVLink交换芯片让这个120kW巨兽的72个Blackwell GPU协同运作。
今年春季,英伟达公布了将此架构扩展到144个乃至576个GPU的计划,功耗可达600kW。
然而,这一理念的历史可以追溯得更远。
"机架级实际上是重新发明了IBM在80年代通过共享内存空间、加载和存储实现的扩展多处理技术,"但现在我们讨论的不是几十台System/370大型机,而是数十个、甚至数百个GPU,Naffziger如此表示。
AMD首个机架级计算平台计划于明年随MI400发布一同推出。Naffziger表示它将遵循与英伟达NVL系统相同的基本模式,但使用通用加速器链路UALink互连而非NVLink。不过,未来的设计可能会有很大不同。
值得注意的是,Naffziger预计光子互连可能在未来五年内取代扩展结构中的铜线。共封装光学器件(CPO)长期以来一直承诺提供比铜缆或走线更大的带宽和传输距离,但激光器功耗增加的问题一直制约着其发展。
"一切都由经济性驱动,我们已经到了经济性将偏向光学的时点,"Naffziger说道。
尽管共封装光学器件优势明显,但它并不完美。
"光学器件存在温度敏感性,"Naffziger表示。"比电气方面需要担心的问题多得多......现在我们必须布置光纤连接并确保其机械稳定性,不易受振动影响。"
这或许解释了为什么英伟达将早期光子技术重点放在横向扩展的以太网和InfiniBand网络上,而非专用的芯片间互连。大多数大规模光子交换机已经需要大量使用高功耗的可插拔光学器件。因此,英伟达在首批光子交换机中使用CPO来消除对这些设备的需求。
然而,对于NVLink交换结构,该公司似乎选择提高机架密度(到2027年达到600kW)以继续使用铜线。
**硬件软件协同设计是关键**
在AMD准备扩大规模之际,Naffziger指出工艺技术和半导体封装改进将继续在实现20x30目标中发挥作用。
"摩尔定律仍有残余影响,"他说。"我们必须使用最新的工艺节点。"
虽然工艺技术缩小速度不如从前,但仍有改进空间——特别是在内存方面。
Naffziger指出3D堆叠和高带宽内存(HBM)的基础芯片定制化是降低每比特能耗和减少整体功耗的潜在途径。
HBM目前占据了加速器功耗的很大一部分。从MI300X的192GB跳跃到MI325X的256GB时,功耗增加了250W。因此,任何能够在提供更高带宽和容量的同时抑制功耗的封装技术都值得研究。
即使在机架级规模下,Naffziger表示"最大的改进将来自硬件软件协同设计的成果。纯硬件收益正在达到递减回报。"
AMD在软件方面一直落后,特别是在底层开发方面。然而,自MI300X推出一年半以来,情况已有显著改善。
该公司投入大量资源优化其ROCm软件栈,以支持包括vLLM、SGLang和PyTorch在内的各种流行推理和训练平台。
这些努力通过几项收购得到加强,包括Nod.ai、Mipsology和Brium。AMD也积极吸引AI人才。最近,AMD友好型初创公司Lamini的CEO Sharon Zhou宣布加入AMD的AI软件团队,该公司专注于帮助企业调优大语言模型以减少幻觉现象。
"当我们谈论机架级目标时,系统架构、系统设计、改进组件、集成以及降低通信成本方面确实存在巨大机遇,"Naffziger说道。"但我们必须在硬件上优化映射工作负载。"
FP8以及现在的FP4支持就是一个例子。在模型层面,这些低精度数据类型提供了诸多优势,以通常难以察觉的输出质量降低换取更小的内存占用。同时,精度减半通常会使加速器的浮点输出翻倍。
然而,软件需要时间来跟上这些新数据类型。从MI300X发布到流行的vLLM推理引擎扩展对AMD的FP8实现的硬件支持,用了将近一年时间。
软件可能是释放AMD硅片全部潜力的关键,但在性能测量方面也带来了挑战,特别是AI工作负载。
AI生态系统发展极快。几个月内,一个模型就可能从前沿技术变为过时产品。"我们不能假设Llama 405B在2030年仍然存在并具有意义,"Naffziger说道。
因此,对于AMD的20x30目标,公司将使用GPU FLOPS、HBM和网络带宽的组合来跟踪进展,这些指标在推理和训练中的权重有所不同。