华为模型盘古 Ultra 惊艳全球：纯昇腾集群训练，性能比肩 DeepSeek-R1，英伟达含量为零-喜好网-记录每日喜好的科技时尚娱乐生活

华为模型盘古 Ultra 惊艳全球：纯昇腾集群训练，性能比肩 DeepSeek-R1，英伟达含量为零

4个月前科技 22观看

摘要华为模型盘古 Ultra：纯昇腾集群训练，性能比肩 DeepSeek-R1============================在人工智能领域，模型的参数量、训练资源和推理性能一直是衡量模型能力的重要指标。华为推出的盘古 Ultra模型，凭借其纯

华为模型盘古 Ultra：纯昇腾集群训练，性能比肩 DeepSeek-R1

============================

在人工智能领域，模型的参数量、训练资源和推理性能一直是衡量模型能力的重要指标。华为推出的盘古 Ultra模型，凭借其纯昇腾集群训练的优势，在参数量达到135B的情况下，实现了与DeepSeek-R1等模型竞争的优异性能。本文将从算法、工程、数据等多个层面，深入剖析盘古 Ultra模型的技术细节和实现方式。

模型架构与优化

--------

盘古 Ultra模型采用了94层网络结构，包含96个查询头和8个键值头。为了解决训练超深网络面临的不稳定性和收敛困难等问题，模型在架构上做出了两个关键改进：深度缩放的Sandwich-Norm层归一化和TinyInit参数初始化策略。

传统的Transformer模型通常使用Pre-LN层归一化，但在深度模型中，Pre-LN容易导致每个子层输出尺度的波动，引发训练不稳定。盘古 Ultra使用的Sandwich-Norm层归化，在残差连接前对每个子层的输出做归一化，并根据网络深度对初始化值进行缩放，有效消除了训练过程中的loss尖峰，使训练过程更加平稳。

值得注意的是，Sandwich-Norm层归化不仅在每个子层的输入进行归一化，还在子层和Post-Norm之间形成了一个“三明治”结构，进一步增强了模型的稳定性。

然而，仅仅使用Sandwich-Norm层归化可能无法完全消除深度模型训练中的不稳定性。因此，盘古 Ultra在Sandwich-Norm的基础上，引入了深度缩放机制，对Post-Norm中的放缩参数γ进行了深度相关的初始化。这种深度相关的初始化策略有助于维持各层梯度的方差在一个合理的范围内，避免了梯度消失或爆炸问题，进一步提升了模型的稳定性。

此外，为了实现高效的训练和推理，盘古团队还针对Tokenizer进行了优化。通过在通用中英文、代码、数学等不同领域分别进行词频统计，再合并去重，最终得到了一个兼顾领域覆盖和编码效率的平衡词表。

训练设施与并行策略

----------

盘古 Ultra的训练流程主要分为预训练、长上下文扩展和指令调优三个阶段。预训练阶段又细分为通用阶段、推理阶段和退火阶段。研究者们采用了基于规则和模型的数据清洗方法，并设计了curriculum learning策略，让模型循序渐进地学习不同难度的样本。

为了实现盘古 Ultra的高效训练，研究团队构建了一个由8192个昇腾AI处理器组成的训练集群。每个节点包含8个NPU，通过华为高速缓存一致性互联HCCS以全互联的拓扑结构连接。节点间通过200Gbps的RoCE（RDMA over Converged Ethernet）网络互联。这样的设施为大规模模型的训练提供了强大的硬件支持。

在并行策略的选择上，盘古 Ultra综合考虑了模型的规模、数据的特性以及硬件的拓扑，最终采用了数据并行、张量并行、序列并行和流水线并行等多种并行方式的组合。这种策略有效地提高了数据吞吐量，降低了内存负担，并优化了计算效率。

优化技术与应用

--------

为了实现高效的并行训练，盘古团队还采用了一套系统的并行策略和优化技术。其中，ZeRO分布式优化器将模型状态分片到不同设备，大幅降低了单个设备的内存占用，提高了数据并行度。此外，团队还通过各种通信和计算优化技术最小化了通信开销，提升了计算效率。

算法与工程层面的优化是盘古 Ultra成功的关键因素之一。算子融合、通信计算重叠和MC^2/BOA等优化技术减少了内存访问和启动时间，实现了高效的通信和计算。这些优化技术的应用不仅提升了模型的性能，也进一步降低了训练成本。

此外，盘古团队还通过精细的数据清洗和数据增强技术提升了模型的泛化能力。通过对数据的深度挖掘和利用，盘古 Ultra在各种任务中都表现出了卓越的性能。

性能表现与总结

--------

综合来看，盘古 Ultra通过深度优化模型架构、采用高效的并行策略和优化技术、精细的数据清洗和增强等手段，实现了52%以上的算力利用率。该模型在预训练阶段就表现出优异的性能表现，并在指令调优阶段进一步提升性能。尤其在AIE 2024、MATH-500等数学推理任务和LiveCodeBench等编程竞赛题上达到了SOTA水平。

总的来说，华为的盘古Ultra模型凭借其纯昇腾集群训练的优势和精细的技术优化，成功实现了与DeepSeek-R1等MoE模型竞争的优异性能。这再次证明了华为在人工智能领域的强大研发实力和技术创新能力。同时，该