华为模型盘古 Ultra 惊艳全球:纯昇腾集群训练,性能比肩 DeepSeek-R1,英伟达含量为零

4个月前 科技 22观看
摘要 华为模型盘古 Ultra:纯昇腾集群训练,性能比肩 DeepSeek-R1============================在人工智能领域,模型的参数量、训练资源和推理性能一直是衡量模型能力的重要指标。华为推出的盘古 Ultra模型,凭借其纯

华为模型盘古 Ultra:纯昇腾集群训练,性能比肩 DeepSeek-R1dNC喜好网-记录每日喜好的科技时尚娱乐生活

============================dNC喜好网-记录每日喜好的科技时尚娱乐生活

在人工智能领域,模型的参数量、训练资源和推理性能一直是衡量模型能力的重要指标。华为推出的盘古 Ultra模型,凭借其纯昇腾集群训练的优势,在参数量达到135B的情况下,实现了与DeepSeek-R1等模型竞争的优异性能。本文将从算法、工程、数据等多个层面,深入剖析盘古 Ultra模型的技术细节和实现方式。dNC喜好网-记录每日喜好的科技时尚娱乐生活

模型架构与优化dNC喜好网-记录每日喜好的科技时尚娱乐生活

--------dNC喜好网-记录每日喜好的科技时尚娱乐生活

盘古 Ultra模型采用了94层网络结构,包含96个查询头和8个键值头。为了解决训练超深网络面临的不稳定性和收敛困难等问题,模型在架构上做出了两个关键改进:深度缩放的Sandwich-Norm层归一化和TinyInit参数初始化策略。dNC喜好网-记录每日喜好的科技时尚娱乐生活

传统的Transformer模型通常使用Pre-LN层归一化,但在深度模型中,Pre-LN容易导致每个子层输出尺度的波动,引发训练不稳定。盘古 Ultra使用的Sandwich-Norm层归化,在残差连接前对每个子层的输出做归一化,并根据网络深度对初始化值进行缩放,有效消除了训练过程中的loss尖峰,使训练过程更加平稳。dNC喜好网-记录每日喜好的科技时尚娱乐生活

值得注意的是,Sandwich-Norm层归化不仅在每个子层的输入进行归一化,还在子层和Post-Norm之间形成了一个“三明治”结构,进一步增强了模型的稳定性。dNC喜好网-记录每日喜好的科技时尚娱乐生活

然而,仅仅使用Sandwich-Norm层归化可能无法完全消除深度模型训练中的不稳定性。因此,盘古 Ultra在Sandwich-Norm的基础上,引入了深度缩放机制,对Post-Norm中的放缩参数γ进行了深度相关的初始化。这种深度相关的初始化策略有助于维持各层梯度的方差在一个合理的范围内,避免了梯度消失或爆炸问题,进一步提升了模型的稳定性。dNC喜好网-记录每日喜好的科技时尚娱乐生活

此外,为了实现高效的训练和推理,盘古团队还针对Tokenizer进行了优化。通过在通用中英文、代码、数学等不同领域分别进行词频统计,再合并去重,最终得到了一个兼顾领域覆盖和编码效率的平衡词表。dNC喜好网-记录每日喜好的科技时尚娱乐生活

训练设施与并行策略dNC喜好网-记录每日喜好的科技时尚娱乐生活

----------dNC喜好网-记录每日喜好的科技时尚娱乐生活

盘古 Ultra的训练流程主要分为预训练、长上下文扩展和指令调优三个阶段。预训练阶段又细分为通用阶段、推理阶段和退火阶段。研究者们采用了基于规则和模型的数据清洗方法,并设计了curriculum learning策略,让模型循序渐进地学习不同难度的样本。dNC喜好网-记录每日喜好的科技时尚娱乐生活

为了实现盘古 Ultra的高效训练,研究团队构建了一个由8192个昇腾AI处理器组成的训练集群。每个节点包含8个NPU,通过华为高速缓存一致性互联HCCS以全互联的拓扑结构连接。节点间通过200Gbps的RoCE(RDMA over Converged Ethernet)网络互联。这样的设施为大规模模型的训练提供了强大的硬件支持。dNC喜好网-记录每日喜好的科技时尚娱乐生活

在并行策略的选择上,盘古 Ultra综合考虑了模型的规模、数据的特性以及硬件的拓扑,最终采用了数据并行、张量并行、序列并行和流水线并行等多种并行方式的组合。这种策略有效地提高了数据吞吐量,降低了内存负担,并优化了计算效率。dNC喜好网-记录每日喜好的科技时尚娱乐生活

优化技术与应用dNC喜好网-记录每日喜好的科技时尚娱乐生活

--------dNC喜好网-记录每日喜好的科技时尚娱乐生活

为了实现高效的并行训练,盘古团队还采用了一套系统的并行策略和优化技术。其中,ZeRO分布式优化器将模型状态分片到不同设备,大幅降低了单个设备的内存占用,提高了数据并行度。此外,团队还通过各种通信和计算优化技术最小化了通信开销,提升了计算效率。dNC喜好网-记录每日喜好的科技时尚娱乐生活

算法与工程层面的优化是盘古 Ultra成功的关键因素之一。算子融合、通信计算重叠和MC^2/BOA等优化技术减少了内存访问和启动时间,实现了高效的通信和计算。这些优化技术的应用不仅提升了模型的性能,也进一步降低了训练成本。dNC喜好网-记录每日喜好的科技时尚娱乐生活

此外,盘古团队还通过精细的数据清洗和数据增强技术提升了模型的泛化能力。通过对数据的深度挖掘和利用,盘古 Ultra在各种任务中都表现出了卓越的性能。dNC喜好网-记录每日喜好的科技时尚娱乐生活

性能表现与总结dNC喜好网-记录每日喜好的科技时尚娱乐生活

--------dNC喜好网-记录每日喜好的科技时尚娱乐生活

综合来看,盘古 Ultra通过深度优化模型架构、采用高效的并行策略和优化技术、精细的数据清洗和增强等手段,实现了52%以上的算力利用率。该模型在预训练阶段就表现出优异的性能表现,并在指令调优阶段进一步提升性能。尤其在AIE 2024、MATH-500等数学推理任务和LiveCodeBench等编程竞赛题上达到了SOTA水平。dNC喜好网-记录每日喜好的科技时尚娱乐生活

总的来说,华为的盘古Ultra模型凭借其纯昇腾集群训练的优势和精细的技术优化,成功实现了与DeepSeek-R1等MoE模型竞争的优异性能。这再次证明了华为在人工智能领域的强大研发实力和技术创新能力。同时,该dNC喜好网-记录每日喜好的科技时尚娱乐生活

dNC喜好网-记录每日喜好的科技时尚娱乐生活

dNC喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
土耳其对亚马逊旗下Twitch处以200万里拉罚款,因数据泄露事件

土耳其对亚马逊旗下Twitch处以20

11月1

11-19 106阅读
苹果揭秘自研芯片成功原因:竞争对手没法用最新尖端技术

苹果揭秘自研芯片成功原因:竞争对

11月1

11-19 126阅读
OPPO Reno 13 系列手机外观公布,代言人宋雨琦

OPPO Reno 13 系列手机外观公布,

11 月

11-19 115阅读
小米米家智能蒸烤箱 S1 30L 预售:1599 元享蒸烤炸炖四合一

小米米家智能蒸烤箱 S1 30L 预售

11-19 120阅读
“农药”不老,腾讯有“宝”

“农药”不老,腾讯有“宝”

腾讯

11-19 104阅读
被审判的麦琳和妖魔化的小红书

被审判的麦琳和妖魔化的小

作者 / 张   特编辑 / 朱   婷运

11-19 107阅读
NCT DREAM正辑四辑《DREAMSCAPE》登上韩国国内各大专辑周榜一位

NCT DREAM正辑四辑《DREAM

11月11日发行的NCT DREAM正辑

11-19 106阅读
千古玦尘凤染和是凤焰什么关系?白烁是月弥的转世吗?

千古玦尘凤染和是凤焰什么

《千古诀尘》中凤染和是凤焰什么

11-19 112阅读
释彦能:银幕硬汉,反派巅峰——正邪交锋,票房破亿传奇!

释彦能:银幕硬汉,反派巅峰—

  在当今动作电影的舞台上,释彦能以

11-19 120阅读
金角大王与银角大王可动人偶开启预定:超逼真还原童年记忆

金角大王与银角大王可动人

近日haoyutoys官

11-19 111阅读
电脑怎么玩switch游戏?使用switch模拟器免费玩switch游戏的方法分享

电脑怎么玩switch游戏?使

电脑怎么玩switch游戏?switch游戏指的是

11-19 124阅读
原子之心电脉冲枪怎么用?原子之心电脉冲枪用不了的解决办法

原子之心电脉冲枪怎么用?

原子之心电脉冲枪怎么用?电脉冲枪是原子

11-19 115阅读
饥荒所有魔杖制作方法详细介绍

饥荒所有魔杖制作方法详细

饥荒游戏里面拥有非常丰富的魔杖种类,不

11-19 114阅读
饥荒龙心怎么获得?饥荒快速获得龙心的技巧分享

饥荒龙心怎么获得?饥荒快

龙心是饥荒游戏里面的重要材料,可以从龙

11-19 109阅读
饥荒中毒了怎么解毒?饥荒解除中毒状态的详细操作方法

饥荒中毒了怎么解毒?饥荒

饥荒中毒了怎么解毒?在饥荒游戏中玩家偶

11-19 127阅读