华为模型盘古 Ultra 惊艳全球:纯昇腾集群训练,性能比肩 DeepSeek-R1,英伟达含量为零

2周前 科技 3观看
摘要 华为模型盘古 Ultra:纯昇腾集群训练,性能比肩 DeepSeek-R1============================在人工智能领域,模型的参数量、训练资源和推理性能一直是衡量模型能力的重要指标。华为推出的盘古 Ultra模型,凭借其纯

华为模型盘古 Ultra:纯昇腾集群训练,性能比肩 DeepSeek-R12eD喜好网-记录每日喜好的科技时尚娱乐生活

============================2eD喜好网-记录每日喜好的科技时尚娱乐生活

在人工智能领域,模型的参数量、训练资源和推理性能一直是衡量模型能力的重要指标。华为推出的盘古 Ultra模型,凭借其纯昇腾集群训练的优势,在参数量达到135B的情况下,实现了与DeepSeek-R1等模型竞争的优异性能。本文将从算法、工程、数据等多个层面,深入剖析盘古 Ultra模型的技术细节和实现方式。2eD喜好网-记录每日喜好的科技时尚娱乐生活

模型架构与优化2eD喜好网-记录每日喜好的科技时尚娱乐生活

--------2eD喜好网-记录每日喜好的科技时尚娱乐生活

盘古 Ultra模型采用了94层网络结构,包含96个查询头和8个键值头。为了解决训练超深网络面临的不稳定性和收敛困难等问题,模型在架构上做出了两个关键改进:深度缩放的Sandwich-Norm层归一化和TinyInit参数初始化策略。2eD喜好网-记录每日喜好的科技时尚娱乐生活

传统的Transformer模型通常使用Pre-LN层归一化,但在深度模型中,Pre-LN容易导致每个子层输出尺度的波动,引发训练不稳定。盘古 Ultra使用的Sandwich-Norm层归化,在残差连接前对每个子层的输出做归一化,并根据网络深度对初始化值进行缩放,有效消除了训练过程中的loss尖峰,使训练过程更加平稳。2eD喜好网-记录每日喜好的科技时尚娱乐生活

值得注意的是,Sandwich-Norm层归化不仅在每个子层的输入进行归一化,还在子层和Post-Norm之间形成了一个“三明治”结构,进一步增强了模型的稳定性。2eD喜好网-记录每日喜好的科技时尚娱乐生活

然而,仅仅使用Sandwich-Norm层归化可能无法完全消除深度模型训练中的不稳定性。因此,盘古 Ultra在Sandwich-Norm的基础上,引入了深度缩放机制,对Post-Norm中的放缩参数γ进行了深度相关的初始化。这种深度相关的初始化策略有助于维持各层梯度的方差在一个合理的范围内,避免了梯度消失或爆炸问题,进一步提升了模型的稳定性。2eD喜好网-记录每日喜好的科技时尚娱乐生活

此外,为了实现高效的训练和推理,盘古团队还针对Tokenizer进行了优化。通过在通用中英文、代码、数学等不同领域分别进行词频统计,再合并去重,最终得到了一个兼顾领域覆盖和编码效率的平衡词表。2eD喜好网-记录每日喜好的科技时尚娱乐生活

训练设施与并行策略2eD喜好网-记录每日喜好的科技时尚娱乐生活

----------2eD喜好网-记录每日喜好的科技时尚娱乐生活

盘古 Ultra的训练流程主要分为预训练、长上下文扩展和指令调优三个阶段。预训练阶段又细分为通用阶段、推理阶段和退火阶段。研究者们采用了基于规则和模型的数据清洗方法,并设计了curriculum learning策略,让模型循序渐进地学习不同难度的样本。2eD喜好网-记录每日喜好的科技时尚娱乐生活

为了实现盘古 Ultra的高效训练,研究团队构建了一个由8192个昇腾AI处理器组成的训练集群。每个节点包含8个NPU,通过华为高速缓存一致性互联HCCS以全互联的拓扑结构连接。节点间通过200Gbps的RoCE(RDMA over Converged Ethernet)网络互联。这样的设施为大规模模型的训练提供了强大的硬件支持。2eD喜好网-记录每日喜好的科技时尚娱乐生活

在并行策略的选择上,盘古 Ultra综合考虑了模型的规模、数据的特性以及硬件的拓扑,最终采用了数据并行、张量并行、序列并行和流水线并行等多种并行方式的组合。这种策略有效地提高了数据吞吐量,降低了内存负担,并优化了计算效率。2eD喜好网-记录每日喜好的科技时尚娱乐生活

优化技术与应用2eD喜好网-记录每日喜好的科技时尚娱乐生活

--------2eD喜好网-记录每日喜好的科技时尚娱乐生活

为了实现高效的并行训练,盘古团队还采用了一套系统的并行策略和优化技术。其中,ZeRO分布式优化器将模型状态分片到不同设备,大幅降低了单个设备的内存占用,提高了数据并行度。此外,团队还通过各种通信和计算优化技术最小化了通信开销,提升了计算效率。2eD喜好网-记录每日喜好的科技时尚娱乐生活

算法与工程层面的优化是盘古 Ultra成功的关键因素之一。算子融合、通信计算重叠和MC^2/BOA等优化技术减少了内存访问和启动时间,实现了高效的通信和计算。这些优化技术的应用不仅提升了模型的性能,也进一步降低了训练成本。2eD喜好网-记录每日喜好的科技时尚娱乐生活

此外,盘古团队还通过精细的数据清洗和数据增强技术提升了模型的泛化能力。通过对数据的深度挖掘和利用,盘古 Ultra在各种任务中都表现出了卓越的性能。2eD喜好网-记录每日喜好的科技时尚娱乐生活

性能表现与总结2eD喜好网-记录每日喜好的科技时尚娱乐生活

--------2eD喜好网-记录每日喜好的科技时尚娱乐生活

综合来看,盘古 Ultra通过深度优化模型架构、采用高效的并行策略和优化技术、精细的数据清洗和增强等手段,实现了52%以上的算力利用率。该模型在预训练阶段就表现出优异的性能表现,并在指令调优阶段进一步提升性能。尤其在AIE 2024、MATH-500等数学推理任务和LiveCodeBench等编程竞赛题上达到了SOTA水平。2eD喜好网-记录每日喜好的科技时尚娱乐生活

总的来说,华为的盘古Ultra模型凭借其纯昇腾集群训练的优势和精细的技术优化,成功实现了与DeepSeek-R1等MoE模型竞争的优异性能。这再次证明了华为在人工智能领域的强大研发实力和技术创新能力。同时,该2eD喜好网-记录每日喜好的科技时尚娱乐生活

2eD喜好网-记录每日喜好的科技时尚娱乐生活

2eD喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
轻薄手机用上潜望!曝vivo S20系列首次搭载潜望长焦镜头

轻薄手机用上潜望!曝vivo S20系列

11月1

11-19 62阅读
辽宁省40+高校升级5.5G:上传提升2倍 下载快4.2Gbps

辽宁省40+高校升级5.5G:上传提升2

11月18日

11-19 65阅读
睿蓝8七座纯电MPV上市,起售价13.78万元

睿蓝8七座纯电MPV上市,起售价13.7

11-19 59阅读
中国大模型要用Infra“降本增效”

中国大模型要用Infra“降本增效

今年7

11-19 58阅读
洋咖啡,为何卖不动了?

洋咖啡,为何卖不动了?

近日,

11-19 64阅读
()

()

点击蓝字 关注我们 摘要 今天

11-19 59阅读
赵昭仪的男朋友是谁? 揭秘二人关系不简单!

赵昭仪的男朋友是谁? 揭秘

甜甜的恋爱剧成了影视圈之中的主

11-19 58阅读
高基才个人资料, 深扒小鲜肉高基才家庭背景

高基才个人资料, 深扒小鲜

电视剧《一夜新娘》正在热播中,剧

11-19 59阅读
越南模仿李子柒的博主也停更了三年:前段时间刚回归

越南模仿李子柒的博主也停

11月14日消息,中

11-19 63阅读
李子柒为何依然重要

李子柒为何依然重要

自从李子柒上次

11-19 62阅读
真人互动恋爱影游《欢迎光临!心动咖啡厅》Steam页面开放 发行日期待定

真人互动恋爱影游《欢迎光

今日(11月16日),真人互动恋爱影游《欢迎

11-19 63阅读
奥特曼格斗进化0怎么放大招?奥特曼格斗进化0攻略

奥特曼格斗进化0怎么放大

《奥特曼格斗进化0》游戏中可以操控各

11-19 100阅读
原子之心所有会说话的动物尸体所在位置分享

原子之心所有会说话的动物

在原子之心游戏里面,玩家可以通过找到所

11-19 61阅读
原神超越时间的虚影全流程解析|超越时间的虚影隐藏任务攻略

原神超越时间的虚影全流程

超越时间的虚影是原神须弥沙漠地区的隐

11-19 62阅读
饥荒通过卡猪人快速回复san值的详细操作方法

饥荒通过卡猪人快速回复sa

饥荒游戏里面玩家经常会面对san值不足

11-19 62阅读