算力革命再升级 昇腾大EP如何重塑AI推理效率边界

5个月前 科技 26观看
摘要 近年来,人工智能领域迎来爆发式增长,大模型技术成为推动行业变革的核心引擎,大模型能力的跃升不断刷新人类对AI潜力的认知。当OpenAI的GPT-4训练需消耗数数万张GPU卡时,中国AI企业DeepSeek却以“千卡级”算力

近年来,人工智能领域迎来爆发式增长,大模型技术成为推动行业变革的核心引擎,大模型能力的跃升不断刷新人类对AI潜力的认知。jCv喜好网-记录每日喜好的科技时尚娱乐生活

当OpenAI的GPT-4训练需消耗数数万张GPU卡时,中国AI企业DeepSeek却以“千卡级”算力训练出性能对标国际巨头的模型,这一反差揭示了行业的关键转折点——从单纯追求硬件性能的“军备竞赛”,转向通过工程创新实现算力效率的颠覆性提升。jCv喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek在开源周里发布的大规模跨节点专家并行(大EP),更是揭开推理服务提高吞吐、降低时延的技术秘诀,掀起大模型推理系统优化的热潮。jCv喜好网-记录每日喜好的科技时尚娱乐生活

以DeepSeek为代表的大模型创新为算力基础设施也带来新的技术趋势:大模型向大量小专家方向演进,性能提升、成本降低开始快速普及;另一方面,少量大专家模式走向高性能摸高,大量小专家向创新普及,未来两种方案并存。jCv喜好网-记录每日喜好的科技时尚娱乐生活

同时,DeepSeek采用的大规模跨节点专家并行,实现性能、吞吐量和并发用户数量的显著提升,成本大幅度降低,也为大模型推理系统采用大规模跨节点专家并行方案提供了可行性。jCv喜好网-记录每日喜好的科技时尚娱乐生活

大规模专家并行EP,就是将专家Expert分布到更多的卡上,可以减少每张卡权重加载的时延,减少权重的显存占用,能够显著的提升单卡并行的路数(batch size)。每个专家计算路数的提升可以提高矩阵乘的效率,从而实现更大的吞吐和更低的时延。同时大规模专家并行EP,更多专家也带来负载均衡、卡间通信的挑战。jCv喜好网-记录每日喜好的科技时尚娱乐生活

尽管大规模跨节点专家并行集群推理能够降低成本,但在实际应用中仍面临专家动态均衡与通信时延等挑战。
昇腾大EP解决方案凭借多项关键技术有效解决了以上挑战,针对专家负载不均的难题,通过自动寻优、自动配比、自动预测、自动降解,实现备份节点和副本专家灵活可扩展、高可用和极致均衡。jCv喜好网-记录每日喜好的科技时尚娱乐生活

针对All-to-All通信优化的难题,昇腾大EP解决方案提出了双流/多维混合并行,其中Prefill micro-batch双流并行,可以实现计算和通信的相互掩盖;MoE expert专家双流并行,实现两条数据流Stream的并行计算;Weight权重预取双流并行,可以把访存和通信并行起来,降低权重加载时间,提升效率。jCv喜好网-记录每日喜好的科技时尚娱乐生活

此外,昇腾MLAPO融合算子也是关键技术之一,降低计算耗时70%。我们知道,MLA预处理阶段,传统方案多算子串行,频繁占用内存、通信等资源,整体计算耗时占比高。而昇腾MLAPO融合算子,将小算子融合成单一算子,Vector和Cube计算并行处理,减少开销降低计算耗时。jCv喜好网-记录每日喜好的科技时尚娱乐生活

在昇腾大EP推动技术普惠的同时,英伟达针对中国市场推出的H20芯片却显露出明显短板。jCv喜好网-记录每日喜好的科技时尚娱乐生活

H20作为英伟达针对中国市场发布的AI芯片,是用于大模型训练普遍采用的H100“低配版”,其AI算力仅为H100的15%,在推理方面,受性能的制约,H20只能在特定模型架构,展现出一定的效能。像DeepSeek采用的是混合专家(MoE)架构,在高batch size场景下,H20极易陷入性能瓶颈,导致时延显著增加,从而无法充分发挥DeepSeek专家并行机制所具有的高吞吐量优势。因此,在大规模高并发的训推场景,H20难以满足实际应用需求。jCv喜好网-记录每日喜好的科技时尚娱乐生活

当DeepSeek证明“小算力亦可挑战巨头”,昇腾大EP则进一步回答:如何让每一焦耳电力、每一美元投入,释放最大AI价值。这场效率革命的意义远超技术参数之争——它标志着AI竞争从“硬件堆叠”转向“工程创新”,最终迈向产业普惠。(御风)jCv喜好网-记录每日喜好的科技时尚娱乐生活

jCv喜好网-记录每日喜好的科技时尚娱乐生活

jCv喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
讯飞星火4.0 Turbo正式发布,7项“第一”引领大模型规模化应用落地

讯飞星火4.0 Turbo正式发布,7项“

【锋巢网】大模型应用7项第一!10

11-19 132阅读
纯电210km 奇瑞风云T9超长续航版上市:限时国补14.89万元

纯电210km 奇瑞风云T9超长续航版

11月19日

11-19 127阅读
OPPO Reno 13 系列手机外观公布,代言人宋雨琦

OPPO Reno 13 系列手机外观公布,

11 月

11-19 116阅读
‌华为、OPPO、vivo、小米联手打造统一链接平台:简化App下载流程‌

‌华为、OPPO、vivo、小米联手打

11-19 131阅读
哪个正常人能拒绝一只毛茸茸的「电子猫咪」?

哪个正常人能拒绝一只毛茸茸的「

猫咪

11-19 126阅读
张歆艺第一任老公竟不是袁弘,二婚竟能被宠着这样令人羡慕

张歆艺第一任老公竟不是袁

大家都很喜欢袁弘吧?不仅仅是因为

11-19 103阅读
《藏海花之暗巢汹涌》定档11月14日 古穴探险再寻迷踪嗜血凶怪惊悚升级

《藏海花之暗巢汹涌》定档

  改编自南派三叔原著小说《藏海花

11-19 113阅读
腾讯的这部甜宠剧,高颜值cp让人沦陷,男二也让人心动

腾讯的这部甜宠剧,高颜值cp

2020年4月10日,甜宠剧《致我们甜甜

11-19 112阅读
我们都在等待,等待钟声响起的那一刻。那是我生命最后的一刻,那也是最好的时刻

我们都在等待,等待钟声响起

  一段民族不可遗忘的历史,一个隐蔽

11-19 107阅读
迪士尼儿童动画或因LGBT话题停播一集:变性少年参加女子排球赛

迪士尼儿童动画或因LGBT话

据多位参与制作

11-19 108阅读
《最终幻想7》重制版最终章剧情已敲定 已开始制作

《最终幻想7》重制版最终

在韩国举行的G-STAR讨论会上,《最终幻

11-19 121阅读
《星空》DLC差评托德后悔:不该太早更新地面载具

《星空》DLC差评托德后悔:

《星空:破碎空间》DLC 发布后,玩家给出

11-19 102阅读
CS1.6怎么加机器人?CS1.6加机器人方法

CS1.6怎么加机器人?CS1.6

《CS1.6》也就是大家都玩过的反恐精英

11-19 192阅读
饥荒无消耗驯服猪人的详细操作方法

饥荒无消耗驯服猪人的详细

猪人是饥荒游戏里面的特殊生物,因为数量

11-19 116阅读
界面设计全面升级 NVIDIA app实际体验:五大靓点堪称N卡必备搭档

界面设计全面升级 NVIDIA

11-19 119阅读