算力革命再升级 昇腾大EP如何重塑AI推理效率边界

1个月前 科技 10观看
摘要 近年来,人工智能领域迎来爆发式增长,大模型技术成为推动行业变革的核心引擎,大模型能力的跃升不断刷新人类对AI潜力的认知。当OpenAI的GPT-4训练需消耗数数万张GPU卡时,中国AI企业DeepSeek却以“千卡级”算力

近年来,人工智能领域迎来爆发式增长,大模型技术成为推动行业变革的核心引擎,大模型能力的跃升不断刷新人类对AI潜力的认知。hTD喜好网-记录每日喜好的科技时尚娱乐生活

当OpenAI的GPT-4训练需消耗数数万张GPU卡时,中国AI企业DeepSeek却以“千卡级”算力训练出性能对标国际巨头的模型,这一反差揭示了行业的关键转折点——从单纯追求硬件性能的“军备竞赛”,转向通过工程创新实现算力效率的颠覆性提升。hTD喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek在开源周里发布的大规模跨节点专家并行(大EP),更是揭开推理服务提高吞吐、降低时延的技术秘诀,掀起大模型推理系统优化的热潮。hTD喜好网-记录每日喜好的科技时尚娱乐生活

以DeepSeek为代表的大模型创新为算力基础设施也带来新的技术趋势:大模型向大量小专家方向演进,性能提升、成本降低开始快速普及;另一方面,少量大专家模式走向高性能摸高,大量小专家向创新普及,未来两种方案并存。hTD喜好网-记录每日喜好的科技时尚娱乐生活

同时,DeepSeek采用的大规模跨节点专家并行,实现性能、吞吐量和并发用户数量的显著提升,成本大幅度降低,也为大模型推理系统采用大规模跨节点专家并行方案提供了可行性。hTD喜好网-记录每日喜好的科技时尚娱乐生活

大规模专家并行EP,就是将专家Expert分布到更多的卡上,可以减少每张卡权重加载的时延,减少权重的显存占用,能够显著的提升单卡并行的路数(batch size)。每个专家计算路数的提升可以提高矩阵乘的效率,从而实现更大的吞吐和更低的时延。同时大规模专家并行EP,更多专家也带来负载均衡、卡间通信的挑战。hTD喜好网-记录每日喜好的科技时尚娱乐生活

尽管大规模跨节点专家并行集群推理能够降低成本,但在实际应用中仍面临专家动态均衡与通信时延等挑战。
昇腾大EP解决方案凭借多项关键技术有效解决了以上挑战,针对专家负载不均的难题,通过自动寻优、自动配比、自动预测、自动降解,实现备份节点和副本专家灵活可扩展、高可用和极致均衡。hTD喜好网-记录每日喜好的科技时尚娱乐生活

针对All-to-All通信优化的难题,昇腾大EP解决方案提出了双流/多维混合并行,其中Prefill micro-batch双流并行,可以实现计算和通信的相互掩盖;MoE expert专家双流并行,实现两条数据流Stream的并行计算;Weight权重预取双流并行,可以把访存和通信并行起来,降低权重加载时间,提升效率。hTD喜好网-记录每日喜好的科技时尚娱乐生活

此外,昇腾MLAPO融合算子也是关键技术之一,降低计算耗时70%。我们知道,MLA预处理阶段,传统方案多算子串行,频繁占用内存、通信等资源,整体计算耗时占比高。而昇腾MLAPO融合算子,将小算子融合成单一算子,Vector和Cube计算并行处理,减少开销降低计算耗时。hTD喜好网-记录每日喜好的科技时尚娱乐生活

在昇腾大EP推动技术普惠的同时,英伟达针对中国市场推出的H20芯片却显露出明显短板。hTD喜好网-记录每日喜好的科技时尚娱乐生活

H20作为英伟达针对中国市场发布的AI芯片,是用于大模型训练普遍采用的H100“低配版”,其AI算力仅为H100的15%,在推理方面,受性能的制约,H20只能在特定模型架构,展现出一定的效能。像DeepSeek采用的是混合专家(MoE)架构,在高batch size场景下,H20极易陷入性能瓶颈,导致时延显著增加,从而无法充分发挥DeepSeek专家并行机制所具有的高吞吐量优势。因此,在大规模高并发的训推场景,H20难以满足实际应用需求。hTD喜好网-记录每日喜好的科技时尚娱乐生活

当DeepSeek证明“小算力亦可挑战巨头”,昇腾大EP则进一步回答:如何让每一焦耳电力、每一美元投入,释放最大AI价值。这场效率革命的意义远超技术参数之争——它标志着AI竞争从“硬件堆叠”转向“工程创新”,最终迈向产业普惠。(御风)hTD喜好网-记录每日喜好的科技时尚娱乐生活

hTD喜好网-记录每日喜好的科技时尚娱乐生活

hTD喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
讯飞星火4.0 Turbo正式发布,7项“第一”引领大模型规模化应用落地

讯飞星火4.0 Turbo正式发布,7项“

【锋巢网】大模型应用7项第一!10

11-19 71阅读
小杨哥缺席,抖音还能玩转双11吗?

小杨哥缺席,抖音还能玩转双11吗?

采写/尹冰雪‍编辑/万天南“

11-19 70阅读
男子为骗保开车撞树不慎当场身亡 系团伙自导自演:已骗90多万

男子为骗保开车撞树不慎当场身亡

11月19日

11-19 70阅读
中银300亿母基金加速推进

中银300亿母基金加速推进

银行

11-19 68阅读
这个东北小镇,拿捏年轻人的第一件貂

这个东北小镇,拿捏年轻人的第一件

你会

11-19 66阅读
贾乃亮帮清购物车, 网友没胆安利给自家老板!

贾乃亮帮清购物车, 网友没

今天双十二,大家剁手了吗!小编是没

11-19 62阅读
莎拉波娃涉嫌欺诈? 网球巨星竟有这样的污点究竟是怎么回事

莎拉波娃涉嫌欺诈? 网球巨

如果是非常关注体育界的话,莎拉波

11-19 66阅读
全球部长大使论坛在澳门举行,共同探讨国际电影合作新方向

全球部长大使论坛在澳门举

  近日,上汽大众帕萨特Pro之夜第二

11-19 63阅读
张晚意新剧《我知道我爱你》今日开播,他化身宠物医生

张晚意新剧《我知道我爱你

12月25日,张晚意的新剧《我知道我

11-19 66阅读
央视剧评|《西北岁月》:书写西北革命史的壮丽篇章

央视剧评|《西北岁月》:书写

  正在总台央视综合频道(CCTV-1)黄金

11-19 66阅读
原子之心芭蕾舞者谜题攻略_芭蕾舞者舞姿调整攻略

原子之心芭蕾舞者谜题攻略

原子之心游戏里面玩家会在剧院中碰到一

11-19 70阅读
原子之心展览馆四个学生所在位置详细介绍

原子之心展览馆四个学生所

在原子之心游戏的展览馆中,有一个寻找四

11-19 73阅读
原神已然来临的花神诞祭任务攻略

原神已然来临的花神诞祭任

原神已然来临的花神诞祭是原神须弥地区

11-19 64阅读
饥荒制作刷肉机快速刷肉的详细操作方法

饥荒制作刷肉机快速刷肉的

大肉是饥荒游戏里面的重要食物,主要是猪

11-19 65阅读
原神林中遇变任务怎么做?原神林中遇变主线攻略

原神林中遇变任务怎么做?

林中遇变是原神须弥地区魔神主线任务的

11-19 62阅读