DeepSeek第二炸!开源首个用于MoE模型训练通信库

5个月前 游戏 19观看
摘要 DeepSeek 的“开源周”活动今日已经来到第二天,今天发布的是首个开源的用于 MoE 模型训练和推理的 EP 通信库 ——DeepEP。官方表示其具备如

DeepSeek 的“开源周”活动今日已经来到第二天,今天发布的是首个开源的用于 MoE 模型训练和推理的 EP 通信库 ——DeepEP。

JmU喜好网-记录每日喜好的科技时尚娱乐生活

JmU喜好网-记录每日喜好的科技时尚娱乐生活

官方表示其具备如下特征:JmU喜好网-记录每日喜好的科技时尚娱乐生活

高效优化的全到全通信方式JmU喜好网-记录每日喜好的科技时尚娱乐生活

支持节点内外通信,兼容 NVLink 和 RDMA 技术JmU喜好网-记录每日喜好的科技时尚娱乐生活

提供高吞吐量的内核,提升训练和推理前期填充效率JmU喜好网-记录每日喜好的科技时尚娱乐生活

提供低延迟内核,优化推理解码速度JmU喜好网-记录每日喜好的科技时尚娱乐生活

完全支持 FP8 数据格式调度JmU喜好网-记录每日喜好的科技时尚娱乐生活

提供灵活的 GPU 资源管理,支持计算与通信的重叠执行

JmU喜好网-记录每日喜好的科技时尚娱乐生活

JmU喜好网-记录每日喜好的科技时尚娱乐生活

据介绍,DeepEP 是一款专为混合专家(MoE)和专家并行(EP)设计的通信库,提供了高吞吐量和低延迟的 all-to-all GPU 内核,常用于 MoE 派发和合并操作。该库还支持低精度计算,包括 FP8。JmU喜好网-记录每日喜好的科技时尚娱乐生活

为了与 DeepSeek-V3 论文中提出的组限制门控算法兼容,DeepEP 提供了一些针对不对称带宽转发优化的内核,比如将数据从 NVLink 域转发到 RDMA 域。这些优化的内核能够提供高吞吐量,适合用于训练和推理的预填充任务,同时支持 SM(流式多处理器)数量控制。JmU喜好网-记录每日喜好的科技时尚娱乐生活

对于延迟敏感型的推理解码任务,DeepEP 提供了一套低延迟内核,采用纯 RDMA 技术以最大程度减少延迟。此外,该库还采用了一种基于 Hook 的通信与计算重叠方法,不会占用任何 SM 资源。JmU喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
《永恒天空》正式版同步登陆PC与PS5 主机试玩版发布

《永恒天空》正式版同步登

去年最佳的PC生存游戏之一《永恒天空

11-19 123阅读
ePSXe模拟器安卓版怎么导入游戏?ePSXe模拟器安卓版导入游戏教程

ePSXe模拟器安卓版怎么导

ePSXe模拟器安卓版是一款非常棒的可以

11-19 176阅读
原子之心所有会说话的动物尸体所在位置分享

原子之心所有会说话的动物

在原子之心游戏里面,玩家可以通过找到所

11-19 108阅读
原神智慧之神的踪影任务流程|原神智慧之神的踪影攻略

原神智慧之神的踪影任务流

原神智慧之神的踪影是须弥地区魔神主线

11-19 116阅读
原神5个战斗性隐藏成就攻略

原神5个战斗性隐藏成就攻

5个战斗性成就是原神须弥地区的隐藏任

11-19 121阅读
小孩哥炒菜、转锅秀翻网友:“这孩子有出息”

小孩哥炒菜、转锅秀翻网友

暑期来临,在结束

07-14 24阅读
智水护航!广工“大禹治水”实践团赴恩平大槐镇提供青年方案

智水护航!广工“大禹治水”

7月7日至10日,广

07-14 25阅读
小孩哥炒菜、转锅秀翻网友:“这孩子有出息”

小孩哥炒菜、转锅秀翻网友

暑期来临,在结束

07-14 23阅读
顶尖大学,落户上海

顶尖大学,落户上海

近日,上海市教育

07-15 24阅读
卓越工程师培养模式迈出重要一步,人民时评:把科研做在生产线上

卓越工程师培养模式迈出重

人才带动技术创

07-15 25阅读
低空经济暗战2026,企业忙着拿单融资

低空经济暗战2026,企业忙着

刚刚过去的

11-19 131阅读
新势力10月销量大战:理想霸榜,零跑逆袭

新势力10月销量大战:理想霸

10月,国内新

11-19 109阅读
公司暴雷、黯然缺席、展台冷清,这届广州车展的失意者有点多

公司暴雷、黯然缺席、展台

11-19 128阅读
三款重磅车型亮相 一汽-大众闪耀广州车展

三款重磅车型亮相 一汽-大

随着数字化和智能化的推进,电动车行

11-19 113阅读
聚焦 AUTO TECH 2025华南展,揭秘汽车零部件行业发展新趋势

聚焦 AUTO TECH 2025华南

汽车零部件作为汽车整车行业的上游

11-19 108阅读