中国联通:针对DeepSeek系列模型进行了优化升级 平均节省30%推理计算量

5个月前 生活 37观看
摘要财联社2月26日讯,中国联通近日宣布,继1月开源元景“自适应慢思考”思维链大模型后,又针对DeepSeek系列模型进行了“自适应慢思考”优化升级,平均可节省约30%的推理计算量,现已开源。这也是目前业界首个对DeepSeek系列思维

财联社2月26日讯,中国联通近日宣布,继1月开源元景“自适应慢思考”思维链大模型后,又针对DeepSeek系列模型进行了“自适应慢思考”优化升级,平均可节省约30%的推理计算量,现已开源。这也是目前业界首个对DeepSeek系列思维链模型做“自适应慢思考”优化升级的工作。9aD喜好网-记录每日喜好的科技时尚娱乐生活

“以我为主,为我所用”的开放创新9aD喜好网-记录每日喜好的科技时尚娱乐生活

元景思维链大模型具备多学科、多场景通用推理能力,且能在确保慢思考能力不打折的情况下,做到针对不同任务和难度的自适应慢思考,大幅降低了资源消耗,实现了大模型“慢思考”能力高性价比落地应用。9aD喜好网-记录每日喜好的科技时尚娱乐生活

元景思维链大模型接入DeepSeek-R1并非简单的“拿来主义”,而是“从其善,优其不善”,对DeepSeek-R1版本进行了调整,最大程度规避了其面对简单问题“过度思考”的现象,使模型具备了“自适应”能力。即在面向难度较高问题时使用慢思考模式生成长思维链,面向简单问题时则倾向于生成简洁的思维链,迅速准确的输出相关答案。这样避免了答案的冗余、资源的浪费以及减少用户等待时间,提升用户体验。9aD喜好网-记录每日喜好的科技时尚娱乐生活

调整步骤完整分享9aD喜好网-记录每日喜好的科技时尚娱乐生活

难度自适应微调:为实现模型推理的难度自适应,中国联通利用DeepSeek-R1满血版模型采样生成数据,通过复杂度量化模块构造长度偏好数据集,对于简单问题从采样答案中挑选长度较短的答案,对困难问题挑选长度较长的答案,使得答案长度与当前问题复杂度相匹配。在此基础上对DeepSeek-R1进行微调,使得微调后的模型具备对不同难度题目的自适应慢思考能力。9aD喜好网-记录每日喜好的科技时尚娱乐生活

image9aD喜好网-记录每日喜好的科技时尚娱乐生活

具体改造流程如下图所示。 自适应慢思考的DeepSeek-R1满血版模型训练流程图

二次蒸馏:针对DeepSeek-R1的系列蒸馏模型,由于其使用的蒸馏数据来自训练满血版R1时使用的训练数据,而非由性能更好的R1满血版自身生成的数据,这会导致得到的蒸馏模型未能充分学习R1满血版的能力,蒸馏效果大打折扣。为解决这个问题,中国联通使用了二次蒸馏的策略,即利用DeepSeek-R1满血版将已积累的高质量数据转化为包括深度思考过程的长思维链格式数据,在DeepSeek-R1蒸馏系列模型基础上再进行一次微调,使模型具备更强的推理能力。9aD喜好网-记录每日喜好的科技时尚娱乐生活

难度自适应强化学习:在对模型进行二次蒸馏后,中国联通进一步借鉴DeepSeek-R1的构建思路,在GRPO算法基础上提出了一种难度自适应强化学习算法DA-GRPO(Difficulty Adaptive GRPO),对二次蒸馏模型进行难度自适应的强化学习训练,进一步提升其推理效果。除了使用传统的基于规则的正确性奖励、格式奖励、语言一致性奖励外,DA-GRPO还基于每个问题的复杂程度和生成答案的长度对奖励得分进行校准。具体而言,如果模型对一个简单问题输出较长的答案,则对奖励分数进行相应的惩罚。同时,若模型对困难的问题输出较长的答案,则给予其更高的奖励分数,以鼓励其进行更充分的思考。这样,通过提高样本答案奖励得分的区分度,使模型具备根据问题难度输出相应长度答案的能力,在保证推理准确率的前提下显著减少了答案冗余和资源消耗,从而实现对不同难度问题的自适应慢思考。 9aD喜好网-记录每日喜好的科技时尚娱乐生活

image9aD喜好网-记录每日喜好的科技时尚娱乐生活

自适应慢思考的DeepSeek-R1蒸馏版模型训练流程图

推理计算量节省约30%9aD喜好网-记录每日喜好的科技时尚娱乐生活

中国联通以DeepSeek-R1-distill-32B模型为例,对上述方法的效果进行了验证。通过在数学任务测评集(MATH500)上对比以及具体实验可以看到,经过难度自适应改造后的模型在不同难度等级问题上生成的回答长度较原版均明显下降,并且对于最高难度(Level 5)输出的回答长度降幅最大,体现了模型对不同难度等级问题具备自适应慢思考能力。经过测评,这种创新的自适应慢思考方法,平均可节省约30%的推理计算量,冗余输出大幅减少,用户体验得到有效提升。 9aD喜好网-记录每日喜好的科技时尚娱乐生活

image9aD喜好网-记录每日喜好的科技时尚娱乐生活

回答长度对比:原版DeepSeek-R1-distill-32B(浅蓝)vs自适应版(深蓝)

展开全文
猜你感兴趣
“东北姑娘”成90后白手起家新首富,背后有一家百亿美元的公司

“东北姑娘”成90后白手起

11-19 104阅读
红魔10 Pro系列首批好评率达100%,4999元起

红魔10 Pro系列首批好评率

不久前红魔方面正式推出新款旗舰电竞

11-19 96阅读
京东11.11低价好货引疯抢 京喜自营11.11元不锈钢泼油小锅热卖

京东11.11低价好货引疯抢

截至11月11日23:59,2024年京东11.11购

11-19 116阅读
苹果计划在2025年发布新的Vision Pro 搭载M5芯片

苹果计划在2025年发布新的

目前的Vision Pro配备了M2芯片,该芯片

11-19 107阅读
双十一不止电商战,桃源π打造沉浸式购物体验

双十一不止电商战,桃源π打

当前正值一年一度的“双十一”大促,定

11-19 104阅读
 汇聚优势,共赴闪耀——郑州即将开启一场“硬核”大会

汇聚优势,共赴闪耀——郑

11月1日下午,记者从2024金刚石产业大

11-19 100阅读
 时尚共融,生态共联 | 四季青服装集团携手深圳时装周,开启战略合作新篇章

时尚共融,生态共联 | 四季

在万众瞩目的S/S 2025深圳时装周上,一

11-19 108阅读
展望时尚行业的高质量发展之路 VOGUE Business于深圳举办时尚行业峰会

展望时尚行业的高质量发展

10月16日,康泰纳仕中国旗下时尚产业媒

11-19 97阅读
时尚“趋势”下的好生意:服饰品牌如何精准捕捉消费者喜好

时尚“趋势”下的好生意:服

在时尚的海洋中,品牌如同航行者,而趋势

11-19 102阅读
军事化减肥

军事化减肥

甲:明天开始军事化减肥。 乙:何为军

11-19 118阅读
发了60s语音给损友

发了60s语音给损友

发了60s语音给损友。 损友一分钟后

11-19 93阅读
暑假在家

暑假在家

暑假在家。 爸妈早上6点就起来了。

11-19 115阅读
骗钱套路

骗钱套路

一个全新的骗钱套路。 骗子:私。

11-19 106阅读
空调开的久的话

空调开的久的话

甲:空调开的久的话,我就很心疼它。

11-19 107阅读