中国联通:针对DeepSeek系列模型进行了优化升级 平均节省30%推理计算量

2个月前 生活 22观看
摘要财联社2月26日讯,中国联通近日宣布,继1月开源元景“自适应慢思考”思维链大模型后,又针对DeepSeek系列模型进行了“自适应慢思考”优化升级,平均可节省约30%的推理计算量,现已开源。这也是目前业界首个对DeepSeek系列思维

财联社2月26日讯,中国联通近日宣布,继1月开源元景“自适应慢思考”思维链大模型后,又针对DeepSeek系列模型进行了“自适应慢思考”优化升级,平均可节省约30%的推理计算量,现已开源。这也是目前业界首个对DeepSeek系列思维链模型做“自适应慢思考”优化升级的工作。aPy喜好网-记录每日喜好的科技时尚娱乐生活

“以我为主,为我所用”的开放创新aPy喜好网-记录每日喜好的科技时尚娱乐生活

元景思维链大模型具备多学科、多场景通用推理能力,且能在确保慢思考能力不打折的情况下,做到针对不同任务和难度的自适应慢思考,大幅降低了资源消耗,实现了大模型“慢思考”能力高性价比落地应用。aPy喜好网-记录每日喜好的科技时尚娱乐生活

元景思维链大模型接入DeepSeek-R1并非简单的“拿来主义”,而是“从其善,优其不善”,对DeepSeek-R1版本进行了调整,最大程度规避了其面对简单问题“过度思考”的现象,使模型具备了“自适应”能力。即在面向难度较高问题时使用慢思考模式生成长思维链,面向简单问题时则倾向于生成简洁的思维链,迅速准确的输出相关答案。这样避免了答案的冗余、资源的浪费以及减少用户等待时间,提升用户体验。aPy喜好网-记录每日喜好的科技时尚娱乐生活

调整步骤完整分享aPy喜好网-记录每日喜好的科技时尚娱乐生活

难度自适应微调:为实现模型推理的难度自适应,中国联通利用DeepSeek-R1满血版模型采样生成数据,通过复杂度量化模块构造长度偏好数据集,对于简单问题从采样答案中挑选长度较短的答案,对困难问题挑选长度较长的答案,使得答案长度与当前问题复杂度相匹配。在此基础上对DeepSeek-R1进行微调,使得微调后的模型具备对不同难度题目的自适应慢思考能力。aPy喜好网-记录每日喜好的科技时尚娱乐生活

imageaPy喜好网-记录每日喜好的科技时尚娱乐生活

具体改造流程如下图所示。 自适应慢思考的DeepSeek-R1满血版模型训练流程图

二次蒸馏:针对DeepSeek-R1的系列蒸馏模型,由于其使用的蒸馏数据来自训练满血版R1时使用的训练数据,而非由性能更好的R1满血版自身生成的数据,这会导致得到的蒸馏模型未能充分学习R1满血版的能力,蒸馏效果大打折扣。为解决这个问题,中国联通使用了二次蒸馏的策略,即利用DeepSeek-R1满血版将已积累的高质量数据转化为包括深度思考过程的长思维链格式数据,在DeepSeek-R1蒸馏系列模型基础上再进行一次微调,使模型具备更强的推理能力。aPy喜好网-记录每日喜好的科技时尚娱乐生活

难度自适应强化学习:在对模型进行二次蒸馏后,中国联通进一步借鉴DeepSeek-R1的构建思路,在GRPO算法基础上提出了一种难度自适应强化学习算法DA-GRPO(Difficulty Adaptive GRPO),对二次蒸馏模型进行难度自适应的强化学习训练,进一步提升其推理效果。除了使用传统的基于规则的正确性奖励、格式奖励、语言一致性奖励外,DA-GRPO还基于每个问题的复杂程度和生成答案的长度对奖励得分进行校准。具体而言,如果模型对一个简单问题输出较长的答案,则对奖励分数进行相应的惩罚。同时,若模型对困难的问题输出较长的答案,则给予其更高的奖励分数,以鼓励其进行更充分的思考。这样,通过提高样本答案奖励得分的区分度,使模型具备根据问题难度输出相应长度答案的能力,在保证推理准确率的前提下显著减少了答案冗余和资源消耗,从而实现对不同难度问题的自适应慢思考。 aPy喜好网-记录每日喜好的科技时尚娱乐生活

imageaPy喜好网-记录每日喜好的科技时尚娱乐生活

自适应慢思考的DeepSeek-R1蒸馏版模型训练流程图

推理计算量节省约30%aPy喜好网-记录每日喜好的科技时尚娱乐生活

中国联通以DeepSeek-R1-distill-32B模型为例,对上述方法的效果进行了验证。通过在数学任务测评集(MATH500)上对比以及具体实验可以看到,经过难度自适应改造后的模型在不同难度等级问题上生成的回答长度较原版均明显下降,并且对于最高难度(Level 5)输出的回答长度降幅最大,体现了模型对不同难度等级问题具备自适应慢思考能力。经过测评,这种创新的自适应慢思考方法,平均可节省约30%的推理计算量,冗余输出大幅减少,用户体验得到有效提升。 aPy喜好网-记录每日喜好的科技时尚娱乐生活

imageaPy喜好网-记录每日喜好的科技时尚娱乐生活

回答长度对比:原版DeepSeek-R1-distill-32B(浅蓝)vs自适应版(深蓝)

展开全文
猜你感兴趣
长沙缓过来了

长沙缓过来了

2024年10月

11-19 67阅读
iQOO Neo10系列外观现身,将标配超声波指纹

iQOO Neo10系列外观现身,将

作为iQOO旗下以高性价比着称的产品序

11-19 66阅读
解度欧诗漫的“流量密码”,科技力与品牌力双管齐下

解度欧诗漫的“流量密码”

在精准护肤的大趋势下,美白产品赛道竞

11-19 62阅读
自助韩式烤肉,在抖音馋住了年轻人

自助韩式烤肉,在抖音馋住了

下沉市场的餐饮生意,正在释放增长动能

11-19 60阅读
京东11.11低价好货引疯抢 京喜自营11.11元不锈钢泼油小锅热卖

京东11.11低价好货引疯抢

截至11月11日23:59,2024年京东11.11购

11-19 66阅读
动漫绿调色教程

动漫绿调色教程

11-19 59阅读
barenbliss新品气垫荣登Glowpick推荐榜,产品实力再获认可

barenbliss新品气垫荣登Gl

近日,纯净韩妆品牌barenbliss明星系列

11-19 64阅读
胜利比什么都过瘾 —— 辛纳与阿卡空降“胜者主场”

胜利比什么都过瘾 —— 辛

今年夏天,在耐克和耐克

11-19 65阅读
探寻高端生活方式品牌的数字转型之路,VOGUE Business峰会在米兰召开

探寻高端生活方式品牌的数

9月27日,VOGUE Business携手独家战

11-19 59阅读
珠宝大事记:MONOLOGUE独白可持续时尚新篇章

珠宝大事记:MONOLOGUE独白

随着时代的发展,珠宝品类逐步从功能性

11-19 58阅读
香港首宗颠覆国家政权案宣判 45名反中乱港分子被判刑

香港首宗颠覆国家政权案宣

央视

11-19 64阅读
厕所的洗手池是感应的那种

厕所的洗手池是感应的那种

厕所的洗手池是感应的那种。 同事

11-19 59阅读
我和男友间的关系比较脆弱

我和男友间的关系比较脆弱

我和男友间的关系比较脆弱。 我只

11-19 56阅读
姜枣茶的功效与作用

姜枣茶的功效与作用

功效与作用温中散寒、补血正气、促进消

11-19 67阅读