阿里云通义开源最强过程奖励PRM模型,7B尺寸比GPT-4o更能发现推理错误

7个月前 科技 36观看
摘要 1月16日,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型;在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸就超越了GPT-4o。同时,通义

1月16日,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型;在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸就超越了GPT-4o。同时,通义团队还开源首个步骤级的评估标准 ProcessBench,填补了大模型推理过程错误评估的空白。HkW喜好网-记录每日喜好的科技时尚娱乐生活

1.jpgHkW喜好网-记录每日喜好的科技时尚娱乐生活

在当前大模型推理过程中,不时存在逻辑错误或编造看似合理的推理步骤,如何准确识破过程谬误并减少它,对增强大模型推理能力、提升推理可信度尤为关键。过程奖励模型(Process Reward Model, PRM)为解决这一问题提供了一种极有前景的新方法:PRM对推理过程中的每一步行为都进行评估及反馈,帮助模型更好学习和优化推理策略,最终提升大模型推理能力。HkW喜好网-记录每日喜好的科技时尚娱乐生活

基于PRM的理念,通义团队提出了一种简单有效的过程奖励数据构造方法,将PRM模型常用的蒙特卡洛估计方法(MC estimation)与大模型判断(LLM-as-a-judge)创新融合,提供更可靠的推理过程反馈。通义团队基于Qwen2.5-Math-Instruct模型进行微调,从而得到72B及7B的Qwen2.5-Math-PRM模型,模型的数据利用率和评测性能表现均显著提高。HkW喜好网-记录每日喜好的科技时尚娱乐生活

2.jpgHkW喜好网-记录每日喜好的科技时尚娱乐生活

在包含GSM8K、MATH、Minerva Math等7个数学基准测试的 Best-of-N 评测中,Qwen2.5-Math-PRM-7B性能表现超越了同尺寸的开源PRMs;Qwen2.5-Math-PRM-72B的整体性能在评测中拔得头筹,优于同尺寸ORM(Outcome Reward Model )结果奖励模型Qwen2.5-Math-RM-72B。HkW喜好网-记录每日喜好的科技时尚娱乐生活

同时,为更好衡量模型识别数学推理中错误步骤的能力,通义团队提出了全新的评估标准ProcessBench。该基准由3400个数学问题测试案例组成,其中还包含奥赛难度的题目,每个案例都有人类专家标注的逐步推理过程,可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。HkW喜好网-记录每日喜好的科技时尚娱乐生活

3.jpgHkW喜好网-记录每日喜好的科技时尚娱乐生活

在ProcessBench上对错误步骤的识别能力的评估中,72B及7B尺寸的Qwen2.5-Math-PRM均显示出显著的优势,7B版本的PRM模型不但超越同尺寸开源PRM模型,甚至超越了闭源GPT-4o-0806。这印证了过程奖励模型PRM可有效提升推理可靠性,对未来推理过程监督技术的研发提供新思路。HkW喜好网-记录每日喜好的科技时尚娱乐生活

HkW喜好网-记录每日喜好的科技时尚娱乐生活

HkW喜好网-记录每日喜好的科技时尚娱乐生活

HkW喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
超美小直屏!OPPO Reno13外观赏析

超美小直屏!OPPO Reno13外观赏析

“长得好

11-19 124阅读
宇瞻发布NOX RGB DDR5电竞内存条,速度高达8000MT/s

宇瞻发布NOX RGB DDR5电竞内存条

11-19 123阅读
“知春路时代”的创业者,被回购条款绊了一跤

“知春路时代”的创业者,被回购条

这次

11-19 130阅读
“一听别人说‘清华系’,我就感觉压力山大”

“一听别人说‘清华系’,我就感觉

自从

11-19 107阅读
叮咚买菜上岸、巨头加码火拼,前置仓大战重启

叮咚买菜上岸、巨头加码火拼,前置

近年

11-19 114阅读
赵昭仪的男朋友是谁? 揭秘二人关系不简单!

赵昭仪的男朋友是谁? 揭秘

甜甜的恋爱剧成了影视圈之中的主

11-19 128阅读
高燃励志电影《倒数回击》定档11月20日 甜妹热辣“爆改”逆袭浴火人生

高燃励志电影《倒数回击》

  由洪子烜导演,温贞菱、丁宁主演的

11-19 98阅读
董明珠称训员工被指霸道很好笑:企业管理者声音大点还没这个话语权了

董明珠称训员工被指霸道很

11月16日消息,之

11-19 121阅读
要钱干嘛!比尔盖茨支持对富豪加税:我愿放弃62%的财富

要钱干嘛!比尔盖茨支持对富

11月11日消息,据

11-19 104阅读
王宝强新片《金陵福》立项:慈禧御用魔术师的传奇人生

王宝强新片《金陵福》立项

11月13日消息,国

11-19 111阅读
咸鱼之王爬塔最强阵容2024,咸鱼之王最强阵容推荐

咸鱼之王爬塔最强阵容2024

咸鱼之王爬塔最强阵容相信在玩咸鱼之王

11-19 139阅读
金庸群侠传3加强版古墓路线全流程详细攻略

金庸群侠传3加强版古墓路

金庸群侠传3游戏里面玩家可以自由选择

11-19 180阅读
原子之心电脉冲枪在哪?电脉冲枪获取方法分享

原子之心电脉冲枪在哪?电

原子之心电脉冲枪在哪?电脉冲枪是原子之

11-19 129阅读
原子之心3826设施所有死者所在位置一览

原子之心3826设施所有死者

在原子之心游戏设定中,死者在生命体征消

11-19 131阅读
饥荒制作刷肉机快速刷肉的详细操作方法

饥荒制作刷肉机快速刷肉的

大肉是饥荒游戏里面的重要食物,主要是猪

11-19 122阅读