如何提升AI模型的认知?思考方式是关键

2个月前 科技 30观看
摘要 研究发现,Qwen天生擅长验证、回溯等推理行为,而Llama需通过训练诱导这些习惯,才能在强化学习中实现自我提升。想象一下,当你面对一个棘手的数学题时,会怎么做?可能会多花点时间,仔细推敲每一步,甚至在走不通时退

研究发现,Qwen天生擅长验证、回溯等推理行为,而Llama需通过训练诱导这些习惯,才能在强化学习中实现自我提升。0Kp喜好网-记录每日喜好的科技时尚娱乐生活

想象一下,当你面对一个棘手的数学题时,会怎么做?可能会多花点时间,仔细推敲每一步,甚至在走不通时退回去重来。这种深思熟虑的能力,如今也开始在语言模型身上显现。近年来,通过强化学习(RL),一些模型学会了在复杂问题上“慢下来思考”,就像人类专家那样。然而,有趣的是,有些模型进步神速,有些却很快停滞。比如,在《倒计时》游戏的相同训练下,Qwen-2.5-3B远远甩开Llama-3.2-3B。这不禁让人好奇:是什么让某些模型能不断自我提升?0Kp喜好网-记录每日喜好的科技时尚娱乐生活

为了解开这个谜团,研究者们聚焦于四种关键的认知行为:验证、回溯、设定子目标和逆向推理。这些习惯在人类解决问题时很常见——一位数学家会检查证明的每一步,遇到矛盾时放弃死胡同,把大问题拆成小块,从结果反推起因。研究发现,Qwen天生就带有这些特质,尤其擅长验证和回溯,而Llama起初几乎完全欠缺。正是这些行为,让Qwen能在强化学习中如鱼得水。0Kp喜好网-记录每日喜好的科技时尚娱乐生活

那么,能不能让Llama也学会这些本领呢?实验给出了一线希望。通过给Llama提供一些包含这些推理行为的示例,比如回溯的思考痕迹,它在强化学习中的表现突飞猛进,甚至追平了Qwen。更令人惊讶的是,即便这些示例的答案是错的,只要推理模式正确,效果依然显著。这说明,关键不在于答案对错,而在于模型是否掌握了这些认知习惯。0Kp喜好网-记录每日喜好的科技时尚娱乐生活

研究并未止步于此。研究者们还尝试从OpenWebMath数据中筛选出强调推理行为的内容,继续预训练Llama。结果令人振奋:Llama的进步轨迹逐渐与Qwen看齐。这表明,一个模型的初始推理能力,决定了它能否有效利用额外的计算资源。Qwen这样的“天赋选手”自然占优,而Llama则需要后天培养。0Kp喜好网-记录每日喜好的科技时尚娱乐生活

回想人类解题的场景,我们往往会反复验证,分解任务,甚至从目标倒推回去。语言模型也是如此。在《倒计时》游戏中,回溯和验证成了制胜法宝。研究者用这个游戏设计了初始实验,发现Llama只要稍加引导,就能展现潜力。后来,他们用更丰富的数据集进一步训练,证明这种提升并非偶然,而是可以通过精心挑选训练素材实现的。0Kp喜好网-记录每日喜好的科技时尚娱乐生活

这些发现揭示了一个简单却深刻的道理:模型的自我提升,取决于它最初的推理习惯。Qwen之所以能脱颖而出,是因为它自带验证和回溯的“天赋”;而Llama通过训练,也能迎头赶上。更有趣的是,即便用错误答案引导,只要保留正确的推理模式,效果依然不减。这让人不禁思考:在编程、游戏或写作等其他领域,又需要哪些特定的认知行为呢?0Kp喜好网-记录每日喜好的科技时尚娱乐生活

人类的智慧积累了无数解题的妙招,而AI正在这条路上越走越远。未来,它或许不仅能学会我们的习惯,还能创造出全新的推理方式。就像Qwen和Llama的故事告诉我们的,进步的关键不在于起点多高,而在于能否找到适合自己的成长路径。0Kp喜好网-记录每日喜好的科技时尚娱乐生活

本文译自 arxiv.org,由 BALI 编辑发布。0Kp喜好网-记录每日喜好的科技时尚娱乐生活

0Kp喜好网-记录每日喜好的科技时尚娱乐生活

0Kp喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
曝iPhone 17全系首发3nm A19系列芯片:无缘台积电2nm工艺制程

曝iPhone 17全系首发3nm A19系列

11月19日

11-19 61阅读
OPPO Reno13系列外观详解:蝴蝶紫配色惊艳 超美小OPhone

OPPO Reno13系列外观详解:蝴蝶紫

在结束了

11-19 72阅读
护眼的2K旗舰!Redmi K80是行业唯一支持全亮度DC的2K屏手机

护眼的2K旗舰!Redmi K80是行业唯

11月18日

11-19 78阅读
“抽象”主播为何爆火?

“抽象”主播为何爆火?

前不

11-19 71阅读
“至少需要招聘90名投资经理”

“至少需要招聘90名投资经理”

VC/PE

11-19 68阅读
这次,李庚希“底裤被扒光”,孙红雷的话,终于有人信了

这次,李庚希“底裤被扒光”

11-19 64阅读
后台被这剧催爆了

后台被这剧催爆了

11-19 72阅读
2012年,“非诚勿扰”女高朋王佳暴虐杀害丈夫,如今快要出狱了

2012年,“非诚勿扰”女高朋

11-19 68阅读
深入人心的人生句子,精致有个性,总有一句适合你(深入人心的人生句子)

深入人心的人生句子,精致有

一、 人生没有多走的路,脚下的每

11-19 69阅读
高基才个人资料, 深扒小鲜肉高基才家庭背景

高基才个人资料, 深扒小鲜

电视剧《一夜新娘》正在热播中,剧

11-19 66阅读
每年冠军纪录,九号品牌见证AG成就电竞传奇

每年冠军纪录,九号品牌见证

11月16日,KPL年度总决赛决赛在万众瞩目

11-19 63阅读
LUIDA’S BAR推出《DQIII》合作菜单

LUIDA’S BAR推出《DQIII

为纪念HD-

11-19 67阅读
《战神:诸神黄昏》6.001补丁发布 优化手柄和显卡支持

《战神:诸神黄昏》6.001补

《战神:诸神黄昏》6.001更新版本着重解

11-19 72阅读
三国群英传7秘籍大全_三国群英传7所有秘籍代码一览

三国群英传7秘籍大全_三国

三国群英传7游戏支持秘籍功能,玩家可以

11-19 64阅读
360浏览器兼容模式怎么设置?360浏览器极速模式怎么开?一文看懂

360浏览器兼容模式怎么设

360浏览器是我们使用最多的一款浏览器

11-19 61阅读