AlphaOne 为 AI 开发者提供控制大语言模型"思考"的新旋钮,提升性能表现

2个月前 科技 9观看
摘要 来自伊利诺伊大学厄巴纳-香槟分校和加州大学伯克利分校的研究人员推出了一个新框架,为开发者提供了对大语言模型 (LLM) "思考"方式的更多控制,在提升推理能力的同时更高效地利用推理预算。这个

来自伊利诺伊大学厄巴纳-香槟分校和加州大学伯克利分校的研究人员推出了一个新框架,为开发者提供了对大语言模型 (LLM) "思考"方式的更多控制,在提升推理能力的同时更高效地利用推理预算。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

这个名为 AlphaOne (α1) 的框架是一种测试时缩放技术,在推理过程中调整模型行为,无需进行昂贵的重新训练。它为调节先进大语言模型的推理过程提供了一种通用方法,为开发者提供了灵活性,能够以比现有方法更可控、更具成本效益的方式提升复杂任务的性能。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

**缓慢思考的挑战**Dqu喜好网-记录每日喜好的科技时尚娱乐生活

近年来,大型推理模型 (LRM) 的开发者,如 OpenAI o3 和 DeepSeek-R1,已经纳入了受"系统 2"思维启发的机制——这是人类认知中缓慢、深思熟虑且逻辑性的模式。这与"系统 1"思维不同,后者是快速、直觉且自动的。融入系统 2 能力使模型能够解决数学、编程和数据分析等领域的复杂问题。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

模型被训练自动生成过渡 Token,如"wait"、"hmm"或"alternatively"来触发缓慢思考。当这些 Token 之一出现时,模型会暂停对之前步骤进行自我反思并纠正方向,就像人在遇到困难问题时暂停重新思考一样。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

然而,推理模型并不总能有效利用其缓慢思考能力。不同研究表明,它们容易对简单问题"过度思考",浪费计算资源,或对复杂问题"思考不足",导致错误答案。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

正如 AlphaOne 论文所指出的:"这是因为大型推理模型无法找到最优的类人系统 1 到系统 2 推理转换,且推理能力有限,导致推理性能不尽如人意。"Dqu喜好网-记录每日喜好的科技时尚娱乐生活

有两种常见方法来解决这个问题。并行缩放,如"best-of-N"方法,多次运行模型并选择最佳答案,但计算成本昂贵。顺序缩放试图在单次运行中调节思考过程。例如,s1 是一种通过在模型上下文中添加"wait" Token 来强制更多缓慢思考的技术,而"Chain of Draft" (CoD) 方法提示模型使用更少词汇,从而减少思考预算。然而,这些方法提供的是刚性的、一刀切的解决方案,往往效率不高。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

**推理的通用框架**Dqu喜好网-记录每日喜好的科技时尚娱乐生活

研究人员没有简单地增加或减少思考预算,而是提出了一个更根本的问题:是否可能开发出更好的策略来在缓慢和快速思考之间转换,从而能够通用地调节推理预算?Dqu喜好网-记录每日喜好的科技时尚娱乐生活

他们的框架 AlphaOne 为开发者提供了在测试时对模型推理过程的精细控制。该系统通过引入 Alpha (α) 参数来工作,该参数充当缩放模型思考阶段预算的旋钮。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

在生成的某个点之前 (研究人员称为"α 时刻"),AlphaOne 策略性地安排插入"wait" Token 的频率以鼓励缓慢、深思熟虑的思考。这实现了论文中描述的"可控且可扩展的思考"。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

一旦达到"α 时刻",框架会在模型上下文中插入 </think> Token,结束缓慢思考过程并强制模型切换到快速推理并产生最终答案。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

以前的技术通常应用研究人员所称的"稀疏调节",只做少数几个孤立的调整,比如在整个过程中添加一两次"wait" Token。相比之下,AlphaOne 可以配置为频繁干预 (密集) 或很少干预 (稀疏),为开发者提供了比其他方法更精细的控制。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

AlphaOne 通过在不同间隔向模型上下文添加"wait" Token 来调节推理 来源:AlphaOne GitHub 页面Dqu喜好网-记录每日喜好的科技时尚娱乐生活

"我们将 AlphaOne 视为深思熟虑推理的统一接口,与思维链提示或基于偏好的调优互补,并能够与模型架构一起发展," AlphaOne 团队在书面评论中告诉 VentureBeat。"关键要点不在于实现细节,而在于一般原则:推理过程的慢到快结构化调节增强了能力和效率。"Dqu喜好网-记录每日喜好的科技时尚娱乐生活

**AlphaOne 实际应用**Dqu喜好网-记录每日喜好的科技时尚娱乐生活

研究人员在三个不同的推理模型上测试了 AlphaOne,参数规模从 15 亿到 320 亿不等。他们在数学、代码生成和科学问题解决的六个具有挑战性的基准上评估了其性能。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

他们将 AlphaOne 与三个基线进行了比较:未修改的原始模型;单调增加缓慢思考的 s1 方法;以及单调减少缓慢思考的 Chain of Draft (CoD) 方法。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

结果产生了几个对构建 AI 应用程序的开发者特别相关的关键发现。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

首先,"先缓慢思考,再快速思考"的策略在大型推理模型中带来更好的推理性能。这突出了大语言模型与人类认知之间的根本差距,人类认知通常基于先快速思考后缓慢思考的结构。与人类不同,研究人员发现模型受益于在快速行动之前强制执行缓慢思考。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

"这表明有效的 AI 推理不是来自模仿人类专家,而是来自明确调节推理动态,这与现实世界应用中已经使用的提示工程和分阶段推理等实践一致," AlphaOne 团队说。"对开发者而言,这意味着系统设计应该主动施加慢到快的推理时间表来提高性能和可靠性,至少目前如此,因为模型推理仍然不完美。"Dqu喜好网-记录每日喜好的科技时尚娱乐生活

另一个有趣的发现是,投资于缓慢思考可以带来整体上更高效的推理。"虽然缓慢思考减慢了推理速度,但使用 α1 时整体 Token 长度显著减少,引发了缓慢思考带来的更有信息量的推理进展,"论文指出。这意味着虽然模型花费更多时间"思考",但它产生了更简洁准确的推理路径,最终减少了生成的 Token 总数并降低了推理成本。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

与 s1 风格的基线相比,AlphaOne 将平均 Token 使用量减少了约 21%,降低了计算开销,同时将推理准确率提高了 6.15%,甚至在博士级别的数学、科学和代码问题上也是如此。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

虽然 AlphaOne 在开始时进展缓慢,但与其他测试时缩放方法相比,它最终用更少的 Token 获得更好的结果 来源:AlphaOne GitHub 页面Dqu喜好网-记录每日喜好的科技时尚娱乐生活

"对于复杂查询回答或代码生成等企业应用,这些收益转化为双重好处:提高生成质量和显著节省成本," AlphaOne 说。"这些可以降低推理成本,同时提高任务成功率和用户满意度。"Dqu喜好网-记录每日喜好的科技时尚娱乐生活

最后,研究发现高频插入"wait" Token 是有帮助的,AlphaOne 通过比以前方法更频繁地添加 Token 获得了更好的结果。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

通过为开发者提供新的控制水平,预计很快发布代码的 AlphaOne 框架可以帮助他们在下一代推理模型之上构建更稳定、可靠和高效的应用程序。Dqu喜好网-记录每日喜好的科技时尚娱乐生活

"对于使用开源或定制模型的公司,特别是那些在预训练阶段使用过渡 Token 训练的模型,AlphaOne 设计为易于集成," AlphaOne 团队告诉 VentureBeat。"在实践中,集成通常只需要最小的更改,比如简单地更新配置脚本中的模型名称。"Dqu喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
年轻人的失眠症,正在被包装成“熬夜经济”

年轻人的失眠症,正在被包装成“熬

最近一段时间,各大奶茶店纷纷开启

11-19 117阅读
中国电信完成6G天地一体化测试:这上、下行网速感受下!

中国电信完成6G天地一体化测试:这

11月19日

11-19 118阅读
《无限暖暖》12月5日全球公测

《无限暖暖》12月5日全球公测

11-19 105阅读
打工人,靠新中式按摩“续命”

打工人,靠新中式按摩“续命”

26岁

11-19 108阅读
叮咚买菜上岸、巨头加码火拼,前置仓大战重启

叮咚买菜上岸、巨头加码火拼,前置

近年

11-19 109阅读
太太太灵了吧,这是什么「好东西」

太太太灵了吧,这是什么「好

作者 / 西贝偏北运营 / 狮子座还记得

11-19 100阅读
高基才个人资料, 深扒小鲜肉高基才家庭背景

高基才个人资料, 深扒小鲜

电视剧《一夜新娘》正在热播中,剧

11-19 99阅读
高燃励志电影《倒数回击》定档11月20日 甜妹热辣“爆改”逆袭浴火人生

高燃励志电影《倒数回击》

  由洪子烜导演,温贞菱、丁宁主演的

11-19 94阅读
演员许文广《故乡的泥土》央八开播 首演农民角色获赞好真实

演员许文广《故乡的泥土》

  近日,由原著作者田运章担任总编剧,

11-19 100阅读
《最后生还者》新季明年春首播

《最后生还者》新季明年春

HBO及HBO Max首

11-19 105阅读
《ENDER MAGNOLIA: Bloom in the Mist》将于2025年1月23日上市

《ENDER MAGNOLIA: Bloom

云豹娱乐股份有限公司(董事长兼社长:陈云

11-19 109阅读
玩转无忧传奇行会系统,成就宏图霸业

玩转无忧传奇行会系统,成就

行会是无忧传奇中一个非常重要的组成部

11-19 114阅读
原子之心展览园死者位置_展览园全部死者位置一览

原子之心展览园死者位置_

原子之心游戏的展览园区域中一共拥有11

11-19 108阅读
原子之心芭蕾舞者谜题攻略_芭蕾舞者舞姿调整攻略

原子之心芭蕾舞者谜题攻略

原子之心游戏里面玩家会在剧院中碰到一

11-19 117阅读
饥荒辣椒酱制作方法及制作材料分享

饥荒辣椒酱制作方法及制作

辣椒酱是饥荒游戏里面的一个特殊食物,不

11-19 130阅读