测试时扩展如何释放小型语言模型的隐藏推理能力 (并让它们超越大语言模型的表现)

2个月前 科技 15观看
摘要 根据上海人工智能实验室的一项新研究表明,小型语言模型 (SLMs) 在推理任务中可以超越领先的大语言模型 (LLMs)。研究人员展示了通过使用适当的工具和测试时扩展技术,一个拥有 10 亿参数的 SLM

根据上海人工智能实验室的一项新研究表明,小型语言模型 (SLMs) 在推理任务中可以超越领先的大语言模型 (LLMs)。研究人员展示了通过使用适当的工具和测试时扩展技术,一个拥有 10 亿参数的 SLM 可以在复杂的数学基准测试中超越拥有 4050 亿参数的 LLM。wxL喜好网-记录每日喜好的科技时尚娱乐生活

在企业寻求在不同环境和应用中使用这些新模型的情况下,部署 SLM 来处理复杂推理任务可能非常有用。wxL喜好网-记录每日喜好的科技时尚娱乐生活

测试时扩展的解释wxL喜好网-记录每日喜好的科技时尚娱乐生活

测试时扩展 (TTS) 是在推理过程中为 LLM 提供额外计算周期以提高其在各种任务上表现的过程。领先的推理模型,如 OpenAI o1 和 DeepSeek-R1,使用"内部 TTS",这意味着它们通过生成一长串思维链 (CoT) token 来训练"慢思考"。wxL喜好网-记录每日喜好的科技时尚娱乐生活

另一种方法是"外部 TTS",即通过外部帮助来增强模型性能。外部 TTS 适用于将现有模型重新用于推理任务,而无需进一步微调。外部 TTS 设置通常由"策略模型"(生成答案的主要 LLM)和过程奖励模型 (PRM,用于评估策略模型答案) 组成。这两个组件通过采样或搜索方法相互配合。wxL喜好网-记录每日喜好的科技时尚娱乐生活

最简单的设置是"N 选优",其中策略模型生成多个答案,PRM 选择一个或多个最佳答案来组成最终响应。更高级的外部 TTS 方法使用搜索。在"束搜索"中,模型将答案分解为多个步骤。wxL喜好网-记录每日喜好的科技时尚娱乐生活

对于每个步骤,它会采样多个答案并通过 PRM 运行。然后选择一个或多个合适的候选答案并生成下一步答案。在"多样化验证树搜索" (DVTS) 中,模型生成多个答案分支以创建更多样化的候选响应集,然后将它们合成为最终答案。wxL喜好网-记录每日喜好的科技时尚娱乐生活

选择正确的扩展策略wxL喜好网-记录每日喜好的科技时尚娱乐生活

选择正确的 TTS 策略取决于多个因素。研究作者对不同策略模型和 PRM 如何影响 TTS 方法的效率进行了系统研究。wxL喜好网-记录每日喜好的科技时尚娱乐生活

他们的研究表明,效率在很大程度上取决于策略和 PRM 模型。例如,对于小型策略模型,基于搜索的方法优于 N 选优。然而,对于大型策略模型,N 选优更有效,因为这些模型具有更好的推理能力,不需要奖励模型来验证推理的每个步骤。wxL喜好网-记录每日喜好的科技时尚娱乐生活

研究还显示,正确的 TTS 策略取决于问题的难度。例如,对于参数少于 70 亿的小型策略模型,N 选优更适合简单问题,而束搜索更适合困难问题。对于介于 70 亿到 320 亿参数之间的策略模型,多样化树搜索在简单和中等问题上表现良好,束搜索最适合困难问题。但对于大型策略模型 (720 亿参数及以上),N 选优是所有难度级别的最佳方法。wxL喜好网-记录每日喜好的科技时尚娱乐生活

为什么小型模型能够胜过大型模型wxL喜好网-记录每日喜好的科技时尚娱乐生活

基于这些发现,开发人员可以创建计算优化的 TTS 策略,考虑策略模型、PRM 和问题难度,以最好地利用计算预算来解决推理问题。wxL喜好网-记录每日喜好的科技时尚娱乐生活

例如,研究人员发现,使用计算优化的 TTS 策略的 Llama-3.2-3B 模型在 MATH-500 和 AIME24 这两个复杂的数学基准测试中超越了 Llama-3.1-405B。这表明当使用计算优化的 TTS 策略时,一个 SLM 可以超越一个大 135 倍的模型。wxL喜好网-记录每日喜好的科技时尚娱乐生活

在其他实验中,他们发现使用正确的计算优化 TTS 策略,一个拥有 5 亿参数的 Qwen2.5 模型可以超越 GPT-4o。使用相同的策略,DeepSeek-R1 的 15 亿参数蒸馏版本在 MATH-500 和 AIME24 上超越了 o1-preview 和 o1-mini。wxL喜好网-记录每日喜好的科技时尚娱乐生活

当考虑训练和推理计算预算时,研究发现使用计算优化的扩展策略,SLM 可以用少 100-1000 倍的 FLOPS 超越更大的模型。wxL喜好网-记录每日喜好的科技时尚娱乐生活

研究人员的结果表明,计算优化的 TTS 显著增强了语言模型的推理能力。然而,随着策略模型变大,TTS 的改进逐渐减少。wxL喜好网-记录每日喜好的科技时尚娱乐生活

研究人员写道:"这表明 TTS 的有效性直接与策略模型的推理能力相关。具体来说,对于推理能力较弱的模型,扩展测试时计算会带来显著改进,而对于推理能力强的模型,收益有限。"wxL喜好网-记录每日喜好的科技时尚娱乐生活

该研究验证了在应用计算优化的测试时扩展方法时,SLM 可以比更大的模型表现更好。虽然这项研究侧重于数学基准测试,但研究人员计划将研究扩展到编码和化学等其他推理任务。wxL喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
戴森设计大奖国际20强名单出炉

戴森设计大奖国际20强名单出炉

【锋巢网】首次有两支中国大陆赛

11-19 70阅读
小鹏汇天“陆地航母”2024 广州车展完成全球公开载人首飞

小鹏汇天“陆地航母”2024 广州

11-19 61阅读
「西图之光」获近千万元A轮融资

「西图之光」获近千万元A轮融资

【投

11-19 68阅读
Scaling Law遭遇瓶颈,OpenAI被曝押注智能体“Operator”

Scaling Law遭遇瓶颈,OpenAI被曝

文章来源:量子位图片来源:由无界AI

11-19 65阅读
毒铁锅 遭央视多次曝光,把美食变成 毒药 ,大家应提高警惕(遭央视多次曝光)

毒铁锅 遭央视多次曝光,把

前言 前一段时间,我国市面上出现了

11-19 68阅读
味道研究所 | 橘黄变棕红 这口Q糯甜香深深烙印在你心间(味道研究所橘黄变棕红)

味道研究所 | 橘黄变棕红

© |菜头 遂昌乡村有着独特的

11-19 69阅读
Red Velvet为纪念出道十周年推出与Knotted甜蜜联名!限量版甜甜圈与饮品展现Red Velvet概念!

Red Velvet为纪念出道十周

为纪念出道10周年,Red Velvet

11-19 67阅读
不愧是中国第一网红!李子柒油管日收入预估超8万:停更期间单月广告分成超78万

不愧是中国第一网红!李子柒

11月14日消息,据

11-19 62阅读
浪胃仙IP创始人“游絮”犯职务侵占罪被判8年:罚100万 归还账号

浪胃仙IP创始人“游絮”犯

11月13日消息,据

11-19 66阅读
TGA:DLC、拓展包、新赛季、重制版等均可提名所有奖项

TGA:DLC、拓展包、新赛季、

今日(11月16日),TGA主创Geoff Keighley与

11-19 73阅读
帝国时代2秘籍大全_帝国时代2征服者/高清版秘籍(含隐藏秘籍)

帝国时代2秘籍大全_帝国时

帝国时代2秘籍是很多玩帝国时代2游戏玩

11-19 156阅读
碧蓝航线ios反和谐教程_碧蓝航线ios反和谐2024

碧蓝航线ios反和谐教程_碧

碧蓝航线ios反和谐怎么弄?相信很多苹果

11-19 72阅读
小小蚁国礼包2023,小小蚁国蚁往无前礼包

小小蚁国礼包2023,小小蚁

小小蚁国是一款非常好玩的模拟经营策略

11-19 71阅读
原神终将到来的花神诞祭任务流程|终将到来的花神诞祭任务攻略

原神终将到来的花神诞祭任

终将到来的花神诞祭是原神须弥地区魔神

11-19 85阅读