少即是多:研究表明 AI 模型在自主学习时泛化效果更好

6个月前 科技 25观看
摘要 根据香港大学和加州大学伯克利分校的一项新研究显示,当语言模型被允许自主创造解决方案时,其泛化能力会更强。这一发现同时适用于大语言模型 (LLM) 和视觉语言模型 (VLM),它挑战了 LLM 领域的一

根据香港大学和加州大学伯克利分校的一项新研究显示,当语言模型被允许自主创造解决方案时,其泛化能力会更强。这一发现同时适用于大语言模型 (LLM) 和视觉语言模型 (VLM),它挑战了 LLM 领域的一个主要观点 —— 即模型需要人工标注的训练样本。事实上,研究人员发现,在过多人工制作的样本上训练模型可能会对其处理未见数据的泛化能力产生负面影响。4eS喜好网-记录每日喜好的科技时尚娱乐生活

模型训练中的 SFT 与 RL4eS喜好网-记录每日喜好的科技时尚娱乐生活

长期以来,监督微调 (SFT) 一直是训练 LLM 和 VLM 的黄金标准。模型在原始文本和图像数据上预训练后,企业和 AI 实验室通常会在大量按问答或请求/响应格式手工制作的样本数据集上进行后训练。在 SFT 之后,模型可以进行额外的训练阶段,比如基于人类反馈的强化学习 (RLHF),模型通过诸如答案排名或对模型响应的喜欢/不喜欢等信号来学习隐含的人类偏好。4eS喜好网-记录每日喜好的科技时尚娱乐生活

SFT 有助于引导模型的行为朝着创建者设计的任务方向发展。然而,收集数据是一个缓慢且昂贵的过程,这成为许多公司和实验室的瓶颈。4eS喜好网-记录每日喜好的科技时尚娱乐生活

LLM 的最新发展引发了人们对纯强化学习 (RL) 方法的兴趣,在这种方法中,模型被赋予一个任务并被允许自主学习,而无需人工制作的样本。最重要的例子是 DeepSeek-R1,这个 OpenAI 的竞争对手主要使用强化学习来学习复杂的推理任务。4eS喜好网-记录每日喜好的科技时尚娱乐生活

泛化与记忆4eS喜好网-记录每日喜好的科技时尚娱乐生活

机器学习 (ML) 系统的一个关键问题是过拟合,即模型在训练数据上表现良好但无法泛化到未见样本。在训练过程中,模型给人一种已经学会任务的错觉,而实际上它只是记住了训练样本。在大型复杂的 AI 模型中,区分泛化和记忆可能很困难。4eS喜好网-记录每日喜好的科技时尚娱乐生活

这项新研究focused on强化学习和SFT训练在文本和视觉推理任务中的泛化能力。对于文本推理,在一组规则上训练的 LLM 应该能够泛化到这些规则的变体。在视觉推理中,VLM 应该在视觉输入的不同方面(如颜色和空间布局)发生变化时保持任务表现的一致性。4eS喜好网-记录每日喜好的科技时尚娱乐生活

在实验中,研究人员使用了两个具有代表性的任务。第一个是 GeneralPoints,这是一个评估模型算术推理能力的基准。模型会得到四张卡片(以文本描述或图像形式),并被要求将它们组合以达到目标数字。为了研究基于规则的泛化,研究人员使用一组规则训练模型,然后用不同的规则评估它。对于视觉泛化,他们使用一种颜色的卡片训练模型,然后测试其在其他颜色和编号方案的卡片上的表现。4eS喜好网-记录每日喜好的科技时尚娱乐生活

第二个任务是 V-IRL,它在使用真实视觉输入的开放世界导航领域中测试模型的空间推理能力。这个任务也有纯语言和视觉语言版本。研究人员通过改变模型训练和测试时使用的指令类型和视觉表示来评估泛化能力。4eS喜好网-记录每日喜好的科技时尚娱乐生活

他们在 Llama-3.2-Vision-11B 上进行测试,首先通过在小型 SFT 数据集上训练来预热模型,然后为每个任务和训练范式创建单独的版本。对于每个任务,他们分别扩展了 RL 和 SFT 的训练。SFT 过程在额外的手工制作的解决方案上训练模型,而 RL 则让模型为每个问题生成多个解决方案,评估结果并在正确答案上自我训练。4eS喜好网-记录每日喜好的科技时尚娱乐生活

研究结果表明,强化学习在与训练数据显著不同的样本上始终能改善性能。相反,SFT 似乎记住了训练规则,无法泛化到分布外 (OOD) 样本。这些观察结果同时适用于纯文本和多模态设置。4eS喜好网-记录每日喜好的科技时尚娱乐生活

对实际应用的影响4eS喜好网-记录每日喜好的科技时尚娱乐生活

虽然实验表明 RL 在泛化方面优于 SFT,但研究人员也发现 SFT 有助于稳定模型的输出格式,对于使 RL 实现其性能提升至关重要。研究人员发现,没有初始 SFT 阶段,RL 训练无法达到理想的结果。4eS喜好网-记录每日喜好的科技时尚娱乐生活

这与 DeepSeek-R1-Zero(仅用纯 RL 进行后训练)获得的结果有所不同。研究人员认为这可能是由于他们在实验中使用了不同的基础模型。4eS喜好网-记录每日喜好的科技时尚娱乐生活

很明显,以 RL 为主的方法仍有大量未被开发的潜力。对于具有可验证结果的用例,让模型自主学习往往能带来人类无法自行设计的意外成果。这在创建手工示例既繁琐又昂贵的场景中特别有用。4eS喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
OPPO Reno 13 系列手机外观公布,代言人宋雨琦

OPPO Reno 13 系列手机外观公布,

11 月

11-19 116阅读
小米发布超级智能驾驶技术Hyper Autonomous Driving(HAD)

小米发布超级智能驾驶技术Hyper

11-19 122阅读
2025款宝骏悦也Plus发布:配备灵眸智驾2.0 Max,定价10.38万

2025款宝骏悦也Plus发布:配备灵眸

11-19 119阅读
趁iPhone16的AI还没落地,国产手机卷疯了

趁iPhone16的AI还没落地,国产手机

乔布

11-19 123阅读
洋咖啡,为何卖不动了?

洋咖啡,为何卖不动了?

近日,

11-19 111阅读
长安十二时辰龙波是好是坏 龙波扮演者是谁资料作品介绍(长安十二时辰龙波是好是坏)

长安十二时辰龙波是好是坏

《长安十二时辰》这部剧正在热播,在

11-19 101阅读
林青霞谢娜同框, 竟是为了张杰?

林青霞谢娜同框, 竟是为了

张杰的首部舞台剧《曾经如是》正

11-19 106阅读
千古玦尘凤染和是凤焰什么关系?白烁是月弥的转世吗?

千古玦尘凤染和是凤焰什么

《千古诀尘》中凤染和是凤焰什么

11-19 112阅读
百部青少年教育公益微电影《星光好少年之少年王维》开机仪式在北京顺利举行

百部青少年教育公益微电影

  2024年11月9日,由泰安东升公益慈

11-19 104阅读
「抖音城市生活节」长沙站完美收官!湘江河畔,邂逅长沙“秋·chill范儿”!

「抖音城市生活节」长沙站

摘要:「湘」聚江畔,在「湘当秋·

11-19 108阅读
三国群英传3秘籍大全_三国群英传3秘籍代码及使用方法一览

三国群英传3秘籍大全_三国

给大家分享三国群英传3秘籍大全,里面包

11-19 112阅读
原神流转存续的花神诞祭主线任务攻略

原神流转存续的花神诞祭主

流转存续的花神诞祭是原神须弥地区魔神

11-19 133阅读
原子之心展览馆四个学生所在位置详细介绍

原子之心展览馆四个学生所

在原子之心游戏的展览馆中,有一个寻找四

11-19 120阅读
饥荒蜘蛛网超详细获取方法分享

饥荒蜘蛛网超详细获取方法

蜘蛛网是饥荒游戏里面的一个常用材料,有

11-19 133阅读
饥荒超详细驯服牦牛技巧分享

饥荒超详细驯服牦牛技巧分

在饥荒游戏里面玩家可以驯服牦牛,而且根

11-19 117阅读