谷歌联合研究:合成数据让大模型数学推理能力飙升八倍

4周前 科技 3观看
摘要 近期,由谷歌、卡内基梅隆大学和MultiOn组成的联合研究团队,发布了一项关于合成数据在大型模型训练中应用的重要研究成果。专注于人工智能发展的研究机构Epoch AI报告指出,当前全球约有300万亿个公开可用的高

近期,由谷歌、卡内基梅隆大学和MultiOn组成的联合研究团队,发布了一项关于合成数据在大型模型训练中应用的重要研究成果。tX8喜好网-记录每日喜好的科技时尚娱乐生活

专注于人工智能发展的研究机构Epoch AI报告指出,当前全球约有300万亿个公开可用的高质量文本训练标记。但随着像ChatGPT这类大模型的快速发展,对训练数据的需求呈指数级增长,预计在2026年之前,这些现有数据将被耗尽。在此背景下,合成数据成为了关键的替代方案。tX8喜好网-记录每日喜好的科技时尚娱乐生活

研究人员着重探索了两种合成数据类型,即正向数据和负向数据。正向数据是由高性能大模型,如GPT - 4和Gemini 1.5 Pro生成的正确问题解决方案,为模型提供解决数学问题的范例。然而,单纯依靠正向数据进行训练存在明显局限。其一,这种方式可能无法让模型真正理解问题解决背后的逻辑,只是通过模式匹配来学习;其二,随着训练数据量的增加,模型可能会学到虚假的相关性,导致在处理新问题时泛化能力降低。tX8喜好网-记录每日喜好的科技时尚娱乐生活

有鉴于此,研究人员引入了负向数据,也就是经过验证为错误的问题解决步骤。这能帮助模型识别并避免错误,从而增强其逻辑推理能力。尽管使用负向数据存在挑战,因为错误步骤可能包含误导性信息,但研究人员借助直接偏好优化(DPO)方法,成功让模型从错误中学习,并强调每个问题解决步骤的重要性。tX8喜好网-记录每日喜好的科技时尚娱乐生活

DPO方法会为每个问题解决步骤分配一个优势值,以反映其相对于理想解决方案的价值。研究发现,高优势步骤是正确解决问题的关键,而低优势步骤可能意味着模型推理存在问题。基于这些优势值,模型能够在强化学习框架内动态调整策略,更高效地从合成数据中学习和改进。tX8喜好网-记录每日喜好的科技时尚娱乐生活

为验证合成数据的有效性,研究团队选用DeepSeek - Math - 7B和LLaMa2 - 7B等模型,在GSM8K和MATH数据集上开展了全面测试。结果令人惊喜,经过正向和负向合成数据预训练的大模型,在数学推理任务上的性能提升了八倍。这一研究充分彰显了合成数据在增强大模型逻辑推理能力方面的巨大潜力,为大模型的发展开辟了新的方向。(Suky)tX8喜好网-记录每日喜好的科技时尚娱乐生活

tX8喜好网-记录每日喜好的科技时尚娱乐生活

tX8喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
回归即顶流,时代变了,李子柒没变

回归即顶流,时代变了,李子柒没变

热搜第一、播放第一、讨论第一,李

11-19 64阅读
研究人员开发自动识别古代楔形文字片的AI软件

研究人员开发自动识别古代楔形文

11月2

11-19 66阅读
OPPO Reno13系列外观详解:蝴蝶紫配色惊艳 超美小OPhone

OPPO Reno13系列外观详解:蝴蝶紫

在结束了

11-19 68阅读
摸着Meta过河,百度再战AI眼镜

摸着Meta过河,百度再战AI眼镜

“Goo

11-19 62阅读
为什么说MEMS-OXC在智算场景没有未来?

为什么说MEMS-OXC在智算场景没有

智算中心是这一轮科技革命的算力

11-19 62阅读
这次,李庚希“底裤被扒光”,孙红雷的话,终于有人信了

这次,李庚希“底裤被扒光”

11-19 57阅读
9年前,那个娶了泰国“最尤物妖”的北京夫君,如今后悔了吗

9年前,那个娶了泰国“最尤

11-19 63阅读
写意锦官城(写意锦官城)

写意锦官城(写意锦官城)

写意锦官城 作者:解朝侠 一直

11-19 54阅读
情场失意事业受创,《幸福触手可及》周放变身女强人重振威风

情场失意事业受创,《幸福触

周放是一位有实力的年轻服装女设

11-19 63阅读
泫雅&龙俊亨婚后首次公开近况:日本甜蜜旅行中!捧爱心蛋糕紧贴合影

泫雅&龙俊亨婚后首次

歌手泫雅和龙俊亨结婚一个月

11-19 56阅读
大掌门2最强阵容_大掌门2最新最强阵容

大掌门2最强阵容_大掌门2

大掌门2是一款以武侠为背景的RPG动作手

11-19 62阅读
和平精英国际服怎么选择国家?和平精英国际服改国籍方法

和平精英国际服怎么选择国

《和平精英国际服》是蓝洞和腾讯联合出

11-19 116阅读
新斗罗大陆兑换码,2024新斗罗大陆礼包兑换码

新斗罗大陆兑换码,2024新

新斗罗大陆是一款十分好玩的手游,如果你

11-19 64阅读
奥特曼格斗进化0怎么放大招?奥特曼格斗进化0攻略

奥特曼格斗进化0怎么放大

《奥特曼格斗进化0》游戏中可以操控各

11-19 100阅读
饥荒蜘蛛网超详细获取方法分享

饥荒蜘蛛网超详细获取方法

蜘蛛网是饥荒游戏里面的一个常用材料,有

11-19 63阅读