谷歌联合研究：合成数据让大模型数学推理能力飙升八倍-喜好网-记录每日喜好的科技时尚娱乐生活

谷歌联合研究：合成数据让大模型数学推理能力飙升八倍

4个月前科技 19观看

摘要近期，由谷歌、卡内基梅隆大学和MultiOn组成的联合研究团队，发布了一项关于合成数据在大型模型训练中应用的重要研究成果。专注于人工智能发展的研究机构Epoch AI报告指出，当前全球约有300万亿个公开可用的高

近期，由谷歌、卡内基梅隆大学和MultiOn组成的联合研究团队，发布了一项关于合成数据在大型模型训练中应用的重要研究成果。

专注于人工智能发展的研究机构Epoch AI报告指出，当前全球约有300万亿个公开可用的高质量文本训练标记。但随着像ChatGPT这类大模型的快速发展，对训练数据的需求呈指数级增长，预计在2026年之前，这些现有数据将被耗尽。在此背景下，合成数据成为了关键的替代方案。

研究人员着重探索了两种合成数据类型，即正向数据和负向数据。正向数据是由高性能大模型，如GPT - 4和Gemini 1.5 Pro生成的正确问题解决方案，为模型提供解决数学问题的范例。然而，单纯依靠正向数据进行训练存在明显局限。其一，这种方式可能无法让模型真正理解问题解决背后的逻辑，只是通过模式匹配来学习；其二，随着训练数据量的增加，模型可能会学到虚假的相关性，导致在处理新问题时泛化能力降低。

有鉴于此，研究人员引入了负向数据，也就是经过验证为错误的问题解决步骤。这能帮助模型识别并避免错误，从而增强其逻辑推理能力。尽管使用负向数据存在挑战，因为错误步骤可能包含误导性信息，但研究人员借助直接偏好优化（DPO）方法，成功让模型从错误中学习，并强调每个问题解决步骤的重要性。

DPO方法会为每个问题解决步骤分配一个优势值，以反映其相对于理想解决方案的价值。研究发现，高优势步骤是正确解决问题的关键，而低优势步骤可能意味着模型推理存在问题。基于这些优势值，模型能够在强化学习框架内动态调整策略，更高效地从合成数据中学习和改进。

为验证合成数据的有效性，研究团队选用DeepSeek - Math - 7B和LLaMa2 - 7B等模型，在GSM8K和MATH数据集上开展了全面测试。结果令人惊喜，经过正向和负向合成数据预训练的大模型，在数学推理任务上的性能提升了八倍。这一研究充分彰显了合成数据在增强大模型逻辑推理能力方面的巨大潜力，为大模型的发展开辟了新的方向。（Suky）