重大突破！微软发布“自我进化”，帮小模型超OpenAI-o1-喜好网-记录每日喜好的科技时尚娱乐生活

重大突破！微软发布“自我进化”，帮小模型超OpenAI-o1

7个月前科技 37观看

摘要图片来源：由无界AI生成微软亚洲研究院发布了一种创新算法——rStar-Math。rStar-Math通过代码增强CoT、蒙特卡洛树搜索等，可以帮助小参数模型在不依赖老师模型蒸馏的情况下，实现多轮自我思维深度进化，极大增强模型的数学

图片来源：由无界AI生成

微软亚洲研究院发布了一种创新算法——rStar-Math。

rStar-Math通过代码增强CoT、蒙特卡洛树搜索等，可以帮助小参数模型在不依赖老师模型蒸馏的情况下，实现多轮自我思维深度进化，极大增强模型的数学推理能力。

在美国数学竞赛AIME 2024测试中，rStar-Math平均解决了53.3%（8/15）的难题，超过了OpenAI o1-preview的44.6%，以及所有其他开源的大模型，成为最聪明的前20%高中数学生。

在MATH基准测试中，rStar-Math将阿里开源的小模型Qwen2.5-Math-7B的准确率从58.8%提高到90.0%，Qwen2.5-Math-1.5B的准确率从51.2%提高到87.8%，Phi3-mini-3.8B从41.4%提高到86.4%，全部超过了OpenAI o1-preview。

这充分说明，小模型在创新算法和高质量数据加持下，推理能力同样可以超大参数的前沿模型。

代码增强CoT

传统的数学推理模型依赖于自然语言生成的推理步骤，这种方法虽然直观，但容易产生错误或不相关的步骤，尤其是在复杂的数学问题中很难被察觉到。所以，rStar-Math使用代码增强CoT（Chain-of-Thought，思维链）的方法来解决这个难题。

模型在生成每一步推理时，不仅生成自然语言的解释，还生成对应的Python代码，并通过代码执行来验证推理步骤的正确性。代码增强CoT能够提供严格的验证机制，确保每一步推理的正确性。

例如，在解决一个数学问题时，模型可能会生成一个方程求解的步骤，并通过Python代码实际执行该方程求解过程。如果代码执行成功且结果正确，该步骤才会被保留为有效推理步骤。这种方法不仅减少了错误推理步骤的生成，还提高了推理轨迹的整体质量。

为了进一步确保推理步骤的质量，rStar-Math 使用了蒙特卡洛树搜索（MCTS）来生成逐步推理轨迹。MCTS 被用来分解复杂的数学问题为多个单步生成任务。

每个步骤中，策略模型生成多个候选步骤，并通过代码执行来过滤有效节点。通过广泛的MCTS回滚，rStar-Math 能够为每个步骤分配Q值，确保生成的推理轨迹由正确且高质量的中间步骤组成。

PPM训练方法

目前，多数大模型在推理数学问题时面临着无法提供细粒度的步骤级反馈，以帮助其在推理过程中做出更优的选择。rStar-Math通过引入过程奖励模型（PRM）来帮助模型找到更优的推理路径。

PPM 的核心思想是通过构建步骤级的正负偏好对来训练模型，而不是直接依赖于精确的步骤级评分。PPM 的训练方法利用了MCTS生成的Q值，这些Q值是通过广泛的回滚和反向传播过程计算得出的，反映了每个步骤对最终答案的贡献。虽然这些Q值本身并不完全精确，但它们能够可靠地区分高质量步骤和低质量步骤。