陶哲轩点评OpenAI新模型：IMO金牌背后，GPT-5真能&quot;思考&quot;吗？-喜好网-记录每日喜好的科技时尚娱乐生活

陶哲轩点评OpenAI新模型：IMO金牌背后，GPT-5真能"思考"吗？

2周前科技 3观看

摘要陶哲轩点评OpenAI新模型：IMO金牌背后，GPT-5真能"思考"吗？近日，OpenAI宣布其最新实验性AI模型在2025年国际数学奥林匹克竞赛（IMO）中获得金牌水平的消息引发学界震动。这一突破性进展不仅标志着AI在高端数学领域的重大

陶哲轩点评OpenAI新模型：IMO金牌背后，GPT-5真能"思考"吗？

近日，OpenAI宣布其最新实验性AI模型在2025年国际数学奥林匹克竞赛（IMO）中获得金牌水平的消息引发学界震动。这一突破性进展不仅标志着AI在高端数学领域的重大进步，更因其涉及即将发布的GPT-5而备受关注。然而，数学界泰斗陶哲轩的审慎评论，为这场技术狂欢注入了必要的理性思考。

技术突破的里程碑意义

根据OpenAI披露的数据，该模型在严格模拟人类竞赛环境的条件下，6道题目中成功解答5道，获得35分（满分42分），超过今年IMO金牌分数线。特别值得注意的是，解题过程完全遵循人类参赛规则：4.5小时限时、禁止使用辅助工具、仅通过自然语言书写证明。三位前IMO奖牌得主组成的评审团采用盲审方式确认了这一成绩。

这一成就的技术价值体现在三个维度：首先，突破了传统AI在长时间推理任务上的瓶颈，从GSM8K（0.1分钟级）到IMO（100分钟级）实现了数量级的跨越；其次，首次在不依赖明确验证机制的情况下完成多页数学证明；最后，其通用强化学习框架避免了针对特定任务的算法优化，展现出更广泛的适应性。

陶哲轩的理性拷问

在一片赞誉声中，菲尔兹奖得主陶哲轩发表的万字长评提出了关键性质疑。他通过七个具体假设场景，犀利指出当前AI竞赛评价体系存在的潜在漏洞：

1. 资源不对称问题：是否通过增加计算时长或并行计算获得优势？

2. 题目预处理可能：是否对原始题目进行了适应性改写？

3. 辅助工具边界：是否隐式使用了形式化验证工具？

4. 团队协作效应：多个模型实例是否进行了协同推理？

5. 选择性提交机制：是否只展示成功案例而隐藏失败尝试？

陶哲轩特别强调，在缺乏预先公开方法论和第三方验证的情况下，任何自我宣称的AI竞赛成绩都需保持谨慎态度。这种质疑并非否定技术进步，而是呼吁建立更透明的评估标准。

产业竞速与学术验证的张力

事件中的两个细节耐人寻味：DeepMind研究员疑似删除的祝贺推文，以及MathArena平台独立测试显示现有模型（如Gemini 2.5 Pro）仅获13分的巨大落差。这种矛盾凸显了商业研发与学术验证之间的鸿沟。

OpenAI研究员Alexander Wei透露，该突破源于"测试时计算扩展"新技术，但具体方法论尚未公开。而第三方代码库中出现的"GPT-5-reasoning-alpha-2025-07-13"字样，结合OpenAI向第三方机构进行安全测试的惯例，暗示GPT-5可能已进入最后测试阶段。

思考的本质与AI的边界

本次争议的核心，实则是关于"数学思考"本质的哲学讨论。IMO金牌成绩是否证明AI具备了类人思考能力？陶哲轩的比喻发人深省：当领队（研发者）可以调整时间流速、改写题目、提供提示时，这种"思考"与人类选手的独立思维存在本质差异。

技术乐观派认为，结果本身即是突破，方法论优化属于合理范畴；而谨慎派则坚持，脱离过程评价的成果可能误导对AI真实能力的认知。这种分歧恰恰反映了当前AI发展面临的认知论困境：我们究竟是在创造工具，还是在孕育新型智能？

结语

站在技术变革的临界点，OpenAI的IMO金牌既是令人振奋的里程碑，也是引发深度思考的契机。正如陶哲轩所言："关键不在于AI能否解决特定问题，而在于它如何解决。"随着GPT-5面纱即将揭开，业界期待更透明的评估框架出现，让AI能力的讨论回归科学本质，而非停留于营销叙事。在人类探索智能边界的征程上，保持热情与理性并重，或许才是面对技术奇点的正确姿态。