陶哲轩点评OpenAI新模型:IMO金牌背后,GPT-5真能"思考"吗?

2周前 科技 3观看
摘要 陶哲轩点评OpenAI新模型:IMO金牌背后,GPT-5真能"思考"吗?近日,OpenAI宣布其最新实验性AI模型在2025年国际数学奥林匹克竞赛(IMO)中获得金牌水平的消息引发学界震动。这一突破性进展不仅标志着AI在高端数学领域的重大

陶哲轩点评OpenAI新模型:IMO金牌背后,GPT-5真能"思考"吗?1rG喜好网-记录每日喜好的科技时尚娱乐生活

近日,OpenAI宣布其最新实验性AI模型在2025年国际数学奥林匹克竞赛(IMO)中获得金牌水平的消息引发学界震动。这一突破性进展不仅标志着AI在高端数学领域的重大进步,更因其涉及即将发布的GPT-5而备受关注。然而,数学界泰斗陶哲轩的审慎评论,为这场技术狂欢注入了必要的理性思考。1rG喜好网-记录每日喜好的科技时尚娱乐生活

技术突破的里程碑意义1rG喜好网-记录每日喜好的科技时尚娱乐生活

根据OpenAI披露的数据,该模型在严格模拟人类竞赛环境的条件下,6道题目中成功解答5道,获得35分(满分42分),超过今年IMO金牌分数线。特别值得注意的是,解题过程完全遵循人类参赛规则:4.5小时限时、禁止使用辅助工具、仅通过自然语言书写证明。三位前IMO奖牌得主组成的评审团采用盲审方式确认了这一成绩。1rG喜好网-记录每日喜好的科技时尚娱乐生活

这一成就的技术价值体现在三个维度:首先,突破了传统AI在长时间推理任务上的瓶颈,从GSM8K(0.1分钟级)到IMO(100分钟级)实现了数量级的跨越;其次,首次在不依赖明确验证机制的情况下完成多页数学证明;最后,其通用强化学习框架避免了针对特定任务的算法优化,展现出更广泛的适应性。1rG喜好网-记录每日喜好的科技时尚娱乐生活

陶哲轩的理性拷问1rG喜好网-记录每日喜好的科技时尚娱乐生活

在一片赞誉声中,菲尔兹奖得主陶哲轩发表的万字长评提出了关键性质疑。他通过七个具体假设场景,犀利指出当前AI竞赛评价体系存在的潜在漏洞:1rG喜好网-记录每日喜好的科技时尚娱乐生活

1. 资源不对称问题:是否通过增加计算时长或并行计算获得优势?1rG喜好网-记录每日喜好的科技时尚娱乐生活

2. 题目预处理可能:是否对原始题目进行了适应性改写?1rG喜好网-记录每日喜好的科技时尚娱乐生活

3. 辅助工具边界:是否隐式使用了形式化验证工具?1rG喜好网-记录每日喜好的科技时尚娱乐生活

4. 团队协作效应:多个模型实例是否进行了协同推理?1rG喜好网-记录每日喜好的科技时尚娱乐生活

5. 选择性提交机制:是否只展示成功案例而隐藏失败尝试?1rG喜好网-记录每日喜好的科技时尚娱乐生活

陶哲轩特别强调,在缺乏预先公开方法论和第三方验证的情况下,任何自我宣称的AI竞赛成绩都需保持谨慎态度。这种质疑并非否定技术进步,而是呼吁建立更透明的评估标准。1rG喜好网-记录每日喜好的科技时尚娱乐生活

产业竞速与学术验证的张力1rG喜好网-记录每日喜好的科技时尚娱乐生活

事件中的两个细节耐人寻味:DeepMind研究员疑似删除的祝贺推文,以及MathArena平台独立测试显示现有模型(如Gemini 2.5 Pro)仅获13分的巨大落差。这种矛盾凸显了商业研发与学术验证之间的鸿沟。1rG喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI研究员Alexander Wei透露,该突破源于"测试时计算扩展"新技术,但具体方法论尚未公开。而第三方代码库中出现的"GPT-5-reasoning-alpha-2025-07-13"字样,结合OpenAI向第三方机构进行安全测试的惯例,暗示GPT-5可能已进入最后测试阶段。1rG喜好网-记录每日喜好的科技时尚娱乐生活

思考的本质与AI的边界1rG喜好网-记录每日喜好的科技时尚娱乐生活

本次争议的核心,实则是关于"数学思考"本质的哲学讨论。IMO金牌成绩是否证明AI具备了类人思考能力?陶哲轩的比喻发人深省:当领队(研发者)可以调整时间流速、改写题目、提供提示时,这种"思考"与人类选手的独立思维存在本质差异。1rG喜好网-记录每日喜好的科技时尚娱乐生活

技术乐观派认为,结果本身即是突破,方法论优化属于合理范畴;而谨慎派则坚持,脱离过程评价的成果可能误导对AI真实能力的认知。这种分歧恰恰反映了当前AI发展面临的认知论困境:我们究竟是在创造工具,还是在孕育新型智能?1rG喜好网-记录每日喜好的科技时尚娱乐生活

结语1rG喜好网-记录每日喜好的科技时尚娱乐生活

站在技术变革的临界点,OpenAI的IMO金牌既是令人振奋的里程碑,也是引发深度思考的契机。正如陶哲轩所言:"关键不在于AI能否解决特定问题,而在于它如何解决。"随着GPT-5面纱即将揭开,业界期待更透明的评估框架出现,让AI能力的讨论回归科学本质,而非停留于营销叙事。在人类探索智能边界的征程上,保持热情与理性并重,或许才是面对技术奇点的正确姿态。1rG喜好网-记录每日喜好的科技时尚娱乐生活

1rG喜好网-记录每日喜好的科技时尚娱乐生活

1rG喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
看懂小米2024年Q3财报:史上强 手握现金1516亿元

看懂小米2024年Q3财报:史上强 手

11月18日

11-19 108阅读
天玑9400性能之神!iQOO Neo10系列前瞻

天玑9400性能之神!iQOO Neo10系列

今天,iQOO

11-19 98阅读
1元水,巨头们的游戏

1元水,巨头们的游戏

今年

11-19 119阅读
打工人,靠新中式按摩“续命”

打工人,靠新中式按摩“续命”

26岁

11-19 104阅读
大模型公司们创业未半,技术主心骨们却先弃船回大厂了?

大模型公司们创业未半,技术主心骨

图片来源:由无界AI生成2024年下半

11-19 112阅读
太太太灵了吧,这是什么「好东西」

太太太灵了吧,这是什么「好

作者 / 西贝偏北运营 / 狮子座还记得

11-19 97阅读
这次,李庚希“底裤被扒光”,孙红雷的话,终于有人信了

这次,李庚希“底裤被扒光”

11-19 98阅读
卖熏鸡卖青团,付费才能抢鲜看,芒果TV靠麦琳挣了多少钱?

卖熏鸡卖青团,付费才能抢鲜

11-19 104阅读
柯震东吸毒后复出, 出演台湾剧《乩身》网友抵制!

柯震东吸毒后复出, 出演台

柯震东当年凭借着《那些年,我们一

11-19 86阅读
TXT迷你七辑《The Star Chapter: SANCTUARY》进入专辑主榜"Billboard 200"(11月23日次)第2位

TXT迷你七辑《The Star Ch

17日,据美国Billboard榜单

11-19 114阅读
《严阵以待》DLC“深水”Steam页面开放 发售日待定

《严阵以待》DLC“深水”S

今日(11月16日),《严阵以待》DLC「Dark W

11-19 118阅读
文明6秘籍大全_文明6秘籍代码及使用方法一览

文明6秘籍大全_文明6秘籍

文明6游戏支持秘籍功能,玩家可以通过在

11-19 125阅读
原子之心前期速刷神经聚合物的方法分享

原子之心前期速刷神经聚合

神经聚合物是原子之心游戏中用来解锁技

11-19 100阅读
原神缄默的求知者任务攻略|缄默的求知者具体流程

原神缄默的求知者任务攻略

缄默的求知者是原神须弥地区的魔神主线

11-19 114阅读
饥荒辣椒酱制作方法及制作材料分享

饥荒辣椒酱制作方法及制作

辣椒酱是饥荒游戏里面的一个特殊食物,不

11-19 123阅读