OpenAI违反禁令提前公布数学奥赛金牌成绩

2周前 科技 6观看
摘要 上周六,OpenAI研究员Alexander Wei宣布该公司正在研发的一个新型AI语言模型在国际数学奥林匹克竞赛(IMO)中达到了金牌水平的表现,这一标准每年只有不到9%的人类参赛者能够达到。尽管IMO组织方

上周六,OpenAI研究员Alexander Wei宣布该公司正在研发的一个新型AI语言模型在国际数学奥林匹克竞赛(IMO)中达到了金牌水平的表现,这一标准每年只有不到9%的人类参赛者能够达到。尽管IMO组织方要求AI公司等到7月28日再公布结果,OpenAI仍提前发布了这一消息。64R喜好网-记录每日喜好的科技时尚娱乐生活

据报道,这个实验性模型在与人类竞赛者相同的限制条件下解决了竞赛的六个证明题:每场4.5小时,不允许使用互联网或计算器。然而,多个知情人士表示,由于OpenAI自行评分其IMO结果,该公司声明的合法性可能存在疑问。OpenAI计划公布证明过程和评分标准供公众审查。64R喜好网-记录每日喜好的科技时尚娱乐生活

据OpenAI称,其成就标志着与以往AI数学奥赛尝试的不同,以往方法依赖专门的定理证明系统,往往超出人类时间限制。OpenAI表示其模型将问题作为纯文本处理,生成自然语言证明,像标准大语言模型一样运行,而非专门构建的数学系统。64R喜好网-记录每日喜好的科技时尚娱乐生活

此前谷歌在2024年7月声称其AlphaProof和AlphaGeometry 2模型在IMO中获得了银牌等级——尽管谷歌的系统每个问题需要长达三天时间,而非4.5小时的人类时间限制,并且需要人工协助将问题翻译成正式数学语言。64R喜好网-记录每日喜好的科技时尚娱乐生活

"数学是推理能力的试验场——结构化、严格且难以造假,"该公司在发给Ars Technica的声明中写道。"这表明可扩展的通用方法现在可以在长期被视为无法达到的任务中超越手工调优系统。"64R喜好网-记录每日喜好的科技时尚娱乐生活

虽然该公司确认其下一个主要AI模型GPT-5"即将推出",但澄清当前这个模型是实验性的。"这些技术将继续发展,但具有这种能力水平的产品在一段时间内不会发布,"OpenAI表示。OpenAI很可能为这个特定实验投入了大量计算资源(意味着高成本),这种计算水平在近期内不会成为面向消费者的AI模型的常态。64R喜好网-记录每日喜好的科技时尚娱乐生活

通用AI模型的惊人结果64R喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI表示,由Alex Wei领导、Sheryl Hsu和Noam Brown支持的实验性AI模型研究团队最初并未计划参加竞赛,但在测试中观察到有希望的结果后决定评估他们的工作。64R喜好网-记录每日喜好的科技时尚娱乐生活

"这不是为数学而构建的系统。这与我们为语言、编程和科学训练的大语言模型类型相同——在标准IMO约束下解决完整的基于证明的问题:4.5小时,无互联网,无计算器,"OpenAI在声明中说。64R喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI收到了由IMO组织者新编写并同时分享给几家AI公司的问题。为验证结果,据报告每个解决方案都经过了由OpenAI组织的三名前IMO奖牌获得者组成的盲评小组评分,需要一致同意才能接受。64R喜好网-记录每日喜好的科技时尚娱乐生活

然而,除了自行评分结果的争议外,OpenAI还因其周六的公告似乎违反了与国际数学奥林匹克的禁令协议而惹恼了IMO社区。另一家参与竞赛的AI公司Harmonic在7月20日的X帖子中透露,"IMO委员会要求我们和其他参与的领先AI公司推迟发布结果直到7月28日。"64R喜好网-记录每日喜好的科技时尚娱乐生活

提前公告促使已为约定日期准备IMO结果的谷歌DeepMind将自己的IMO相关公告提前到今天晚些时候。Harmonic计划按原定计划在7月28日分享其结果。64R喜好网-记录每日喜好的科技时尚娱乐生活

针对争议,OpenAI研究科学家Noam Brown在X上发帖:"我们没有与IMO联系。我在发帖前与一位组织者交谈让他知道。他要求我们等到闭幕式结束后再发布以尊重孩子们,我们照做了。"64R喜好网-记录每日喜好的科技时尚娱乐生活

然而,一名IMO协调员告诉X用户Mikhail Samin,OpenAI实际上在闭幕式之前就宣布了,与Brown的说法矛盾。该协调员称OpenAI的行为"粗鲁且不当",指出OpenAI"不是与IMO合作测试其模型的AI公司之一"。64R喜好网-记录每日喜好的科技时尚娱乐生活

始于1959年的数学难题64R喜好网-记录每日喜好的科技时尚娱乐生活

自1959年开始举办的国际数学奥林匹克代表了数学推理最具挑战性的测试之一。超过100个国家各派出六名参赛者,参赛者在两个4.5小时的环节中面对六个基于证明的问题。这些问题通常需要深刻的数学洞察力和创造力,而非原始计算能力。你可以在网上看到2025年奥赛的确切问题。64R喜好网-记录每日喜好的科技时尚娱乐生活

例如,第一题要求学生想象一个三角形点阵网格(如三角形钉板),并找出如何使用恰好n条直线覆盖所有点。关键是一些线被称为"阳光线"——这些线不是水平、垂直或45°角对角线。挑战是证明无论你的三角形多大,你只能创建恰好有0、1或3条阳光线的图案——永远不是2条,不是4条,不是任何其他数字。64R喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI结果的时机让一些预测市场感到惊讶,这些市场给任何AI系统在2025年前赢得IMO金牌的概率约为18%。然而,根据谷歌今天下午的发言(以及Harmonic等其他公司可能在7月28日发布的内容),OpenAI可能不是唯一取得这些意外结果的AI公司。64R喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
当代年轻人,仍然想要“接盘”房地产

当代年轻人,仍然想要“接盘”房地

10月份,住建部数据显示,本月商品房

11-19 114阅读
小米手机下次相机版本更新增加水印颜色选项,老机型也会版本迭代

小米手机下次相机版本更新增加水

11 月

11-19 107阅读
外媒:英伟达新款Blackwell AI芯片面临过热问题,或致数据中心部署延期

外媒:英伟达新款Blackwell AI芯片

11月1

11-19 97阅读
天玑9400性能之神!iQOO Neo10系列前瞻

天玑9400性能之神!iQOO Neo10系列

今天,iQOO

11-19 98阅读
年入上百亿,海尔旗下独角兽终止IPO

年入上百亿,海尔旗下独角兽终止IP

今年

11-19 107阅读
赵昭仪的男朋友是谁? 揭秘二人关系不简单!

赵昭仪的男朋友是谁? 揭秘

甜甜的恋爱剧成了影视圈之中的主

11-19 113阅读
徐璐发文疑似分, 原来是误会一场!

徐璐发文疑似分, 原来是误

徐璐和张铭恩的恋情自从搬上节目

11-19 98阅读
曝何炅KTV陪大姐喝酒视频,被搂肩一脸不悦,知情者曝真相

曝何炅KTV陪大姐喝酒视频,

11月18日,主持人何炅成为备受热议的对

11-19 98阅读
零容忍!税务部门公布3起网络主播偷税被处罚案件

零容忍!税务部门公布3起网

11月15日消息,近

11-19 103阅读
《最后生还者》新季明年春首播

《最后生还者》新季明年春

HBO及HBO Max首

11-19 102阅读
《人中之龙8外传 夏威夷海盗》介绍 “海盗”战斗风格及海盗主题游戏要素

《人中之龙8外传 夏威夷海

在“人中之龙”系列最新作《人中之龙8外

11-19 119阅读
经典游戏重制合集《FATE: Reawakened》将登陆主机

经典游戏重制合集《FATE:

游戏发行商gamigo、WildTangent以及开

11-19 114阅读
《星刃》开发商否认《胜利女神》将改编动画的传言

《星刃》开发商否认《胜利

《星刃》对于开发商Shift Up而言是一

11-19 116阅读
奥特曼格斗进化0怎么放大招?奥特曼格斗进化0攻略

奥特曼格斗进化0怎么放大

《奥特曼格斗进化0》游戏中可以操控各

11-19 145阅读
原子之心3826设施啁啾表全收集攻略

原子之心3826设施啁啾表全

啁啾表是原子之心游戏里面的一个特殊收

11-19 106阅读