OpenAI 的 o3 AI 模型基准测试得分低于公司最初声称的水平

1周前 科技 1观看
摘要 OpenAI 的 o3 AI 模型在一次基准测试中的得分低于公司最初所宣称的水平OpenAI 与第三方对于 o3 模型的基准测试结果存在差异,这引发了外界对于公司在透明度及模型测试流程上的质疑。当 OpenAI

OpenAI 的 o3 AI 模型在一次基准测试中的得分低于公司最初所宣称的水平GIZ喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 与第三方对于 o3 模型的基准测试结果存在差异,这引发了外界对于公司在透明度及模型测试流程上的质疑。GIZ喜好网-记录每日喜好的科技时尚娱乐生活

当 OpenAI 在 12 月份推出 o3 模型时,公司宣称该模型在 FrontierMath(一套具有挑战性的数学题集)上能够正确回答略多于四分之一的问题。这个得分显著领先于竞争对手——下一个最佳模型仅能正确解答大约 2% 的 FrontierMath 题目。GIZ喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 首席研究官 Mark Chen 在一次直播中表示:“目前市面上所有产品在 FrontierMath 上的得分都低于 2%,而我们内部观察到,通过采用 o3 模型在激进的测试时计算设置下,我们能够达到超过 25% 的得分。”GIZ喜好网-记录每日喜好的科技时尚娱乐生活

然而,事实证明,这个数字很可能只是一个上界,是由一个使用更多计算资源的 o3 版本在测试中获得的,而这并非 OpenAI 上周公开发布的那一版本所具备的计算能力。GIZ喜好网-记录每日喜好的科技时尚娱乐生活

负责 FrontierMath 的研究机构 Epoch AI 于周五发布了对 o3 模型进行独立基准测试的结果。Epoch 的测试显示,o3 模型得分大约为 10%,远低于 OpenAI 声称的最高分数。GIZ喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 已经发布了备受期待的推理模型 o3,同时还推出了继 o3-mini 之后更小且成本更低的 o4-mini 模型。GIZ喜好网-记录每日喜好的科技时尚娱乐生活

Epoch 在 Twitter 上写道:“我们在数学和科学基准测试集合上对这些新模型进行了评估,结果已在线程中公布! pic.twitter.com/5gbtzkEy1B” (2025 年 4 月 18 日)。GIZ喜好网-记录每日喜好的科技时尚娱乐生活

这并不意味着 OpenAI 本质上是在撒谎。公司在 12 月发布的基准测试结果展示了一个下界得分,这个得分与 Epoch 观察到的分数相吻合。Epoch 还指出,其测试设置很可能与 OpenAI 的有所不同,而且其评估使用了更新版本的 FrontierMath。GIZ喜好网-记录每日喜好的科技时尚娱乐生活

Epoch 在报告中写道:“我们与 OpenAI 结果之间的差异,可能是因为 OpenAI 使用了一个更强大的内部测试框架,在测试时动用了更多的计算资源,或是因为这些结果是在 FrontierMath 的不同子集上运行得到的(frontiermath-2024-11-26 中的 180 道题与 frontiermath-2025-02-28-private 中的 290 道题相比)。”GIZ喜好网-记录每日喜好的科技时尚娱乐生活

根据 ARC Prize Foundation 在 X 上的一篇博文,该组织曾测试过预发布版的 o3 模型,并指出公开版 o3 “是一个经过调优以适用于聊天/产品场景的不同模型”,这一点与 Epoch 的报告相印证。GIZ喜好网-记录每日喜好的科技时尚娱乐生活

ARC Prize 在推文中写道:“所有公布的 o3 计算层级都比我们基准测试的版本要小。”一般来说,计算资源更充足的版本预期能获得更好的基准测试得分。GIZ喜好网-记录每日喜好的科技时尚娱乐生活

当然,公开发布的 o3 模型未能达到 OpenAI 测试时所宣称的成绩,这一点实际上无关紧要,因为 OpenAI 的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上的表现均优于 o3,并且 OpenAI 计划在未来几周推出性能更强的 o3 变种——o3-pro。GIZ喜好网-记录每日喜好的科技时尚娱乐生活

不过,这再次提醒我们在解读 AI 基准测试时不应只停留在表面,尤其当数据来源于一个手握商业服务的公司时。GIZ喜好网-记录每日喜好的科技时尚娱乐生活

随着厂商争相运用新模型争取头条新闻和市场关注,基准测试“争议”在 AI 行业中已日渐常见。GIZ喜好网-记录每日喜好的科技时尚娱乐生活

今年一月,Epoch 因在 OpenAI 宣布 o3 后才披露其获得的资金支持而受到批评;许多为 FrontierMath 贡献的学者直到公开报道后才得知 OpenAI 的参与。GIZ喜好网-记录每日喜好的科技时尚娱乐生活

最近,Elon Musk 的 xAI 被指控发布了误导性的基准测试图表,用以宣传其最新 AI 模型 Grok 3 的表现;而就在本月,Meta 承认曾宣传过某个模型版本的基准测试得分,而该版本与公司提供给开发者使用的版本不同。GIZ喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
日本导演神山健治执导 动画电影《指环王:洛汗之战》内地定档12月14日

日本导演神山健治执导 动画电影

11月19日

11-19 59阅读
宝马全新纯电动BMW i4上市,eDrive40售46.99万

宝马全新纯电动BMW i4上市,eDrive

11-19 61阅读
孙正义黄仁勋互曝往事:差点买下英伟达,错失两千亿美元

孙正义黄仁勋互曝往事:差点买下英

孙正

11-19 61阅读
年入数百亿的米哈游,也开始“省钱”了

年入数百亿的米哈游,也开始“省钱

米哈

11-19 61阅读
刚刚,OpenAI发布Windows版ChatGPT,高级语音能用了

刚刚,OpenAI发布Windows版ChatGPT

图片来源:由无界AI生成今天凌晨2

11-19 63阅读
金鸡奖这一夜,人情冷暖、江湖职位,在王骁身上体现得极尽描摹

金鸡奖这一夜,人情冷暖、江

11-19 64阅读
高燃励志电影《倒数回击》定档11月20日 甜妹热辣“爆改”逆袭浴火人生

高燃励志电影《倒数回击》

  由洪子烜导演,温贞菱、丁宁主演的

11-19 52阅读
释彦能:银幕硬汉,反派巅峰——正邪交锋,票房破亿传奇!

释彦能:银幕硬汉,反派巅峰—

  在当今动作电影的舞台上,释彦能以

11-19 60阅读
中国电影出海专业书刊《走向世界:华语电影的跨国流通与市场策略》正式发布

中国电影出海专业书刊《走

  在首届广州电影产业博览交易会上

11-19 55阅读
《大梦归离》迎来大结局,用热血群像展现悲凉内核探讨生命的意义

《大梦归离》迎来大结局,用

  由爱奇艺出品,最世文化、奥羽工作

11-19 62阅读
万代魂系高端钢普拉大展 解体匠机第三弹高达Mk-II再参展

万代魂系高端钢普拉大展

万代高端模玩魂系列展会《TAMASHII NA

11-19 63阅读
动作射击新作《Kusan: City Of Wolves》公布 2026年发售

动作射击新作《Kusan: Cit

韩国开发商CIRCLEfromDOT与英国发行商

11-19 59阅读
原子之心巴浦洛夫综合体区域死者位置分享

原子之心巴浦洛夫综合体区

原子之心游戏中的巴浦洛夫综合体区域里

11-19 64阅读
原子之心3826设施所有死者所在位置一览

原子之心3826设施所有死者

在原子之心游戏设定中,死者在生命体征消

11-19 61阅读
饥荒暖石制作方法详细介绍

饥荒暖石制作方法详细介绍

暖石是饥荒游戏里面的一个特殊道具,可以

11-19 128阅读