2024年AGI终章:OpenAI宣布o3模型,推理能力再次跃进 (Day 12/12)

4个月前 科技 28观看
摘要 年末12连发来到了最后一天。就在发布会前一晚,Sam还在X上玩起了梗:此前曾经被人们说期待的GPT-5 (或4.5) 最终没有面世。在Day 12发布会上,Sam Altman和Mark Chen领衔,发布了o系列最新模型:(跳过了
年末12连发来到了最后一天。就在发布会前一晚,Sam还在X上玩起了梗:
2024年AGI终章:OpenAI宣布o3模型,推理能力再次跃进 (Day 12/12)
此前曾经被人们说期待的GPT-5 (或4.5) 最终没有面世。
在Day 12发布会上,Sam Altman和Mark Chen领衔,发布了o系列最新模型:(跳过了o2)o3
既然是o系列模型,我们简单回顾下发布o1时候的定义:
We are introducing OpenAI o1, a new large language model trained with reinforcement learning to perform complex reasoning. o1 thinks before it answers—it can produce a long internal chain of thought before responding to the user.
可以看到o系列模型的重点词包含了:RL、think、CoT,也就是我们俗称的“推理端大模型”。
本次o3的核心亮点
1、代码能力上取得跃升。
o3在Codeforces上大幅超越此前o1取得的成绩,直逼最高阶人类选手的水平。Mark提到自己的分数也只有2500左右,还承认o3超过了首席科学家Jakub的分数,而目前OpenAI公司内的最高水平只有3000。    
2024年AGI终章:OpenAI宣布o3模型,推理能力再次跃进 (Day 12/12)
2、数学能力同样亮眼。在数学竞赛方面,o3在AIME上的准确率约为96.7%,而o1的表现为83.3%。在GPQA Diamond这个衡量模型在博士级别的科学问题上的表现方面同样惊艳。
2024年AGI终章:OpenAI宣布o3模型,推理能力再次跃进 (Day 12/12)
另外,还有一个值得一提的EpochAI的Frontier Math基准测试 - 这是目前公认的最难的数学基准测试,是一个由新颖、未发表以及非常难的问题组成的数据集。这些问题极其困难,即使是专业数学家也需要花费数小时甚至数天才能解决其中一个问题。
所有现有的模型在这个基准测试上的准确率都低于2%(此前SOTA)。o3能够超过25%!
2024年AGI终章:OpenAI宣布o3模型,推理能力再次跃进 (Day 12/12)
3、ARC AGI
ARC-AGI是由Keras深度学习库的创建者Francois Chollet于2019年推出的基准测试:旨在通过解决新颖任务来评估AI系统的泛化能力和新技能获取能力,而无需事先训练,重点关注核心推理能力,而非特定领域的知识
o3模型取得了87.5%,更重要的是超过了人类平均线的85%。这标志着o3模型在推理能力的突破,特别是在不依赖记忆模式的情况下解决新问题的能力。
一定程度上,这也标志了通往AGI过程中的一个重要里程碑。
2024年AGI终章:OpenAI宣布o3模型,推理能力再次跃进 (Day 12/12)
o3-mini
除了o3,Day 12同时发布了o3系列的新成员o3-mini:与o1-mini一样,o3-mini具有高性价比。
o3-mini具有三档的思考级别 - 低/中/高等推理强度,用户可以根据任务调整推理思考时间。
举例来说,在Codeforces测试中,o3-mini的分数会随着思考时间增加而增加。如下可见,在中等思考强度下,o3-mini已经可以超过o1的分数。
2024年AGI终章:OpenAI宣布o3模型,推理能力再次跃进 (Day 12/12)
而在成本和速度方面,o3-mini取得了较o1-mini更好的性能:
2024年AGI终章:OpenAI宣布o3模型,推理能力再次跃进 (Day 12/12)
Deliberate Alignment / 深度对齐
随着今天o系列模型的发布,OpenAI还同时发布了一篇paper:
2024年AGI终章:OpenAI宣布o3模型,推理能力再次跃进 (Day 12/12)
这篇论文是关于Deliberate Alignment(暂时翻译为深度对齐),该方法超越了传统的人类反馈强化学习RLHF,在 AI 决策过程中嵌入了更深层次的自我反思机制。通过培养这种内部深思熟虑的思考模式,AI 模型能够更好地理解其行为的影响,从而表现出更值得信赖和符合伦理的行为。应该说是在AI安全方面的一个重要尝试。
根据下图 - 越狱性能图表所示:采用深度对齐技术的模型(如 o1-preview 和 o1-mini)比早期模型(如 GPT-4o)更能抵御越狱攻击。
2024年AGI终章:OpenAI宣布o3模型,推理能力再次跃进 (Day 12/12)
后记
从今天的年终压轴发布来看,OpenAI以及整个前沿AI学术及产业界都在经历着重大方向改变:在年末这几个月中,关于GPT-5失败、Scaling Law Slowdown、AGI发展方向上产生了很大争论,Ilya在不久前NeurIPS大会上演讲表达了预训练终结的观点:
2024年AGI终章:OpenAI宣布o3模型,推理能力再次跃进 (Day 12/12)
OpenAI这边,从传统的GPT系列转向了o系列推理模型,或许正是在预训练对模型提升效果见顶的环境下,希望通过整合推理能力,来实现模型智利水平的下一个突破口。除了OpenAI之外,类似的趋势也在Google的布局中,例如最最近发布的Gemini 2.0 Flash Thinking。
自从o1推理模型发布开始,种种迹象表明,推理能力正在成为业内发展的新的聚焦点。
我们很久之前就聊到过:语言模型的本质是一个“压缩器”,而预训练的训练范式相当于“知识的压缩过程”。如果把预训练时代看作知识的话,那么当下更加聚焦的推理端Scaling Law就可以看作是思考过程,可以类比成“学习并思索”的过程。如果将过去的预训练Scaling Law称为“大力出奇迹”,那么当下的智力推进过程或许应该称为“大力学而思出奇迹”。
2024年AGI路线在摇摇欲坠中,寻找到了新的梯子向上爬。期待下一年的进程吧。

 5d9喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
北上广深一线城市爱买啥车 北京喜欢比亚迪、上海广州更爱特斯拉

北上广深一线城市爱买啥车 北京

11月19日

11-19 67阅读
特斯拉与上汽讨论两轮FSD授权?官方回应

特斯拉与上汽讨论两轮FSD授权?官

11月1

11-19 63阅读
华为Mate 70已经到店:数量有限 抢到赚到

华为Mate 70已经到店:数量有限 抢

11月19日

11-19 68阅读
‌TCL华星宣布印刷OLED量产及APEX技术品牌‌

‌TCL华星宣布印刷OLED量产及APE

11-19 59阅读
一单只挣几块钱,年轻人追捧的代炒是门好生意吗?

一单只挣几块钱,年轻人追捧的代炒

杭州

11-19 68阅读
消失三年的李子柒,要跟全网“唱反调”!

消失三年的李子柒,要跟全网

11-19 70阅读
6年前,主持实习生弦子,为何诬告朱军性骚扰?如今她又怎样了?

6年前,主持实习生弦子,为何

11-19 66阅读
李诞真名叫什么? 误打误撞踏入演艺圈!

李诞真名叫什么? 误打误撞

《吐槽大会》第四季第一集播出之

11-19 70阅读
《芝麻胡同》郭秉惠人设崩了?她竟嫌弃起杏儿的出身

《芝麻胡同》郭秉惠人设崩

《芝麻胡同》中郭秉惠前期是一个

11-19 63阅读
长江文化艺术季闭幕式圆满落幕 平安携手金莎合唱《何以家国》

长江文化艺术季闭幕式圆满

  4日晚,长江文化艺术季闭幕式在宜昌

11-19 67阅读
与柴犬开启治愈探险之旅!异世界动作冒险新游《妖怪之国》登陆Steam

与柴犬开启治愈探险之旅!异

在这个繁忙喧嚣的现代社会,我们时常渴

11-19 74阅读
咸鱼之王爬塔最强阵容2024,咸鱼之王最强阵容推荐

咸鱼之王爬塔最强阵容2024

咸鱼之王爬塔最强阵容相信在玩咸鱼之王

11-19 73阅读
原子之心医院区域密码房解谜攻略

原子之心医院区域密码房解

原子之心的医院区域里面有一个密码房,需

11-19 73阅读
原神尽在咫尺的目标任务怎么做|尽在咫尺的目标任务攻略

原神尽在咫尺的目标任务怎

尽在咫尺的目标是原神须弥地区魔神主线

11-19 65阅读
原神大走廊的尽头隐藏成就|大走廊的尽头任务攻略

原神大走廊的尽头隐藏成就

大走廊的尽头是原神须弥沙漠地区的隐藏

11-19 71阅读