OpenAI 发布迄今最大规模的 AI 模型 GPT-4.5 "Orion"

5个月前 科技 41观看
摘要 OpenAI 于周四宣布推出代号为 "Orion" 的 GPT-4.5 模型。GPT-4.5 是 OpenAI 迄今为止最大的模型,其训练所使用的计算能力和数据量超过了该公司之前所有的发布版本。尽管规模庞大,OpenAI 在白皮

OpenAI 于周四宣布推出代号为 "Orion" 的 GPT-4.5 模型。GPT-4.5 是 OpenAI 迄今为止最大的模型,其训练所使用的计算能力和数据量超过了该公司之前所有的发布版本。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

尽管规模庞大,OpenAI 在白皮书中指出,他们并不认为 GPT-4.5 是一个前沿模型。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

从周四开始,ChatGPT Pro (OpenAI 每月 200 美元的订阅计划) 用户将可以在研究预览版中访问 GPT-4.5。使用 OpenAI API 付费版的开发者也可以从今天开始使用 GPT-4.5。据 OpenAI 发言人向 TechCrunch 透露,其他 ChatGPT Plus 和 ChatGPT Team 用户将在下周获得该模型的使用权限。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

业界一直在屏息以待 Orion 的发布,一些人认为它是传统 AI 训练方法可行性的风向标。GPT-4.5 采用了与 GPT-4、GPT-3、GPT-2 和 GPT-1 相同的核心技术 — 在称为无监督学习的"预训练"阶段中大幅增加计算能力和数据量。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

在 GPT-4.5 之前的每一代 GPT 中,规模的扩大都带来了数学、写作和编程等领域性能的巨大提升。OpenAI 表示,GPT-4.5 的规模增长确实让它获得了"更深的世界知识"和"更高的情商"。然而,有迹象表明,通过扩大数据和计算规模获得的收益开始趋于平缓。在多个 AI 基准测试中,GPT-4.5 的表现不及中国 AI 公司 DeepSeek、Anthropic 和 OpenAI 自己的新型 AI "推理"模型。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 承认 GPT-4.5 的运营成本非常高,以至于公司正在评估是否要继续在其 API 中长期提供 GPT-4.5。开发者使用 GPT-4.5 的 API 需要支付每百万输入 token (约 75 万词) 75 美元,每百万输出 token 150 美元。相比之下,GPT-4o 每百万输入 token 仅需 2.50 美元,每百万输出 token 10 美元。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

"我们将 GPT-4.5 作为研究预览版发布,以更好地了解其优势和局限性,"OpenAI 在与 TechCrunch 分享的博文中表示。"我们仍在探索它的潜力,也期待看到人们以我们意想不到的方式使用它。"x2Q喜好网-记录每日喜好的科技时尚娱乐生活

混合表现x2Q喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 强调,GPT-4.5 并非旨在替代 GPT-4o (该公司为大多数 API 和 ChatGPT 提供支持的主力模型)。虽然 GPT-4.5 支持文件和图片上传以及 ChatGPT 的画布工具等功能,但目前缺乏对 ChatGPT 真实双向语音模式等功能的支持。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

从积极方面来看,GPT-4.5 的性能优于 GPT-4o 和许多其他模型。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

在测试 AI 模型直接事实性问题的 OpenAI SimpleQA 基准测试中,GPT-4.5 在准确性方面优于 GPT-4o 和 OpenAI 的推理模型 o1 和 o3-mini。根据 OpenAI 的说法,GPT-4.5 的幻觉现象比大多数模型都少,理论上这意味着它编造内容的可能性更低。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 没有在 SimpleQA 中列出其顶级 AI 推理模型之一 deep research。OpenAI 发言人向 TechCrunch 表示,他们尚未公开发布 deep research 在该基准测试上的表现,并称这不是一个相关的比较。值得注意的是,AI 创业公司 Perplexity 的 Deep Research 模型在其他基准测试中与 OpenAI 的 deep research 表现相似,但在这个事实准确性测试中优于 GPT-4.5。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

在 SWE-Bench Verified 基准测试的部分编程问题中,GPT-4.5 与 GPT-4o 和 o3-mini 的表现相当,但不及 OpenAI 的 deep research 和 Anthropic 的 Claude 3.7 Sonnet。在另一个测试 AI 模型开发完整软件功能能力的测试 OpenAI SWE-Lancer 基准测试中,GPT-4.5 优于 GPT-4o 和 o3-mini,但不及 deep research。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

在 AIME 和 GPQA 等困难的学术基准测试中,GPT-4.5 未能达到领先的 AI 推理模型 (如 o3-mini、DeepSeek 的 R1 和 Claude 3.7 Sonnet) 的水平。但 GPT-4.5 在这些测试中与领先的非推理模型相当或更优,表明该模型在数学和科学相关问题上表现出色。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 还声称,GPT-4.5 在基准测试难以衡量的领域 (如理解人类意图的能力) 上在质量上优于其他模型。OpenAI 表示,GPT-4.5 的回应更温和自然,在写作和设计等创意任务上表现出色。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

在一个非正式测试中,OpenAI 要求 GPT-4.5 和其他两个模型 (GPT-4o 和 o3-mini) 用 SVG (一种基于数学公式和代码显示图形的格式) 创建独角兽。只有 GPT-4.5 创建出了类似独角兽的图像。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

在另一个测试中,OpenAI 要求 GPT-4.5 和其他两个模型回应"我考试失败后正在经历一段艰难时期"这个提示。GPT-4o 和 o3-mini 提供了有用的信息,但 GPT-4.5 的回应在社交得体性方面最佳。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

"我们期待通过这次发布更全面地了解 GPT-4.5 的能力,"OpenAI 在博文中写道,"因为我们认识到学术基准测试并不总能反映现实世界的实用性。"x2Q喜好网-记录每日喜好的科技时尚娱乐生活

扩展法则受到挑战x2Q喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 声称 GPT-4.5 是"无监督学习所能达到的前沿"。这可能是事实,但该模型的局限性似乎也证实了专家们关于预训练"扩展法则"将不再持续的推测。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 联合创始人和前首席科学家 Ilya Sutskever 在 12 月表示,"我们已经达到了数据峰值","我们所知道的预训练无疑将结束"。他的评论呼应了 AI 投资者、创始人和研究人员在 11 月份向 TechCrunch 分享的担忧。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

为应对预训练障碍,包括 OpenAI 在内的整个行业已经开始采用推理模型,这些模型完成任务的时间比非推理模型更长,但表现更加稳定。通过增加 AI 推理模型用于"思考"问题的时间和计算能力,AI 实验室相信他们可以显著提高模型的能力。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 计划最终将其 GPT 系列模型与其 "o" 推理系列结合,从今年晚些时候的 GPT-5 开始。GPT-4.5 据报道训练成本极高,多次推迟,未能达到内部预期,可能无法独自获得 AI 基准测试的桂冠。但 OpenAI 可能将其视为通向更强大成果的垫脚石。x2Q喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
特斯拉与上汽讨论两轮FSD授权?官方回应

特斯拉与上汽讨论两轮FSD授权?官

11月1

11-19 96阅读
华为Mate 70已经到店:数量有限 抢到赚到

华为Mate 70已经到店:数量有限 抢

11月19日

11-19 134阅读
iPhone 17 Pro Max外观曝光:灵动岛变小

iPhone 17 Pro Max外观曝光:灵动

11月19日

11-19 103阅读
‌星途星纪元E08预告图发布:奇瑞进军豪华MPV市场首款车型‌

‌星途星纪元E08预告图发布:奇瑞

11-19 98阅读
千诀科技完成数千万元天使轮融资

千诀科技完成数千万元天使轮融资

近日,

11-19 115阅读
消失三年的李子柒,要跟全网“唱反调”!

消失三年的李子柒,要跟全网

11-19 112阅读
林青霞谢娜同框, 竟是为了张杰?

林青霞谢娜同框, 竟是为了

张杰的首部舞台剧《曾经如是》正

11-19 106阅读
小舍得原著结局是什么?南俪和夏君山的结局好不好?

小舍得原著结局是什么?南俪

《小舍得》是一根据鲁引弓的同名

11-19 102阅读
网络电影《浴血无名·奔袭》入选“五个一工程” 海空雄鹰文化传媒再创主旋律佳作

网络电影《浴血无名·奔袭

  11月18日,中共中央宣传部公布第十

11-19 100阅读
《白夜追凶》续集来了 白夜破晓全阵容官宣:潘粤明等原班人马

《白夜追凶》续集来了 白

11月16日消息,“

11-19 103阅读
木内ラムネ作品《月のお気に召すまま》在别册玛格丽特完結

木内ラムネ作品《月のお気

木内ラム

11-19 125阅读
重装机兵3大破坏密码大全_重装机兵3所有密码一览

重装机兵3大破坏密码大全_

大破坏密码是《重装机兵3》游戏里面用

11-19 398阅读
原子之心剧院死者位置_剧院全部死者所在位置分享

原子之心剧院死者位置_剧

原子之心的剧院区域中一共存在7个死者,

11-19 118阅读
原神疗养观察任务流程|原神疗养观察攻略

原神疗养观察任务流程|原

原神疗养观察是游戏中须弥地区魔神任务

11-19 104阅读
饥荒暖石制作方法详细介绍

饥荒暖石制作方法详细介绍

暖石是饥荒游戏里面的一个特殊道具,可以

11-19 186阅读