OpenAI 发布迄今最大规模的 AI 模型 GPT-4.5 "Orion"

2个月前 科技 29观看
摘要 OpenAI 于周四宣布推出代号为 "Orion" 的 GPT-4.5 模型。GPT-4.5 是 OpenAI 迄今为止最大的模型,其训练所使用的计算能力和数据量超过了该公司之前所有的发布版本。尽管规模庞大,OpenAI 在白皮

OpenAI 于周四宣布推出代号为 "Orion" 的 GPT-4.5 模型。GPT-4.5 是 OpenAI 迄今为止最大的模型,其训练所使用的计算能力和数据量超过了该公司之前所有的发布版本。ySi喜好网-记录每日喜好的科技时尚娱乐生活

尽管规模庞大,OpenAI 在白皮书中指出,他们并不认为 GPT-4.5 是一个前沿模型。ySi喜好网-记录每日喜好的科技时尚娱乐生活

从周四开始,ChatGPT Pro (OpenAI 每月 200 美元的订阅计划) 用户将可以在研究预览版中访问 GPT-4.5。使用 OpenAI API 付费版的开发者也可以从今天开始使用 GPT-4.5。据 OpenAI 发言人向 TechCrunch 透露,其他 ChatGPT Plus 和 ChatGPT Team 用户将在下周获得该模型的使用权限。ySi喜好网-记录每日喜好的科技时尚娱乐生活

业界一直在屏息以待 Orion 的发布,一些人认为它是传统 AI 训练方法可行性的风向标。GPT-4.5 采用了与 GPT-4、GPT-3、GPT-2 和 GPT-1 相同的核心技术 — 在称为无监督学习的"预训练"阶段中大幅增加计算能力和数据量。ySi喜好网-记录每日喜好的科技时尚娱乐生活

在 GPT-4.5 之前的每一代 GPT 中,规模的扩大都带来了数学、写作和编程等领域性能的巨大提升。OpenAI 表示,GPT-4.5 的规模增长确实让它获得了"更深的世界知识"和"更高的情商"。然而,有迹象表明,通过扩大数据和计算规模获得的收益开始趋于平缓。在多个 AI 基准测试中,GPT-4.5 的表现不及中国 AI 公司 DeepSeek、Anthropic 和 OpenAI 自己的新型 AI "推理"模型。ySi喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 承认 GPT-4.5 的运营成本非常高,以至于公司正在评估是否要继续在其 API 中长期提供 GPT-4.5。开发者使用 GPT-4.5 的 API 需要支付每百万输入 token (约 75 万词) 75 美元,每百万输出 token 150 美元。相比之下,GPT-4o 每百万输入 token 仅需 2.50 美元,每百万输出 token 10 美元。ySi喜好网-记录每日喜好的科技时尚娱乐生活

"我们将 GPT-4.5 作为研究预览版发布,以更好地了解其优势和局限性,"OpenAI 在与 TechCrunch 分享的博文中表示。"我们仍在探索它的潜力,也期待看到人们以我们意想不到的方式使用它。"ySi喜好网-记录每日喜好的科技时尚娱乐生活

混合表现ySi喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 强调,GPT-4.5 并非旨在替代 GPT-4o (该公司为大多数 API 和 ChatGPT 提供支持的主力模型)。虽然 GPT-4.5 支持文件和图片上传以及 ChatGPT 的画布工具等功能,但目前缺乏对 ChatGPT 真实双向语音模式等功能的支持。ySi喜好网-记录每日喜好的科技时尚娱乐生活

从积极方面来看,GPT-4.5 的性能优于 GPT-4o 和许多其他模型。ySi喜好网-记录每日喜好的科技时尚娱乐生活

在测试 AI 模型直接事实性问题的 OpenAI SimpleQA 基准测试中,GPT-4.5 在准确性方面优于 GPT-4o 和 OpenAI 的推理模型 o1 和 o3-mini。根据 OpenAI 的说法,GPT-4.5 的幻觉现象比大多数模型都少,理论上这意味着它编造内容的可能性更低。ySi喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 没有在 SimpleQA 中列出其顶级 AI 推理模型之一 deep research。OpenAI 发言人向 TechCrunch 表示,他们尚未公开发布 deep research 在该基准测试上的表现,并称这不是一个相关的比较。值得注意的是,AI 创业公司 Perplexity 的 Deep Research 模型在其他基准测试中与 OpenAI 的 deep research 表现相似,但在这个事实准确性测试中优于 GPT-4.5。ySi喜好网-记录每日喜好的科技时尚娱乐生活

在 SWE-Bench Verified 基准测试的部分编程问题中,GPT-4.5 与 GPT-4o 和 o3-mini 的表现相当,但不及 OpenAI 的 deep research 和 Anthropic 的 Claude 3.7 Sonnet。在另一个测试 AI 模型开发完整软件功能能力的测试 OpenAI SWE-Lancer 基准测试中,GPT-4.5 优于 GPT-4o 和 o3-mini,但不及 deep research。ySi喜好网-记录每日喜好的科技时尚娱乐生活

在 AIME 和 GPQA 等困难的学术基准测试中,GPT-4.5 未能达到领先的 AI 推理模型 (如 o3-mini、DeepSeek 的 R1 和 Claude 3.7 Sonnet) 的水平。但 GPT-4.5 在这些测试中与领先的非推理模型相当或更优,表明该模型在数学和科学相关问题上表现出色。ySi喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 还声称,GPT-4.5 在基准测试难以衡量的领域 (如理解人类意图的能力) 上在质量上优于其他模型。OpenAI 表示,GPT-4.5 的回应更温和自然,在写作和设计等创意任务上表现出色。ySi喜好网-记录每日喜好的科技时尚娱乐生活

在一个非正式测试中,OpenAI 要求 GPT-4.5 和其他两个模型 (GPT-4o 和 o3-mini) 用 SVG (一种基于数学公式和代码显示图形的格式) 创建独角兽。只有 GPT-4.5 创建出了类似独角兽的图像。ySi喜好网-记录每日喜好的科技时尚娱乐生活

在另一个测试中,OpenAI 要求 GPT-4.5 和其他两个模型回应"我考试失败后正在经历一段艰难时期"这个提示。GPT-4o 和 o3-mini 提供了有用的信息,但 GPT-4.5 的回应在社交得体性方面最佳。ySi喜好网-记录每日喜好的科技时尚娱乐生活

"我们期待通过这次发布更全面地了解 GPT-4.5 的能力,"OpenAI 在博文中写道,"因为我们认识到学术基准测试并不总能反映现实世界的实用性。"ySi喜好网-记录每日喜好的科技时尚娱乐生活

扩展法则受到挑战ySi喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 声称 GPT-4.5 是"无监督学习所能达到的前沿"。这可能是事实,但该模型的局限性似乎也证实了专家们关于预训练"扩展法则"将不再持续的推测。ySi喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 联合创始人和前首席科学家 Ilya Sutskever 在 12 月表示,"我们已经达到了数据峰值","我们所知道的预训练无疑将结束"。他的评论呼应了 AI 投资者、创始人和研究人员在 11 月份向 TechCrunch 分享的担忧。ySi喜好网-记录每日喜好的科技时尚娱乐生活

为应对预训练障碍,包括 OpenAI 在内的整个行业已经开始采用推理模型,这些模型完成任务的时间比非推理模型更长,但表现更加稳定。通过增加 AI 推理模型用于"思考"问题的时间和计算能力,AI 实验室相信他们可以显著提高模型的能力。ySi喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 计划最终将其 GPT 系列模型与其 "o" 推理系列结合,从今年晚些时候的 GPT-5 开始。GPT-4.5 据报道训练成本极高,多次推迟,未能达到内部预期,可能无法独自获得 AI 基准测试的桂冠。但 OpenAI 可能将其视为通向更强大成果的垫脚石。ySi喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
男子为骗保开车撞树不慎当场身亡 系团伙自导自演:已骗90多万

男子为骗保开车撞树不慎当场身亡

11月19日

11-19 70阅读
睿蓝8七座纯电MPV上市,起售价13.78万元

睿蓝8七座纯电MPV上市,起售价13.7

11-19 63阅读
广汽传祺S7大五座SUV全球首秀,预计明年上半年上市

广汽传祺S7大五座SUV全球首秀,预

11-19 66阅读
大佬喊话,AI寒冬已来?

大佬喊话,AI寒冬已来?

OpenA

11-19 58阅读
这个东北小镇,拿捏年轻人的第一件貂

这个东北小镇,拿捏年轻人的第一件

你会

11-19 66阅读
2012年,“非诚勿扰”女高朋王佳暴虐杀害丈夫,如今快要出狱了

2012年,“非诚勿扰”女高朋

11-19 68阅读
()

()

点击蓝字 关注我们 摘要 今天

11-19 67阅读
2024东方卫视跨年首发阵容,胡歌唐嫣代表《繁花》剧组亮相

2024东方卫视跨年首发阵容

12月25日,2024东方卫视跨年首发阵

11-19 64阅读
零容忍!税务部门公布3起网络主播偷税被处罚案件

零容忍!税务部门公布3起网

11月15日消息,近

11-19 70阅读
浪胃仙IP创始人“游絮”犯职务侵占罪被判8年:罚100万 归还账号

浪胃仙IP创始人“游絮”犯

11月13日消息,据

11-19 66阅读
互动影游《新世界:暗影成双》Steam页面开放 发行日期待定

互动影游《新世界:暗影成双

今日(11月16日),双人合作类互动影游《新

11-19 67阅读
和平精英灵敏度怎么调最稳?和平精英灵敏度设置2024最新版

和平精英灵敏度怎么调最稳

《和平精英》是一款全民枪战竞技手游,采

11-19 94阅读
帝国时代2高清版秘籍,帝国时代2高清重制版(HD版)秘籍

帝国时代2高清版秘籍,帝国

帝国时代2高清版是最近很多玩家在玩的

11-19 66阅读
界面设计全面升级 NVIDIA app实际体验:五大靓点堪称N卡必备搭档

界面设计全面升级 NVIDIA

11-19 78阅读
饥荒通过卡猪人快速回复san值的详细操作方法

饥荒通过卡猪人快速回复sa

饥荒游戏里面玩家经常会面对san值不足

11-19 67阅读