OpenAI 转变重点:GPT-4.1 优先关注编程与成本效率

2周前 科技 5观看
摘要 OpenAI 发布了 GPT-4.1 家族的 AI 模型,专注于通过改进编程、长上下文处理以及指令遵循能力,直接通过其应用程序接口提高开发者生产力。此次发布包含三个不同的模型:GPT-4.1、GPT-4.1 mini 和 G

OpenAI 发布了 GPT-4.1 家族的 AI 模型,专注于通过改进编程、长上下文处理以及指令遵循能力,直接通过其应用程序接口提高开发者生产力。dW7喜好网-记录每日喜好的科技时尚娱乐生活

此次发布包含三个不同的模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,标志着在大语言模型领域向任务专用优化方向迈进。这些模型不会立即取代诸如 ChatGPT 等面向用户的界面,而是作为开发者构建应用和服务的工具。dW7喜好网-记录每日喜好的科技时尚娱乐生活

对于技术领导者和企业决策者而言,此次发布值得关注。这表明了一个战略方向,即针对企业功能(特别是软件开发、复杂数据分析和构建自主 AI 代理)优化的大语言模型,将更加专业化且潜在上更具成本效益。分级模型的可用性和改进的性能指标可能会影响关于 AI 集成、构建与购买决策以及内部开发工具资源分配等方面的决策,从而可能改变现有的开发周期。dW7喜好网-记录每日喜好的科技时尚娱乐生活

从技术角度来看,GPT-4.1 系列相较于其前身 GPT-4o 是一次渐进但专注的升级。其中一项重要改进是将上下文窗口扩展至支持最多 1,000,000 个 Token。这比 GPT-4o 的 128,000 个 Token 的容量有了大幅提高,使得模型能够处理并保持对相当于约 750,000 个单词量的大量信息的连贯性。该能力直接满足了分析大量代码库、总结冗长文档或在复杂互动中维持上下文以满足高端 AI 代理需求等应用场景。该系列模型采用了更新的知识体系,涵盖的信息截止至 2024 年 6 月。dW7喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 报告称,在与开发者相关的核心能力上有所提升。内部基准测试表明,GPT-4.1 在编程任务上相较于 GPT-4o 及早期的 GPT-4.5 预览模型有明显改善。根据 OpenAI 的数据,在衡量解决现实软件工程问题能力的基准测试 SWE-bench 上,GPT-4.1 的成功率达到了 55% 。这些模型还经过更字面化地遵循指令的训练,这虽然要求精细且具体的提示,但也使得对输出结果具有更大的控制力。分级结构为开发者提供了灵活性:标准版 GPT-4.1 提供最高的能力,而 mini 和 nano 版本则在性能速度和降低运营成本之间取得平衡,其中 nano 被定位为最快且成本最低的选项,适用于分类或自动补全等任务。dW7喜好网-记录每日喜好的科技时尚娱乐生活

在更广泛的市场背景下,GPT-4.1 的发布加剧了领先 AI 实验室之间的竞争。像 Google 的 Gemini 系列和 Anthropic 的 Claude 模型等供应商也推出了拥有百万 Token 上下文窗口和强大编程能力的模型。dW7喜好网-记录每日喜好的科技时尚娱乐生活

这反映了一个行业趋势,即超越通用模型,向针对特定高价值任务优化的变体转变,而这些任务通常受到企业需求驱动。OpenAI 与 Microsoft 的合作也十分明显,GPT-4.1 模型已通过 Microsoft Azure OpenAI Service 提供,并集成到 GitHub Copilot 与 GitHub Models 等开发工具中。同时,OpenAI 宣布计划在 2025 年 7 月中旬停用其 GPT-4.5 预览模型的 API 接入,将新的 4.1 系列定位为提供相当或更佳性能且成本更低的产品。dW7喜好网-记录每日喜好的科技时尚娱乐生活

与前身 GPT-4o 相比,OpenAI 的 GPT-4.1 系列在 API 定价上大幅下降,使得先进的 AI 能力对开发者和企业更加易于获取。dW7喜好网-记录每日喜好的科技时尚娱乐生活

这一定价策略使 GPT-4.1 成为一个更具成本效益的解决方案,与 GPT-4o 相比,每次查询可节省高达 80% 的费用,同时还提供了更强的性能和更快的响应速度。分级模型方法允许开发者根据所需性能与成本做出适当选择,其中 GPT-4.1 Nano 适用于分类或自动补全等任务,而标准版 GPT-4.1 则适合更复杂的应用。dW7喜好网-记录每日喜好的科技时尚娱乐生活

从战略角度来看,GPT-4.1 家族对于企业来说具有多方面的意义。改进的编程和长上下文能力可能会加速软件开发周期,使开发者能够更高效地解决更复杂的问题,更好地分析遗留代码,或更高效地生成代码文档和测试。构建具备处理多步骤任务并能够访问庞大内部知识库的更复杂内部 AI 代理的潜力也在提升。成本效益是另一个因素;OpenAI 声称 4.1 系列的运营成本低于 GPT-4.5,并为处理重复上下文的用户增加了提示缓存折扣。此外,即将在 Azure 等平台上推出的针对 4.1 和 4.1-mini 模型的微调功能,将允许各组织利用自有数据针对特定领域术语工作流程或品牌语音对这些模型进行定制,可能带来竞争优势。dW7喜好网-记录每日喜好的科技时尚娱乐生活

然而,潜在的采用者应考虑某些因素。改进后的直译式指令遵循使得提示工程变得更为关键,这要求提示具备清晰性和精准性以达成预期效果。尽管百万 Token 上下文窗口令人印象深刻,但 OpenAI 的数据表明,当在这一极限范围内处理信息时模型的准确性可能会降低,这表明对于特定的长上下文应用案例需要进行测试和验证。有效地将这些基于 API 的模型整合并管理到现有的企业架构和安全框架中,也需要周密的规划和技术专长。dW7喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 的此次发布凸显了 AI 领域的快速迭代周期,要求不断评估模型能力、成本结构以及与业务目标的一致性。dW7喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
供应链称上游元器件要大降价:国产手机现涨价潮后会主动下调售价吗

供应链称上游元器件要大降价:国产

11月19日

11-19 69阅读
华为强机皇!Mate 70系列关键信息汇总:外观/性能/影像揭秘

华为强机皇!Mate 70系列关键信息

华为Mate

11-19 59阅读
睿蓝8七座纯电MPV上市,起售价13.78万元

睿蓝8七座纯电MPV上市,起售价13.7

11-19 59阅读
“鲶鱼”雷军:抖音粉丝突破3000万,换一种方式卷同行?

“鲶鱼”雷军:抖音粉丝突破3000万

在流

11-19 55阅读
Scaling Law遭遇瓶颈,OpenAI被曝押注智能体“Operator”

Scaling Law遭遇瓶颈,OpenAI被曝

文章来源:量子位图片来源:由无界AI

11-19 61阅读
安倍遇刺事件的态度问题(安倍遇刺事件的态度问题)

安倍遇刺事件的态度问题(安

安倍遇刺事件的态度问题 刘明

11-19 59阅读
悬疑探案剧《宋慈韶华录》今日开播,海天一李乃文等实力派助阵

悬疑探案剧《宋慈韶华录》

李乃文的新剧《三大队》还在热播

11-19 55阅读
爱尔兰移民项目身 光环 太多,一份投资,三大收获,四重身份(爱尔兰移民项目身)

爱尔兰移民项目身 光环 太

其实自英国脱欧以来,获得爱尔兰公

11-19 63阅读
“重温经典”电视频道火爆:超6000万户 稳居收视率首位

“重温经典”电视频道火爆

11月18日消息,根

11-19 57阅读
王宝强新片《金陵福》立项:慈禧御用魔术师的传奇人生

王宝强新片《金陵福》立项

11月13日消息,国

11-19 62阅读
《这是我的战争》10周年纪念 最新慈善DLC即将登场

《这是我的战争》10周年纪

「妄想欢庆」——《这是我的战争》10周

11-19 64阅读
CE修改器怎么用?使用CE修改器进行游戏修改的详细操作方法分享

CE修改器怎么用?使用CE修

CE修改器怎么用?对于很多游戏玩家来说CE

11-19 63阅读
原子之心冰箱在哪?原子之心冰箱位置详细介绍

原子之心冰箱在哪?原子之

原子之心冰箱在哪?原子之心游戏里面那台

11-19 64阅读
饥荒猪皮怎么获得?饥荒猪皮获得方法详细介绍

饥荒猪皮怎么获得?饥荒猪

饥荒猪皮怎么获得?猪皮是饥荒游戏里面的

11-19 61阅读
饥荒宠物洞召唤宠物所需物品一览

饥荒宠物洞召唤宠物所需物

宠物洞是饥荒游戏里面的一个特殊场景,在

11-19 64阅读