GPT-4.5 企业版:其准确性和知识储备是否值得高昂成本?

2个月前 科技 14观看
摘要 OpenAI 发布的 GPT-4.5 让许多人感到失望,主要原因在于其过高的价格(比 Claude 3.7 Sonnet 贵 10-20 倍,比 GPT-4o 贵 15-30 倍)。然而,考虑到这是 OpenAI 最大且最强大的非推理模型,我们有必要研

OpenAI 发布的 GPT-4.5 让许多人感到失望,主要原因在于其过高的价格(比 Claude 3.7 Sonnet 贵 10-20 倍,比 GPT-4o 贵 15-30 倍)。V8o喜好网-记录每日喜好的科技时尚娱乐生活

然而,考虑到这是 OpenAI 最大且最强大的非推理模型,我们有必要研究其优势和擅长领域。V8o喜好网-记录每日喜好的科技时尚娱乐生活

更好的知识储备和对齐能力V8o喜好网-记录每日喜好的科技时尚娱乐生活

虽然关于模型架构和训练语料库的细节信息较少,但据估计其训练算力是此前的 10 倍。模型规模之大,以至于 OpenAI 不得不将训练任务分散到多个数据中心才能在合理时间内完成。V8o喜好网-记录每日喜好的科技时尚娱乐生活

更大的模型在获取世界知识和理解人类语言细微差别方面具有更强的能力(前提是有高质量的训练数据)。这一点在 OpenAI 团队提供的一些指标中得到了证实。例如,GPT-4.5 在评估 AI 模型幻觉的 PersonQA 基准测试中创下了新高。V8o喜好网-记录每日喜好的科技时尚娱乐生活

实践实验也表明,GPT-4.5 在保持事实准确性和遵循用户指令方面优于其他通用模型。V8o喜好网-记录每日喜好的科技时尚娱乐生活

用户指出,GPT-4.5 的回应比之前的模型更自然,更具上下文意识。它在遵循语气和风格指导方面的能力也有所提升。V8o喜好网-记录每日喜好的科技时尚娱乐生活

GPT-4.5 发布后,曾获得模型早期使用权的 AI 科学家、OpenAI 联合创始人 Andrej Karpathy 表示:"我预计在不需要太多推理能力的任务中会看到改进,这些任务更多与情商 (EQ) 相关(而非智商 IQ),比如世界知识、创造力、类比能力、普遍理解力、幽默感等。"V8o喜好网-记录每日喜好的科技时尚娱乐生活

然而,评估写作质量是非常主观的。在 Karpathy 进行的一项关于不同提示的调查中,大多数人更倾向于 GPT-4o 的回应。他在 X 上写道:"要么是高品味测试者注意到了新的独特结构,但低品味的人主导了投票结果;要么我们产生了错觉;要么这些例子不够好;要么实际差距很小而样本量太少;或者以上都是。"V8o喜好网-记录每日喜好的科技时尚娱乐生活

更优秀的文档处理能力V8o喜好网-记录每日喜好的科技时尚娱乐生活

Box 公司已将 GPT-4.5 整合到其 Box AI Studio 产品中。在实验中,他们写道:"GPT-4.5 特别适合企业用例,因为企业场景下准确性和完整性至关重要...我们的测试表明,GPT-4.5 是目前最优秀的模型之一,无论是从评估分数还是处理我们遇到的最难 AI 问题的能力来看都是如此。"V8o喜好网-记录每日喜好的科技时尚娱乐生活

在内部评估中,Box 发现 GPT-4.5 在企业文档问答任务上更为准确——在他们的测试集上比原始 GPT-4 高出约 4 个百分点。V8o喜好网-记录每日喜好的科技时尚娱乐生活

Box 的测试还表明,GPT-4.5 在处理商业文档中的数学问题方面表现出色,这是早期 GPT 模型常常难以应对的。例如,它在回答需要数据推理和计算的财务文档问题时表现更好。V8o喜好网-记录每日喜好的科技时尚娱乐生活

GPT-4.5 在从非结构化数据中提取信息方面也有所改进。在一项涉及从数百份法律文档中提取字段的测试中,GPT-4.5 比 GPT-4o 的准确率高出 19%。V8o喜好网-记录每日喜好的科技时尚娱乐生活

规划、编码、评估结果V8o喜好网-记录每日喜好的科技时尚娱乐生活

凭借其改进的世界知识,GPT-4.5 也可以成为为复杂任务创建高层次计划的合适模型。分解后的步骤可以交给较小但更高效的模型来详细制定和执行。V8o喜好网-记录每日喜好的科技时尚娱乐生活

根据 Constellation Research 的说法:"在初步测试中,GPT-4.5 似乎在代理规划和执行方面表现出强大的能力,包括多步骤编码工作流程和复杂任务自动化。"V8o喜好网-记录每日喜好的科技时尚娱乐生活

GPT-4.5 在需要内部和上下文知识的编码任务中也很有用。GitHub 现在在其 Copilot 编码助手中提供对该模型的有限访问,并指出 GPT-4.5"在处理创造性提示方面表现出色,并能对晦涩的知识查询提供可靠的回答。"V8o喜好网-记录每日喜好的科技时尚娱乐生活

鉴于其更深入的世界知识,GPT-4.5 也适合"LLM 作为评判者"的任务,即由强大的模型评估较小模型的输出。例如,像 GPT-4o 或 o3 这样的模型可以生成一个或多个响应,对解决方案进行推理,然后将最终答案传递给 GPT-4.5 进行修改和完善。V8o喜好网-记录每日喜好的科技时尚娱乐生活

是否值得这个价格?V8o喜好网-记录每日喜好的科技时尚娱乐生活

考虑到 GPT-4.5 巨大的成本,很难为许多用例提供合理性。但这种情况可能不会一直持续。近年来我们看到的一个持续趋势是推理成本的大幅下降,如果这个趋势也适用于 GPT-4.5,那么值得对其进行实验并找到在企业应用中利用其能力的方法。V8o喜好网-记录每日喜好的科技时尚娱乐生活

同样值得注意的是,这个新模型可能成为未来推理模型的基础。据 Karpathy 所说:"请记住,GPT-4.5 仅通过预训练、监督微调和 RLHF (来自人类反馈的强化学习) 进行训练,所以这还不是一个推理模型。因此,这个模型的发布并没有在推理至关重要的领域(数学、编程等)推进模型能力...可以预见,OpenAI 现在将寻求在 GPT-4.5 模型之上进行强化学习训练,使其具备思考能力,并在这些领域推进模型能力。"V8o喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
董宇辉终究难逃宿命

董宇辉终究难逃宿命

直播带货业已进入到一场深度洗牌

11-19 74阅读
星驿付与慧徕店亮相金融界“奥运会”—Sibos2024年会,与国际金融大咖齐聚北京,共话全球金融发展

星驿付与慧徕店亮相金融界“奥运

【锋巢网】导读:10月21日至24日,

11-19 61阅读
苹果打算明年带来AirTag 2,或与M4 MacBook Air一起发布

苹果打算明年带来AirTag 2,或与M4

在202

11-19 70阅读
护眼的2K旗舰!Redmi K80是行业唯一支持全亮度DC的2K屏手机

护眼的2K旗舰!Redmi K80是行业唯

11月18日

11-19 78阅读
“知春路时代”的创业者,被回购条款绊了一跤

“知春路时代”的创业者,被回购条

这次

11-19 68阅读
NCT成员道英自2021年演出《玛丽・安东妮》之后睽违3年再度登上音乐剧舞台演出《笑面人》

NCT成员道英自2021年演出

NCT成员道英自2021年演出《玛

11-19 69阅读
要回归了?李奈映透露丈夫元斌正在选剧本 有望复出拍戏

要回归了?李奈映透露丈夫元

47岁韩国男星元斌,凭着帅气

11-19 63阅读
虞书欣林一新剧演情侣,《嘘,国王在冬眠》改编自哪部小说?

虞书欣林一新剧演情侣,《嘘

12月22日是冬至,在这天,虞书欣和林

11-19 61阅读
爱尔兰移民项目身 光环 太多,一份投资,三大收获,四重身份(爱尔兰移民项目身)

爱尔兰移民项目身 光环 太

其实自英国脱欧以来,获得爱尔兰公

11-19 68阅读
《最后生还者》新季明年春首播

《最后生还者》新季明年春

HBO及HBO Max首

11-19 69阅读
与柴犬开启治愈探险之旅!异世界动作冒险新游《妖怪之国》登陆Steam

与柴犬开启治愈探险之旅!异

在这个繁忙喧嚣的现代社会,我们时常渴

11-19 73阅读
城市天际线秘籍代码及使用方法详细介绍

城市天际线秘籍代码及使用

《城市:天际线》是以建造和管理城市为题

11-19 65阅读
ePSXe模拟器安卓版怎么导入游戏?ePSXe模拟器安卓版导入游戏教程

ePSXe模拟器安卓版怎么导

ePSXe模拟器安卓版是一款非常棒的可以

11-19 98阅读
原子之心前期速刷神经聚合物的方法分享

原子之心前期速刷神经聚合

神经聚合物是原子之心游戏中用来解锁技

11-19 63阅读
饥荒猪皮怎么获得?饥荒猪皮获得方法详细介绍

饥荒猪皮怎么获得?饥荒猪

饥荒猪皮怎么获得?猪皮是饥荒游戏里面的

11-19 68阅读