AI 推理模型的兴起使基准测试成本大幅提升

4个月前 科技 27观看
摘要 AI 实验室如 OpenAI 声称他们所谓的"推理型" AI 模型能够一步步"思考"解决问题,在物理等特定领域比非推理模型更强大。但虽然这种说法普遍看来是正确的,推理模型的基准测试成本却要高得多,这使

AI 实验室如 OpenAI 声称他们所谓的"推理型" AI 模型能够一步步"思考"解决问题,在物理等特定领域比非推理模型更强大。但虽然这种说法普遍看来是正确的,推理模型的基准测试成本却要高得多,这使得独立验证这些声明变得困难。RSG喜好网-记录每日喜好的科技时尚娱乐生活

根据第三方 AI 测试机构 Artificial Analysis 的数据显示,在七个流行的 AI 基准测试上评估 OpenAI 的 o1 推理模型需要花费 2,767.05 美元,这些测试包括:MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500。RSG喜好网-记录每日喜好的科技时尚娱乐生活

对 Anthropic 最新的"混合"推理模型 Claude 3.7 Sonnet 进行同样的测试花费了 1,485.35 美元,而测试 OpenAI 的 o3-mini-high 则花费了 344.59 美元。RSG喜好网-记录每日喜好的科技时尚娱乐生活

有些推理模型的测试成本较低。例如,Artificial Analysis 评估 OpenAI 的 o1-mini 只花费了 141.22 美元。但平均而言,这些模型的测试成本都很高。总的来说,Artificial Analysis 在评估大约十几个推理模型上花费了约 5,200 美元,这几乎是该公司分析超过 80 个非推理模型所花费金额 (2,400 美元) 的两倍。RSG喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 的非推理模型 GPT-4o (2024 年 5 月发布) 的评估成本仅为 108.85 美元,而 Claude 3.6 Sonnet (Claude 3.7 Sonnet 的非推理前身) 的评估成本为 81.41 美元。RSG喜好网-记录每日喜好的科技时尚娱乐生活

Artificial Analysis 联合创始人 George Cameron 告诉 TechCrunch,随着更多 AI 实验室开发推理模型,该组织计划增加基准测试支出。RSG喜好网-记录每日喜好的科技时尚娱乐生活

"在 Artificial Analysis,我们每月进行数百次评估,并为此投入大量预算,"Cameron 表示,"随着模型发布频率的增加,我们预计这方面的支出会继续上升。"RSG喜好网-记录每日喜好的科技时尚娱乐生活

Artificial Analysis 并非唯一一个面临 AI 基准测试成本上升的机构。RSG喜好网-记录每日喜好的科技时尚娱乐生活

AI 创业公司 General Reasoning 的 CEO Ross Taylor 表示,他最近花费了 580 美元对 Claude 3.7 Sonnet 进行了约 3,700 个独特提示的评估。Taylor 估计,仅运行一次 MMLU Pro (一个用于测试模型语言理解能力的问题集) 就要花费超过 1,800 美元。RSG喜好网-记录每日喜好的科技时尚娱乐生活

"我们正在进入这样一个世界:实验室报告在某个基准测试上达到 x% 的性能时投入了 y 量的计算资源,但学术界能获得的资源远远小于 y,"Taylor 最近在 X 平台上发文说,"没有人能够复现这些结果。"RSG喜好网-记录每日喜好的科技时尚娱乐生活

为什么推理模型的测试成本如此之高?主要是因为它们会生成大量的 token。Token 代表原始文本的片段,例如将"fantastic"这个词拆分成"fan"、"tas"和"tic"这样的音节。根据 Artificial Analysis 的数据,OpenAI 的 o1 在该公司的基准测试中生成了超过 4,400 万个 token,约为 GPT-4o 生成量的 8 倍。RSG喜好网-记录每日喜好的科技时尚娱乐生活

大多数 AI 公司按 token 收费,由此可以看出这些成本是如何累积的。RSG喜好网-记录每日喜好的科技时尚娱乐生活

开发自己基准测试的 Epoch AI 高级研究员 Jean-Stanislas Denain 表示,现代基准测试也倾向于从模型中获取大量 token,因为它们包含涉及复杂多步骤任务的问题。RSG喜好网-记录每日喜好的科技时尚娱乐生活

"今天的基准测试更复杂,尽管每个基准测试的问题数量总体上减少了,"Denain 告诉 TechCrunch,"它们经常试图评估模型执行现实世界任务的能力,比如编写和执行代码、浏览互联网以及使用计算机。"RSG喜好网-记录每日喜好的科技时尚娱乐生活

Denain 补充说,最昂贵的模型的每个 token 成本随时间推移变得更高。例如,Anthropic 的 Claude 3 Opus 在 2024 年 5 月发布时是最昂贵的模型,每百万输出 token 成本为 75 美元。OpenAI 的 GPT-4.5 和 o1-pro (都在今年早些时候发布) 的成本分别为每百万输出 token 150 美元和 600 美元。RSG喜好网-记录每日喜好的科技时尚娱乐生活

"由于模型随时间推移变得更好,达到特定性能水平的成本确实已经大大降低,"Denain 说,"但如果你想评估任何时点上最好的大型模型,你仍然需要支付更多。"RSG喜好网-记录每日喜好的科技时尚娱乐生活

包括 OpenAI 在内的许多 AI 实验室为基准测试机构提供免费或补贴的模型访问权限用于测试。但一些专家表示,这会影响测试结果的公正性——即使没有操纵的证据,AI 实验室的参与暗示也会威胁到评估打分的完整性。RSG喜好网-记录每日喜好的科技时尚娱乐生活

"从科学的角度来看,如果你发布的结果没有人能用相同的模型复现,这还能算是科学吗?"Taylor 在 X 平台上的后续帖子中写道,"它曾经是科学吗?"RSG喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
苹果史上薄机型!曝iPhone 17 Air厚度仅6mm

苹果史上薄机型!曝iPhone 17 Air

11月19日

11-19 111阅读
‌比亚迪天津“迪空间”试营业,预计12月正式开放‌

‌比亚迪天津“迪空间”试营业,预

11-19 102阅读
一家早期科技基金,今年投了10个亿

一家早期科技基金,今年投了10个亿

周期

11-19 105阅读
千诀科技完成数千万元天使轮融资

千诀科技完成数千万元天使轮融资

近日,

11-19 113阅读
致命错误!Sam Altman发一张对比图,遭到大量吐槽

致命错误!Sam Altman发一张对比图

图片来源:由无界AI生成OpenAI联合

11-19 128阅读
悬疑探案剧《宋慈韶华录》今日开播,海天一李乃文等实力派助阵

悬疑探案剧《宋慈韶华录》

李乃文的新剧《三大队》还在热播

11-19 103阅读
综艺《开播!短剧季》试镜最后一役!谁能夺得《包拯与公孙策》IP试播资格?

综艺《开播!短剧季》试镜最

  国内首档“微短剧+综艺”创新真人

11-19 114阅读
天生戏剧人!小演员田芯语乌镇首秀,领衔戏剧节唯一入围儿童剧《乐园》

天生戏剧人!小演员田芯语乌

  深秋,一场淅淅沥沥的小雨为江南带

11-19 108阅读
20岁大学生开车26天去上学引百万人围观:从中国南京开到英国杜伦

20岁大学生开车26天去上学

“我真的做到了!

11-19 116阅读
迪士尼儿童动画或因LGBT话题停播一集:变性少年参加女子排球赛

迪士尼儿童动画或因LGBT话

据多位参与制作

11-19 108阅读
三国群英传7秘籍大全_三国群英传7所有秘籍代码一览

三国群英传7秘籍大全_三国

三国群英传7游戏支持秘籍功能,玩家可以

11-19 142阅读
卧龙苍天陨落前期快速获取情谊酒杯的技巧分享

卧龙苍天陨落前期快速获取

情谊酒杯是卧龙苍天陨落游戏里面的特殊

11-19 104阅读
饥荒超全影怪封印方法一览

饥荒超全影怪封印方法一览

在饥荒游戏的设定里面,玩家san值掉到0之

11-19 104阅读
原神尽在咫尺的目标任务怎么做|尽在咫尺的目标任务攻略

原神尽在咫尺的目标任务怎

尽在咫尺的目标是原神须弥地区魔神主线

11-19 112阅读
原神智慧之神的踪影任务流程|原神智慧之神的踪影攻略

原神智慧之神的踪影任务流

原神智慧之神的踪影是须弥地区魔神主线

11-19 114阅读