AI推理模型崛起:挑战与成本飙升之战

4个月前 科技 26观看
摘要 AI推理模型崛起的挑战与成本飙升之战随着人工智能(AI)技术的不断发展,AI推理模型已成为研究热点。这些模型能够像人类一样逐步思考问题,并在特定领域展现出强大的能力,如物理学。然而,随着这些模型的崛起,其测试

AI推理模型崛起的挑战与成本飙升之战Trx喜好网-记录每日喜好的科技时尚娱乐生活

随着人工智能(AI)技术的不断发展,AI推理模型已成为研究热点。这些模型能够像人类一样逐步思考问题,并在特定领域展现出强大的能力,如物理学。然而,随着这些模型的崛起,其测试成本也相应飙升,给研究者带来了新的挑战。Trx喜好网-记录每日喜好的科技时尚娱乐生活

首先,让我们了解一下AI推理模型的工作原理。这些模型能够理解和分析输入的信息,并根据已有的知识库进行推理,得出相应的结论。在某些领域,如物理学中,这种推理能力被认为比非推理模型更具优势。然而,这种优势的代价是高昂的测试成本。Trx喜好网-记录每日喜好的科技时尚娱乐生活

据第三方AI测试机构“人工智能分析”(Artificial Analysis)的数据显示,评估OpenAI的o1推理模型在七个流行的AI基准测试中的表现,需要花费高达2767.05美元。而评估Anthropic的Claude 3.7 Sonnet这一“混合”推理模型的成本也达到了1485.35美元。相比之下,测试OpenAI的o3-mini-high只需344.59美元。尽管有些推理模型的测试成本相对较低,但从整体来看,推理模型的测试成本仍然较高。Trx喜好网-记录每日喜好的科技时尚娱乐生活

那么,为什么推理模型的测试成本如此之高呢?主要原因在于它们生成了大量的token。Token代表原始文本的片段,例如将单词“fantastic”拆分为音节“fan”、“tas”和“tic”。据“人工智能分析”称,在该公司的基准测试中,OpenAI的o1生成了超过4400万个token。这不仅意味着需要大量的计算资源,还使得评估成本容易累积。Trx喜好网-记录每日喜好的科技时尚娱乐生活

此外,现代基准测试通常会从模型中引出大量token,因为它们包含涉及复杂、多步骤任务的问题。这不仅是因为基准测试现在更加复杂,而且每个基准测试的问题数量总体有所减少。它们通常试图评估模型执行现实世界任务的能力,例如编写和执行代码、浏览互联网以及使用计算机。Trx喜好网-记录每日喜好的科技时尚娱乐生活

然而,这并不是推理模型测试成本飙升的唯一原因。随着时间的推移,模型的性能和复杂性不断提高,但达到给定性能水平的成本并没有相应大幅下降。相反,随着竞争加剧和研发投入的增加,每个token的成本也在增加。例如,Anthropic在2024年5月发布的Claude 3 Opus是当时最昂贵的模型,每百万输出token的成本为75美元。而OpenAI今年早些时候推出的GPT-4.5和o1-pro,每百万输出token的成本分别为150美元和600美元。Trx喜好网-记录每日喜好的科技时尚娱乐生活

尽管随着时间的推移,模型的性能有所提高,达到给定性能水平的成本也确实大幅下降了,但如果你想在任何特定时间评估最大最好的模型,你仍然需要支付更多。这也意味着难以复制和比较不同实验室的研究结果,给学术界和研究机构带来了新的挑战。Trx喜好网-记录每日喜好的科技时尚娱乐生活

尽管面临这些挑战和成本飙升,AI推理模型的发展仍具有重要意义。它们为特定领域的科研和应用提供了强大的工具,有望推动科学和技术的进步。因此,我们需要继续研究和开发这些模型,同时也要寻找降低测试成本的方法,以便更广泛地应用这些模型。这可能包括改进基准测试方法、优化模型生成过程和使用更经济高效的计算资源。Trx喜好网-记录每日喜好的科技时尚娱乐生活

最后,虽然推理模型的测试成本高昂,但我们必须认识到这只是技术发展过程中的一个暂时问题。随着科研人员的努力和技术的进步,我们相信会有更多的解决方案出现,帮助我们克服这些挑战并加速AI技术的发展。Trx喜好网-记录每日喜好的科技时尚娱乐生活

Trx喜好网-记录每日喜好的科技时尚娱乐生活

Trx喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
小米发布超级智能驾驶技术Hyper Autonomous Driving(HAD)

小米发布超级智能驾驶技术Hyper

11-19 121阅读
52岁浙商要搞AD钙奶,宗馥莉又有一战

52岁浙商要搞AD钙奶,宗馥莉又有一

带领

11-19 107阅读
并购重组大潮AB面:有的“做大做强”有的“拉高出货”

并购重组大潮AB面:有的“做大做强

自证

11-19 110阅读
年入上百亿,海尔旗下独角兽终止IPO

年入上百亿,海尔旗下独角兽终止IP

今年

11-19 113阅读
致命错误!Sam Altman发一张对比图,遭到大量吐槽

致命错误!Sam Altman发一张对比图

图片来源:由无界AI生成OpenAI联合

11-19 128阅读
《小巷人家》:街坊邻里的当代理想化图示

《小巷人家》:街坊邻里的当

作者 / 耳东陈运营 / 狮子座先说一桩

11-19 122阅读
于谦因釜山行爆红, 啥梗真没想到讲相声的他竟出演过这么多作品

于谦因釜山行爆红, 啥梗真

于谦明明就是一个讲相声的人,怎么

11-19 116阅读
虞书欣林一新剧演情侣,《嘘,国王在冬眠》改编自哪部小说?

虞书欣林一新剧演情侣,《嘘

12月22日是冬至,在这天,虞书欣和林

11-19 99阅读
《令人心动的offer6》:职综天花板如何让英雄主义落地现实

《令人心动的offer6》:职综

  《令人心动的offer》第六季以豆瓣

11-19 104阅读
肖战演郭靖!新《射雕》能复兴徐克的武侠梦吗 网友:肩负文化出海重任

肖战演郭靖!新《射雕》能复

11月18日消息,由

11-19 105阅读
咸鱼之王兑换码2024,咸鱼之王礼包码100连抽兑换码最新分享

咸鱼之王兑换码2024,咸鱼

咸鱼之王是一款非常魔性的放置挂机手游

11-19 116阅读
原子之心激光模块解谜攻略

原子之心激光模块解谜攻略

原子之心游戏里面有一个被动安保激光模

11-19 116阅读
原子之心动物谜题答案_动物谜题解谜教程

原子之心动物谜题答案_动

原子之心游戏中玩家会碰到一个动物谜题

11-19 137阅读
饥荒鱼竿怎么做?饥荒钓鱼竿制作材料详细介绍

饥荒鱼竿怎么做?饥荒钓鱼

饥荒鱼竿怎么做?在饥荒游戏里面,我们可以

11-19 131阅读
饥荒暖石制作方法详细介绍

饥荒暖石制作方法详细介绍

暖石是饥荒游戏里面的一个特殊道具,可以

11-19 186阅读