Google 的 Gemini 2.5 Flash 推出 “思考预算” 调低时可降低 AI 成本 600%

2周前 科技 5观看
摘要 Google 今天推出了 Gemini 2.5 Flash,这是一款重要升级的 AI 产品,赋予企业和开发人员前所未有的掌控权,可以指定 AI 执行“思考”过程的程度。该新模型已通过 Google AI Studio 和 Vertex AI

Google 今天推出了 Gemini 2.5 Flash,这是一款重要升级的 AI 产品,赋予企业和开发人员前所未有的掌控权,可以指定 AI 执行“思考”过程的程度。该新模型已通过 Google AI Studio 和 Vertex AI 以预览版形式发布,代表了 Google 在竞争愈发激烈的 AI 市场中,一边提升推理能力、一边保持具有竞争力的定价策略的战略努力。blv喜好网-记录每日喜好的科技时尚娱乐生活

该模型引入了 Google 所称的“思考预算”,这是一种机制,允许开发人员设定在生成回答前,分配多少计算资源用于处理复杂问题的推理。其做法旨在解决当前 AI 市场中的根本性矛盾:更高级的推理通常会带来更高的延迟和费用。blv喜好网-记录每日喜好的科技时尚娱乐生活

Google DeepMind Gemini 模型产品总监 Tulsee Doshi 在接受 VentureBeat 独家采访时表示:“我们知道成本和延迟对于许多开发人员的用例来说至关重要,因此我们希望为开发人员提供灵活性,可根据他们的需求调节模型的思考幅度。”blv喜好网-记录每日喜好的科技时尚娱乐生活

这种灵活性展现了 Google 在 AI 部署方面的务实方法,因为该技术正日益嵌入那些对成本可预测性要求极高的企业应用中。通过允许关闭或开启思考功能,Google 创造了其所谓的“首个完全混合推理模型”。blv喜好网-记录每日喜好的科技时尚娱乐生活

付费只为您所需的“脑力”:Google 新 AI 定价模型解析blv喜好网-记录每日喜好的科技时尚娱乐生活

新的定价结构突显了当前 AI 系统中推理的成本。在使用 Gemini 2.5 Flash 时,开发人员对于输入 Token 的费用为每百万 Token 0.15 美元。而输出费用则根据推理设置大幅变化:若关闭思考,则为每百万 Token 0.60 美元;若启用推理,则跳升至每百万 Token 3.50 美元。blv喜好网-记录每日喜好的科技时尚娱乐生活

这一近 6 倍的费用差异反映了“思考”过程计算负载之高,该过程中模型在生成回答前会评估多种可能性和考量因素。blv喜好网-记录每日喜好的科技时尚娱乐生活

Doshi 告诉 VentureBeat:“客户为模型所生成的任何思考和输出 Token 付费。在 AI Studio 的用户体验界面中,你可以在得到回答前看到这些思考过程。在 API 中,目前我们不提供查看思考过程的功能,但开发者可以看到生成的 Token 数量。”blv喜好网-记录每日喜好的科技时尚娱乐生活

思考预算可以在 0 至 24,576 Token 之间调整,其作用是作为上限而非固定分配。Google 表示,该模型会根据任务的复杂性智能决定使用多少预算,在不需要复杂推理时可节省资源。blv喜好网-记录每日喜好的科技时尚娱乐生活

Gemini 2.5 Flash 的表现如何:与领先 AI 模型的基准测试结果对比blv喜好网-记录每日喜好的科技时尚娱乐生活

Google 称,Gemini 2.5 Flash 在主要基准测试中展现了具有竞争力的表现,而且其模型规模比其他方案更小。在 Humanity’s Last Exam——一项旨在评估推理和知识的严格测试中,2.5 Flash 得分为 12.1%,表现超过 Anthropic 的 Claude 3.7 Sonnet(8.9%)和 DeepSeek R1(8.6%),尽管略逊于 OpenAI 最近推出的 o4-mini(14.3%)。blv喜好网-记录每日喜好的科技时尚娱乐生活

该模型在诸如 GPQA diamond(78.3%)和 AIME 数学考试(2025 年测试成绩 78.0%,2024 年测试成绩 88.0%)等技术基准测试上也取得了强劲成绩。blv喜好网-记录每日喜好的科技时尚娱乐生活

Doshi 表示:“企业应选择 2.5 Flash,因为它在成本和速度上提供了最优性价比。它在数学、多模态推理、长上下文处理等多个关键指标上相对于竞争对手表现尤为突出。”blv喜好网-记录每日喜好的科技时尚娱乐生活

业界分析师指出,这些基准测试结果表明 Google 正在缩小与竞争对手之间的性能差距,同时保持定价优势——这一策略可能会受到那些关注 AI 预算的企业客户的青睐。blv喜好网-记录每日喜好的科技时尚娱乐生活

智能与迅捷:何时需要让您的 AI 深度思考?blv喜好网-记录每日喜好的科技时尚娱乐生活

可调节的推理功能代表了企业部署 AI 模型的一大进化。传统模型往往让用户对模型内部的推理过程几乎毫无可见性或控制权。blv喜好网-记录每日喜好的科技时尚娱乐生活

Google 的方法允许开发人员针对不同场景进行优化。对于诸如语言翻译或基础信息检索等简单查询,可以通过禁用思考来实现最大成本效益;而对于需要多步推理的复杂任务,如数学问题求解或细致分析,则可以启用并细化思考功能。blv喜好网-记录每日喜好的科技时尚娱乐生活

一个关键的创新点在于该模型能够根据查询内容自动判断适当的推理深度。Google 举例说明:一个简单问题比如“加拿大有几个省?”只需极少量推理,而关于梁应力计算的复杂工程问题则会自动调用更深层次的思考过程。blv喜好网-记录每日喜好的科技时尚娱乐生活

Doshi 介绍说:“将思考功能整合到我们主线 Gemini 模型中,再加上全面的改进,使得答案质量得以提升。这些改进在包括评估事实性指标的 SimpleQA 在内的学术基准测试中均有体现。”blv喜好网-记录每日喜好的科技时尚娱乐生活

Google 的 AI 周:免费学生使用权和视频生成功能伴随 2.5 Flash 同步发布blv喜好网-记录每日喜好的科技时尚娱乐生活

Gemini 2.5 Flash 的发布正值 Google 在 AI 领域采取多项激进举措的一周内。周一,Google 向 Gemini Advanced 用户推出了 Veo 2 视频生成功能,允许用户将文本提示转换为八秒的视频剪辑。今天,在发布 2.5 Flash 的同时,Google 宣布所有美国大学生将获得免费使用 Gemini Advanced 的权利,直至 2026 年春季——分析师将此举视为围绕未来知识工作者建立忠诚度的努力。blv喜好网-记录每日喜好的科技时尚娱乐生活

这些公告反映了 Google 的多管齐下策略,以期在由 OpenAI 的 ChatGPT 主导的市场中竞争。据第三方分析,ChatGPT 每周活跃用户超过 8 亿,而 Gemini 估计月活跃用户约为 2.5 到 2.75 亿。blv喜好网-记录每日喜好的科技时尚娱乐生活

凭借对成本效率和性能自定义的明确关注,2.5 Flash 模型似乎专为那些需要精细管理 AI 部署成本同时又要求高端能力的企业客户而设计。blv喜好网-记录每日喜好的科技时尚娱乐生活

Doshi 表示:“我们非常期待开发人员就他们基于 Gemini Flash 2.5 构建的应用以及如何使用思考预算提供反馈。”blv喜好网-记录每日喜好的科技时尚娱乐生活

预览之外:Gemini 2.5 Flash 成熟后企业可期望的功能blv喜好网-记录每日喜好的科技时尚娱乐生活

尽管此次发布处于预览阶段,该模型已供开发人员开始构建应用使用,但 Google 尚未明确何时普遍可用。公司表示将根据开发者在预览阶段的反馈,继续完善这项动态的思考能力。blv喜好网-记录每日喜好的科技时尚娱乐生活

对于企业 AI 用户来说,此次发布提供了试验更细致 AI 部署方式的机会,有可能在高风险任务上配置更多计算资源,同时在常规应用中节约成本。blv喜好网-记录每日喜好的科技时尚娱乐生活

该模型也通过 Gemini 应用面向消费者提供,在模型下拉选单中显示为“2.5 Flash (Experimental)”,取代了之前的 2.0 Thinking (Experimental) 选项。这种面向消费者的部署表明,Google 正借助应用生态系统收集关于其推理架构的更广泛反馈。blv喜好网-记录每日喜好的科技时尚娱乐生活

随着 AI 越来越深入地嵌入企业工作流程中,Google 采用可自定义推理的方式反映了一个日趋成熟的市场,在该市场中成本优化和性能调优的重要性正逐步与原始能力并驾齐驱——这预示着生成式 AI 技术商业化的新阶段。blv喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
外媒:英伟达新款Blackwell AI芯片面临过热问题,或致数据中心部署延期

外媒:英伟达新款Blackwell AI芯片

11月1

11-19 60阅读
《无限暖暖》12月5日全球公测

《无限暖暖》12月5日全球公测

11-19 63阅读
李子柒:反商业化「顶流」

李子柒:反商业化「顶流」

沉寂1

11-19 60阅读
轻云鲸裕完成数千万元的Pre-A轮融资

轻云鲸裕完成数千万元的Pre-A轮

近期,

11-19 59阅读
马斯克新官上任再起诉OpenAI!新证据称Ilya七年前就不放心奥特曼了

马斯克新官上任再起诉OpenAI!新证

文章来源:量子位图片来源:由无界AI

11-19 64阅读
“骗”来30+喜剧人,《大话大话西游》好一场内容共创|Talk专访蒋龙

“骗”来30+喜剧人,《大话大

作者 / 张   特采访、编辑 / 朱 

11-19 62阅读
《假日暖洋洋》姚晨与小11岁白宇演 姐弟恋 ,别说,还真甜(假日暖洋洋姚晨与小11岁白宇演)

《假日暖洋洋》姚晨与小11

有生之年,欣喜相逢。 我是温暖,欢迎

11-19 61阅读
《令人心动的offer6》:职综天花板如何让英雄主义落地现实

《令人心动的offer6》:职综

  《令人心动的offer》第六季以豆瓣

11-19 59阅读
《老舅》官宣开机,郭京飞、王佳佳领衔主演,重绘时代浪潮下的经典温暖记忆

《老舅》官宣开机,郭京飞、

  11月14日,由腾讯视频、鸣涧影业出

11-19 55阅读
吐槽黄焖鸡不要点的博主被禁言:自称不是骑手 作品都是段子

吐槽黄焖鸡不要点的博主被

11月19日消息,据

11-19 64阅读
真人互动恋爱影游《欢迎光临!心动咖啡厅》Steam页面开放 发行日期待定

真人互动恋爱影游《欢迎光

今日(11月16日),真人互动恋爱影游《欢迎

11-19 63阅读
《最终幻想7》重制版最终章剧情已敲定 已开始制作

《最终幻想7》重制版最终

在韩国举行的G-STAR讨论会上,《最终幻

11-19 62阅读
小小突击队礼包码,小小突击队周年礼包码2023.9

小小突击队礼包码,小小突击

小小突击队礼包码来啦!这次为大家带来的

11-19 59阅读
原神沙脂蛹怎么获得?原神沙脂蛹采集地点一览

原神沙脂蛹怎么获得?原神

沙脂蛹是原神游戏中须弥地区的特产之一

11-19 61阅读
原神终将到来的花神诞祭任务流程|终将到来的花神诞祭任务攻略

原神终将到来的花神诞祭任

终将到来的花神诞祭是原神须弥地区魔神

11-19 78阅读