Google 的 Gemini 2.5 Flash 推出 “思考预算” 调低时可降低 AI 成本 600%-喜好网-记录每日喜好的科技时尚娱乐生活

Google 的 Gemini 2.5 Flash 推出 “思考预算” 调低时可降低 AI 成本 600%

3个月前科技 23观看

摘要 Google 今天推出了 Gemini 2.5 Flash，这是一款重要升级的 AI 产品，赋予企业和开发人员前所未有的掌控权，可以指定 AI 执行“思考”过程的程度。该新模型已通过 Google AI Studio 和 Vertex AI

Google 今天推出了 Gemini 2.5 Flash，这是一款重要升级的 AI 产品，赋予企业和开发人员前所未有的掌控权，可以指定 AI 执行“思考”过程的程度。该新模型已通过 Google AI Studio 和 Vertex AI 以预览版形式发布，代表了 Google 在竞争愈发激烈的 AI 市场中，一边提升推理能力、一边保持具有竞争力的定价策略的战略努力。

该模型引入了 Google 所称的“思考预算”，这是一种机制，允许开发人员设定在生成回答前，分配多少计算资源用于处理复杂问题的推理。其做法旨在解决当前 AI 市场中的根本性矛盾：更高级的推理通常会带来更高的延迟和费用。

Google DeepMind Gemini 模型产品总监 Tulsee Doshi 在接受 VentureBeat 独家采访时表示：“我们知道成本和延迟对于许多开发人员的用例来说至关重要，因此我们希望为开发人员提供灵活性，可根据他们的需求调节模型的思考幅度。”

这种灵活性展现了 Google 在 AI 部署方面的务实方法，因为该技术正日益嵌入那些对成本可预测性要求极高的企业应用中。通过允许关闭或开启思考功能，Google 创造了其所谓的“首个完全混合推理模型”。

付费只为您所需的“脑力”：Google 新 AI 定价模型解析

新的定价结构突显了当前 AI 系统中推理的成本。在使用 Gemini 2.5 Flash 时，开发人员对于输入 Token 的费用为每百万 Token 0.15 美元。而输出费用则根据推理设置大幅变化：若关闭思考，则为每百万 Token 0.60 美元；若启用推理，则跳升至每百万 Token 3.50 美元。

这一近 6 倍的费用差异反映了“思考”过程计算负载之高，该过程中模型在生成回答前会评估多种可能性和考量因素。

Doshi 告诉 VentureBeat：“客户为模型所生成的任何思考和输出 Token 付费。在 AI Studio 的用户体验界面中，你可以在得到回答前看到这些思考过程。在 API 中，目前我们不提供查看思考过程的功能，但开发者可以看到生成的 Token 数量。”

思考预算可以在 0 至 24,576 Token 之间调整，其作用是作为上限而非固定分配。Google 表示，该模型会根据任务的复杂性智能决定使用多少预算，在不需要复杂推理时可节省资源。

Gemini 2.5 Flash 的表现如何：与领先 AI 模型的基准测试结果对比

Google 称，Gemini 2.5 Flash 在主要基准测试中展现了具有竞争力的表现，而且其模型规模比其他方案更小。在 Humanity’s Last Exam——一项旨在评估推理和知识的严格测试中，2.5 Flash 得分为 12.1%，表现超过 Anthropic 的 Claude 3.7 Sonnet（8.9%）和 DeepSeek R1（8.6%），尽管略逊于 OpenAI 最近推出的 o4-mini（14.3%）。

该模型在诸如 GPQA diamond（78.3%）和 AIME 数学考试（2025 年测试成绩 78.0%，2024 年测试成绩 88.0%）等技术基准测试上也取得了强劲成绩。

Doshi 表示：“企业应选择 2.5 Flash，因为它在成本和速度上提供了最优性价比。它在数学、多模态推理、长上下文处理等多个关键指标上相对于竞争对手表现尤为突出。”

业界分析师指出，这些基准测试结果表明 Google 正在缩小与竞争对手之间的性能差距，同时保持定价优势——这一策略可能会受到那些关注 AI 预算的企业客户的青睐。

智能与迅捷：何时需要让您的 AI 深度思考？

可调节的推理功能代表了企业部署 AI 模型的一大进化。传统模型往往让用户对模型内部的推理过程几乎毫无可见性或控制权。

Google 的方法允许开发人员针对不同场景进行优化。对于诸如语言翻译或基础信息检索等简单查询，可以通过禁用思考来实现最大成本效益；而对于需要多步推理的复杂任务，如数学问题求解或细致分析，则可以启用并细化思考功能。

一个关键的创新点在于该模型能够根据查询内容自动判断适当的推理深度。Google 举例说明：一个简单问题比如“加拿大有几个省？”只需极少量推理，而关于梁应力计算的复杂工程问题则会自动调用更深层次的思考过程。

Doshi 介绍说：“将思考功能整合到我们主线 Gemini 模型中，再加上全面的改进，使得答案质量得以提升。这些改进在包括评估事实性指标的 SimpleQA 在内的学术基准测试中均有体现。”

Google 的 AI 周：免费学生使用权和视频生成功能伴随 2.5 Flash 同步发布

Gemini 2.5 Flash 的发布正值 Google 在 AI 领域采取多项激进举措的一周内。周一，Google 向 Gemini Advanced 用户推出了 Veo 2 视频生成功能，允许用户将文本提示转换为八秒的视频剪辑。今天，在发布 2.5 Flash 的同时，Google 宣布所有美国大学生将获得免费使用 Gemini Advanced 的权利，直至 2026 年春季——分析师将此举视为围绕未来知识工作者建立忠诚度的努力。

这些公告反映了 Google 的多管齐下策略，以期在由 OpenAI 的 ChatGPT 主导的市场中竞争。据第三方分析，ChatGPT 每周活跃用户超过 8 亿，而 Gemini 估计月活跃用户约为 2.5 到 2.75 亿。

凭借对成本效率和性能自定义的明确关注，2.5 Flash 模型似乎专为那些需要精细管理 AI 部署成本同时又要求高端能力的企业客户而设计。

Doshi 表示：“我们非常期待开发人员就他们基于 Gemini Flash 2.5 构建的应用以及如何使用思考预算提供反馈。”

预览之外：Gemini 2.5 Flash 成熟后企业可期望的功能

尽管此次发布处于预览阶段，该模型已供开发人员开始构建应用使用，但 Google 尚未明确何时普遍可用。公司表示将根据开发者在预览阶段的反馈，继续完善这项动态的思考能力。

对于企业 AI 用户来说，此次发布提供了试验更细致 AI 部署方式的机会，有可能在高风险任务上配置更多计算资源，同时在常规应用中节约成本。

该模型也通过 Gemini 应用面向消费者提供，在模型下拉选单中显示为“2.5 Flash (Experimental)”，取代了之前的 2.0 Thinking (Experimental) 选项。这种面向消费者的部署表明，Google 正借助应用生态系统收集关于其推理架构的更广泛反馈。

随着 AI 越来越深入地嵌入企业工作流程中，Google 采用可自定义推理的方式反映了一个日趋成熟的市场，在该市场中成本优化和性能调优的重要性正逐步与原始能力并驾齐驱——这预示着生成式 AI 技术商业化的新阶段。

展开全文

猜你感兴趣