Gemini 2.5 Pro 问世:提供更强大的性能和更出色的体验

1个月前 科技 8观看
摘要 继几个月前发布首个 Gemini 2.0 AI 模型后,Google 又推出了全新升级。该公司称新的 Gemini 2.5 Pro Experimental 是其"最智能"的模型,具有超大的上下文窗口、多模态能力和推理能力。Google 展

继几个月前发布首个 Gemini 2.0 AI 模型后,Google 又推出了全新升级。该公司称新的 Gemini 2.5 Pro Experimental 是其"最智能"的模型,具有超大的上下文窗口、多模态能力和推理能力。Google 展示了一系列基准测试,显示新版 Gemini 远超其他大语言模型 (LLM),我们的测试也证实了这一点——Gemini 2.5 Pro 是我们见过的最令人印象深刻的生成式 AI 模型之一。DD2喜好网-记录每日喜好的科技时尚娱乐生活

与 Google 未来所有的模型一样,Gemini 2.5 内置推理功能。AI 在生成输出的过程中会对自身进行事实核查。我们称之为"模拟推理",因为目前没有证据表明这个过程类似于人类推理。不过,这确实能大幅提升 LLM 的输出质量。Google 特别提到模型的"主动性"编程能力得益于这一过程。例如,Gemini 2.5 Pro Experimental 可以通过单个提示生成一个完整的可运行视频游戏。我们已经测试过这个功能,在公开版本中确实可用。DD2喜好网-记录每日喜好的科技时尚娱乐生活

Google 对 Gemini 2.5 Pro 做出了诸多描述:更智能、更懂上下文、会思考—但很难量化生成式 AI 机器人的提升程度。不过,有一些明显的技术优势。Gemini 2.5 Pro 具有 100 万 token 的上下文窗口,这对 Gemini 大模型来说很常见,但相比 OpenAI GPT 或 Anthropic Claude 等竞争模型要大得多。你可以在单个提示中向 Gemini 2.5 Pro 输入多本很长的书,输出最多可达 64,000 个 token。这与 Flash 2.0 相同,但与其他 LLM 相比仍然是相当大的 token 数量。DD2喜好网-记录每日喜好的科技时尚娱乐生活

当然,Google 已经对 Gemini 2.5 Experimental 进行了一系列基准测试,结果略高于其他 AI 系统。例如,在衡量 AI 回答科学和数学复杂问题能力的 GPQA 和 AIME 2025 测试中,它略胜于 OpenAI 的 o3-mini。在由领域专家策划的 3,000 个问题组成的"人类最后考试"基准测试中,它也创造了新纪录,Google 新 AI 的得分为 18.8%,而 OpenAI 为 14%。DD2喜好网-记录每日喜好的科技时尚娱乐生活

这些试图客观衡量 AI 能力的方法效果如何还不清楚。有时,主观评估可能更有帮助——可以称之为"氛围评分"。Google 的新 AI 已经位居 LMSYS Chatbot 竞技场排行榜榜首,这是一个值得注意的成就。这表明用户普遍更喜欢 Gemini 2.5 Pro Experimental 的输出,而不是 OpenAI o3-mini、Grok、DeepSeek 等产品的输出。DD2喜好网-记录每日喜好的科技时尚娱乐生活

即时 AI 升级DD2喜好网-记录每日喜好的科技时尚娱乐生活

在使用 Gemini 2.5 Pro Experimental 时,我们也感受到了良好的体验。我们向 Gemini 2.5 提出了一些复杂的任务——这些任务经常让 2.0 模型感到困惑——升级后的 AI 处理得更好。编程、数学和科学问题的表现也比之前版本的 Gemini 更好。DD2喜好网-记录每日喜好的科技时尚娱乐生活

Google 的新专业模型速度也非常快。它仍然像其他模型一样逐个输出 token,在"推理"过程中得出答案,但整体感觉比最新的 OpenAI 和 Anthropic 模型都要快。Google 拥有大量 AI 计算资源,这里显然得到了很好的利用。这也解释了为什么像 Gemini 2.5 Pro Experimental 这样的 Gemini 模型具有如此大的上下文窗口——在这种情况下,大约是 o3-mini 输入限制的五倍。而这仅仅是开始,Google 表示上下文窗口很快将增加到 200 万个 token。DD2喜好网-记录每日喜好的科技时尚娱乐生活

几个月前发布时,Google 的 2.0 Pro 模型看起来相当令人印象深刻,但那个 AI 已经成为过去。Google 表示,Gemini 2.5 Pro 是 2.0 的直接替代品,拥有 Gemini Advanced 订阅 (每月 20 美元) 的用户都可以在 Google 的各种产品中使用它。新模型现在已在移动应用程序和网页上可用,也可以在 Google 的 AI Studio 中使用。它很快也将在 Vertex AI 中推出。DD2喜好网-记录每日喜好的科技时尚娱乐生活

Google 尚未公布 Gemini 2.5 Pro Experimental 的 API 定价,但目前你能用它做的事情也不多。Google 设置了与旧实验模型相同的每日 50 条消息限制,目前是免费的。不过这种情况将会改变。Google 的 Logan Kilpatrick 在 X (前 Twitter) 上表示,2.5 Pro Experimental 将是第一个具有更高 API 限制和定价的实验模型。具体细节将在稍后公布。DD2喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
消息称抖音正推进“V”项目,包括直播游戏互动、AI 分身功能等

消息称抖音正推进“V”项目,包括

11 月

11-19 71阅读
谷歌搜索涉嫌垄断:Chrome浏览器将被勒令出售

谷歌搜索涉嫌垄断:Chrome浏览器将

11月19日

11-19 67阅读
天玑9400性能之神!iQOO Neo10系列前瞻

天玑9400性能之神!iQOO Neo10系列

今天,iQOO

11-19 65阅读
‌比亚迪天津“迪空间”试营业,预计12月正式开放‌

‌比亚迪天津“迪空间”试营业,预

11-19 66阅读
收到500万份垄断诉讼,谷歌要被拆分?

收到500万份垄断诉讼,谷歌要被拆

谷歌

11-19 67阅读
金鸡奖这一夜,人情冷暖、江湖职位,在王骁身上体现得极尽描摹

金鸡奖这一夜,人情冷暖、江

11-19 72阅读
莎拉波娃涉嫌欺诈? 网球巨星竟有这样的污点究竟是怎么回事

莎拉波娃涉嫌欺诈? 网球巨

如果是非常关注体育界的话,莎拉波

11-19 66阅读
韩钢琴家任奫灿荣膺法国年度金音叉奖

韩钢琴家任奫灿荣膺法国年

韩国钢琴家任奫灿荣获法国权

11-19 64阅读
曝何炅KTV陪大姐喝酒视频,被搂肩一脸不悦,知情者曝真相

曝何炅KTV陪大姐喝酒视频,

11月18日,主持人何炅成为备受热议的对

11-19 66阅读
李子柒被质疑漆器做假,发出过敏照片力证,全身红肿成“电视机”

李子柒被质疑漆器做假,发出

2024年11月12日停更长达三年的李子柒

11-19 72阅读
《彩虹六号:围攻》“COLLISION POINT行动”12月3日推出

《彩虹六号:围攻》“COLLIS

中国,上海– 2024年11月18日 – 今天,

11-19 72阅读
《星空》DLC差评托德后悔:不该太早更新地面载具

《星空》DLC差评托德后悔:

《星空:破碎空间》DLC 发布后,玩家给出

11-19 65阅读
大掌门2最强阵容_大掌门2最新最强阵容

大掌门2最强阵容_大掌门2

大掌门2是一款以武侠为背景的RPG动作手

11-19 67阅读
CE修改器怎么用?使用CE修改器进行游戏修改的详细操作方法分享

CE修改器怎么用?使用CE修

CE修改器怎么用?对于很多游戏玩家来说CE

11-19 71阅读
原子之心3826设施啁啾表全收集攻略

原子之心3826设施啁啾表全

啁啾表是原子之心游戏里面的一个特殊收

11-19 63阅读