Gemini "正在以非常棒的方式融合在一起",谷歌在发布2.5 Pro后表示

4周前 科技 6观看
摘要 尽管谷歌在开发生成式AI的底层技术方面发挥了重要作用,但面对生成式AI突然飙升的兴趣,谷歌却措手不及。这促使该公司重新集中其大量资源来追赶OpenAI。此后,我们看到了细节模糊的Bard和多种版本

尽管谷歌在开发生成式AI的底层技术方面发挥了重要作用,但面对生成式AI突然飙升的兴趣,谷歌却措手不及。这促使该公司重新集中其大量资源来追赶OpenAI。此后,我们看到了细节模糊的Bard和多种版本的多模态Gemini模型。虽然Gemini在基准测试和用户体验方面一直难以取得进展,但随着新的2.5 Pro(实验版)的发布,这种情况可能正在改变。凭借基准测试的巨大提升和良好的"氛围",这可能是第一个能够撼动ChatGPT主导地位的谷歌模型。sMN喜好网-记录每日喜好的科技时尚娱乐生活

我们最近与谷歌Gemini产品管理总监Tulsee Doshi交谈,讨论了Gemini 2.5的发布过程,以及谷歌AI模型未来的发展方向。sMN喜好网-记录每日喜好的科技时尚娱乐生活

## 欢迎来到"氛围"时代sMN喜好网-记录每日喜好的科技时尚娱乐生活

谷歌在构建生成式AI产品方面可能起步较慢,但Gemini团队在最近几个月加快了步伐。该公司在12月发布了Gemini 2.0,显示出相比1.5版本的适度改进。仅用了三个月就达到了2.5版本,这意味着Gemini 2.0 Pro甚至还没有走出实验阶段。据Doshi所说,这是谷歌对Gemini长期投资的结果。sMN喜好网-记录每日喜好的科技时尚娱乐生活

"老实说,很大一部分原因是我们一直在构建的许多组件和基础现在正以非常棒的方式融合在一起," Doshi说。"所以我们感觉能够在这里加快步伐。"sMN喜好网-记录每日喜好的科技时尚娱乐生活

发布新模型的过程涉及测试大量候选模型。根据Doshi的说法,谷歌采用多层次的方法来检查这些模型,首先从基准测试开始。"我们有一套评估体系,包括外部学术基准测试和我们为关心的用例创建的内部评估,"她说。sMN喜好网-记录每日喜好的科技时尚娱乐生活

团队还使用这些测试来改进安全性,正如谷歌在每个可能的场合都会指出的那样,安全性仍然是其开发Gemini的核心部分。Doshi指出,使模型安全并准备好广泛发布涉及对抗性测试和大量的实操时间。sMN喜好网-记录每日喜好的科技时尚娱乐生活

但我们不能忘记"氛围",它已成为AI模型越来越重要的一部分。人们非常关注输出的"氛围"——它们有多吸引人和有用。还有一个新兴趋势叫做"氛围编码",即使用AI提示来构建东西,而不是自己输入代码。对Gemini团队来说,这些概念是相互关联的。团队利用产品和用户反馈来理解输出的"氛围",无论是代码还是只是对问题的回答。sMN喜好网-记录每日喜好的科技时尚娱乐生活

谷歌已多次指出,Gemini 2.5在LM Arena排行榜上名列前茅,这表明使用过该模型的人明显更喜欢其输出——它有着良好的"氛围"。在经历了漫长的攀升之后,Gemini能够处于这样的积极位置无疑是好事,但该领域确实存在一些担忧,即过分强调"氛围"可能会推动我们走向那些让我们感觉良好的模型,而不管输出是否真的好,这种特性被称为"阿谀奉承"。sMN喜好网-记录每日喜好的科技时尚娱乐生活

如果Gemini团队对让人感觉良好的模型有所担忧,他们并没有表现出来。Doshi提到团队专注于代码生成,她指出这可以被优化为"愉悦的体验",而不会助长用户的自我。"我认为'氛围'不是我们试图追求的某种特定性格特征,"Doshi说。sMN喜好网-记录每日喜好的科技时尚娱乐生活

幻觉是生成式AI模型的另一个关注领域。谷歌曾因Gemini和Bard编造内容而经历过许多尴尬的经历,但Gemini团队相信他们走在正确的道路上。Gemini 2.5显然在团队的事实性指标中创下了新高。但幻觉是否能够减少到我们可以完全信任AI的程度?对此没有评论。sMN喜好网-记录每日喜好的科技时尚娱乐生活

## 不要过度思考sMN喜好网-记录每日喜好的科技时尚娱乐生活

使用Gemini 2.5时你可能会注意到的最有趣的事情是,与其他使用模拟推理的模型相比,它非常快。谷歌表示,它正在将这种"思考"能力构建到其所有未来的模型中,这应该会带来改进的输出。2024年大语言模型推理能力的扩展导致这些工具质量的显著提高。但这也使它们变得更加昂贵,加剧了生成式AI已经存在的严重问题。sMN喜好网-记录每日喜好的科技时尚娱乐生活

LLM越大、越复杂,运行成本就越高。谷歌尚未发布其较新模型的参数数量等技术数据——你必须回到1.5版本才能获得这种详细信息。然而,Doshi解释说,Gemini 2.5在规模上并不比谷歌的上一代模型大很多,称其大小与2.0"相当"。sMN喜好网-记录每日喜好的科技时尚娱乐生活

Gemini 2.5在一个关键领域更加高效:思维链。它是谷歌第一个支持名为"动态思考"功能的公开模型,该功能允许模型调节输出所需的推理量。不过,这只是第一步。sMN喜好网-记录每日喜好的科技时尚娱乐生活

"我认为目前,我们发布的2.5 Pro模型对于更简单的提示仍然会过度思考,这是我们希望继续改进的地方,"Doshi说。"所以我们正在投资的一个重要领域是动态思考,作为实现2.5 Pro正式版本的途径,在该版本中,它对更简单的提示会思考得更少。"sMN喜好网-记录每日喜好的科技时尚娱乐生活

谷歌没有单独列出其新AI业务的收益,但我们可以安全地假设目前没有利润可言。还没有人成功地将这些庞大的LLM转变为可行的业务。拥有最大用户群的OpenAI的ChatGPT,即使对于支付200美元Pro计划的用户也在亏损。谷歌计划在2025年在AI基础设施上投资750亿美元,因此充分利用这些非常昂贵的硬件将至关重要。构建不会在"嗨,你好吗?"这样的简单问题上浪费计算周期过度思考的模型可能会有很大帮助。sMN喜好网-记录每日喜好的科技时尚娱乐生活

## 缺失的技术细节sMN喜好网-记录每日喜好的科技时尚娱乐生活

谷歌对Gemini的信息保持谨慎,但2.5 Pro的发布比以往任何时候都提供了更多关于公司计划的见解。然而,要真正理解这个模型,我们需要看到技术报告。谷歌上一次发布这样的文档是针对Gemini 1.5的。我们仍然没有看到2.0版本的报告,现在2.5已经取代了2.0,我们可能永远也看不到那份文档了。sMN喜好网-记录每日喜好的科技时尚娱乐生活

Doshi指出,2.5 Pro仍然是一个实验性模型。因此,不要期望立即看到完整的评估报告。谷歌发言人澄清说,计划对2.5分支进行完整的技术评估报告,但没有确定的时间表。谷歌甚至还没有为Gemini 2.0发布更新的模型卡,更不用说2.5了。这些文档是简短的一页总结,包含模型的训练、预期用途、评估数据等信息。它们本质上是LLM的"营养标签"。虽然比技术报告少了很多细节,但总比没有好。谷歌确认Gemini 2.0和2.5的模型卡正在制作中。sMN喜好网-记录每日喜好的科技时尚娱乐生活

鉴于最近发布速度的加快,Gemini 2.5 Pro可能会在5月的谷歌I/O大会前后更广泛地推出。我们当然希望谷歌在2.5分支扩展时能提供更多细节。随着Gemini开发加速,透明度不应该被搁置一旁。sMN喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
五环外接不住马拉松“泼天富贵”

五环外接不住马拉松“泼天富贵”

11月10日,这个寻常的周末,全国有十

11-19 64阅读
24小时动态血压监测!华为WATCH D2预售:到手价2888元

24小时动态血压监测!华为WATCH D2

11月19日

11-19 63阅读
华为强机皇!Mate 70系列关键信息汇总:外观/性能/影像揭秘

华为强机皇!Mate 70系列关键信息

华为Mate

11-19 60阅读
灵宝 CASBOT 01 人形机器人发布:52自由度,头部配屏,获联想投资

灵宝 CASBOT 01 人形机器人发布:5

11-19 59阅读
打工人,靠新中式按摩“续命”

打工人,靠新中式按摩“续命”

26岁

11-19 66阅读
金鸡奖这一夜,世态炎凉、江湖职位,在王骁身上体现得淋漓尽致

金鸡奖这一夜,世态炎凉、江

11-19 60阅读
烈火军校易柏辰演的谁? 经纪人曝假剧本事件始末起底

烈火军校易柏辰演的谁? 经

前段时间,演员易柏辰方发文称曾被

11-19 62阅读
THE BOYZ金善旴遭私生殴打 警方已经逮捕私生

THE BOYZ金善旴遭私生殴打

  11月14日,据韩媒报道称,男

11-19 58阅读
演员许文广《故乡的泥土》央八开播 首演农民角色获赞好真实

演员许文广《故乡的泥土》

  近日,由原著作者田运章担任总编剧,

11-19 59阅读
琼瑶 与诗经《木瓜》的不解之缘(与诗经木瓜的不解之缘)

琼瑶 与诗经《木瓜》的不

投我以木瓜,报之以琼琚。匪报也,永以

11-19 63阅读
动作射击新作《Kusan: City Of Wolves》公布 2026年发售

动作射击新作《Kusan: Cit

韩国开发商CIRCLEfromDOT与英国发行商

11-19 59阅读
大掌门2最强阵容_大掌门2最新最强阵容

大掌门2最强阵容_大掌门2

大掌门2是一款以武侠为背景的RPG动作手

11-19 62阅读
原神空幻回响的花神诞祭任务全流程一览

原神空幻回响的花神诞祭任

空幻回响的花神诞祭是须弥地区魔神主线

11-19 64阅读
原子之心冰箱在哪?原子之心冰箱位置详细介绍

原子之心冰箱在哪?原子之

原子之心冰箱在哪?原子之心游戏里面那台

11-19 64阅读
双十一巅峰28小时超值硬件优惠盘点:2T PCIe4 SSD 599元 2K/180Hz电竞屏615元

双十一巅峰28小时超值硬件

11-19 64阅读