DeepMind 声称其最新 AI 工具在数学和科学问题上表现出色

2个月前 科技 16观看
摘要 Google 的 AI R&D 实验室 DeepMind 表示,他们开发了一种新的 AI 系统,用于处理具有 "machine-gradable"(可由机器评分)解决方案的问题。DeepMind 表示,在实验中,该系统名为 AlphaEvolve,可帮助优化

Google 的 AI R&D 实验室 DeepMind 表示,他们开发了一种新的 AI 系统,用于处理具有 "machine-gradable"(可由机器评分)解决方案的问题。ilT喜好网-记录每日喜好的科技时尚娱乐生活

DeepMind 表示,在实验中,该系统名为 AlphaEvolve,可帮助优化 Google 用于训练其 AI 模型的一些基础设施。公司表示,他们正在构建与 AlphaEvolve 交互的用户界面,并计划在可能更大范围推广之前,为部分学者推出早期访问计划。ilT喜好网-记录每日喜好的科技时尚娱乐生活

大多数 AI 模型会产生幻觉。由于其概率架构,这些模型有时会自信地编造信息。实际上,新一代 AI 模型(如 OpenAI 的 o3)比其前辈产生更多幻觉,这也反映了该问题的复杂挑战。ilT喜好网-记录每日喜好的科技时尚娱乐生活

AlphaEvolve 引入了一种巧妙的机制以减少幻觉现象:自动评估系统。该系统利用模型生成、评判并综合出一个问题的可能答案池,同时自动评估和打分以判断答案的准确性。ilT喜好网-记录每日喜好的科技时尚娱乐生活

DeepMind 表示,AlphaEvolve 系统的设计目标是供领域专家使用。ilT喜好网-记录每日喜好的科技时尚娱乐生活

AlphaEvolve 并不是第一个采用这种方法的系统。包括几年前 DeepMind 团队在内的研究人员,曾在数学各领域中应用过类似技术。但 DeepMind 声称,AlphaEvolve 所使用的 "state-of-the-art"(最先进)模型——特别是 Gemini 模型——使其相比以前的 AI 系统具有显著更强的能力。ilT喜好网-记录每日喜好的科技时尚娱乐生活

要使用 AlphaEvolve,用户必须向系统输入一个问题,并可选地附上说明、方程、代码片段以及相关文献等详细信息。用户还需要提供一种以公式形式自动评估系统答案的机制。ilT喜好网-记录每日喜好的科技时尚娱乐生活

由于 AlphaEvolve 只能解决其自身能进行评估的问题,该系统仅适用于某些类型的问题——特别是计算机科学和系统优化等领域的问题。另一项主要限制是,AlphaEvolve 只能以算法形式描述解决方案,这使得它对于非数值类问题的适用性较差。ilT喜好网-记录每日喜好的科技时尚娱乐生活

为了对 AlphaEvolve 进行基准测试,DeepMind 让该系统尝试了一组精挑细选的约 50 道数学题,涵盖从几何到组合数学等多个分支。DeepMind 声称,AlphaEvolve 在 75% 的情况下能够“重新发现”这些问题的最佳解答,并在 20% 的案例中找到改进方案。ilT喜好网-记录每日喜好的科技时尚娱乐生活

DeepMind 还将 AlphaEvolve 应用于实际问题,如提高 Google 数据中心的效率及加速模型训练。根据该实验室的数据,AlphaEvolve 生成的一种算法平均可持续回收 Google 全球计算资源的 0.7%。该系统还提出了一项优化措施,将 Google 训练 Gemini 模型的总体时间缩短了 1%。ilT喜好网-记录每日喜好的科技时尚娱乐生活

需要明确的是,AlphaEvolve 并没有带来突破性的发现。在一次实验中,该系统成功找到了优化 Google TPU AI 加速器芯片设计的改进方案——这一问题此前已被其他工具指出。ilT喜好网-记录每日喜好的科技时尚娱乐生活

然而,DeepMind 与许多 AI 实验室一样,主张 AlphaEvolve 能够节省时间,从而释放专家去关注其他更为重要的工作。ilT喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
比亚迪造出的第一款实车“316”亮相,王传福称第二天就砍掉了

比亚迪造出的第一款实车“316”

11 月

11-19 123阅读
小米手机快速占领高端:4000-6000元份额大涨

小米手机快速占领高端:4000-6000

11月18日

11-19 106阅读
2025款宝骏悦也Plus发布:配备灵眸智驾2.0 Max,定价10.38万

2025款宝骏悦也Plus发布:配备灵眸

11-19 114阅读
93亿并购,“弟弟”成了“爹”

93亿并购,“弟弟”成了“爹”

11月1

11-19 108阅读
OpenAI“杀死”在线教育巨头

OpenAI“杀死”在线教育巨头

文章来源:智东西图片来源:由无界AI

11-19 138阅读
Netflix,振奋时刻下的暗潮

Netflix,振奋时刻下的暗潮

作者 / 向   向运营 / 狮子座和202

11-19 106阅读
《号手就位》主角为什么都选择入伍,最后他们如何了?

《号手就位》主角为什么都

《号手就位》是中国首部火箭军题

11-19 112阅读
《山河之影》是耽改吗?谢铿然最后是不是下线了?

《山河之影》是耽改吗?谢铿

电视剧《山河之影》是你根据同名

11-19 110阅读
琼瑶 与诗经《木瓜》的不解之缘(与诗经木瓜的不解之缘)

琼瑶 与诗经《木瓜》的不

投我以木瓜,报之以琼琚。匪报也,永以

11-19 106阅读
飞行员徐枫灿便装吃饭被认出求合影!邻家妹妹穿军装又美又飒

飞行员徐枫灿便装吃饭被认

17日,第十五届中国航展在珠海闭幕。上

11-19 130阅读
Steam传播仇恨指控引人质疑:青蛙表情包占一半以上

Steam传播仇恨指控引人质

在海外的许多网友都喜欢用一个名为“P

11-19 128阅读
城市天际线秘籍代码及使用方法详细介绍

城市天际线秘籍代码及使用

《城市:天际线》是以建造和管理城市为题

11-19 104阅读
大掌门2最强阵容_大掌门2最新最强阵容

大掌门2最强阵容_大掌门2

大掌门2是一款以武侠为背景的RPG动作手

11-19 126阅读
原子之心芭蕾舞者谜题攻略_芭蕾舞者舞姿调整攻略

原子之心芭蕾舞者谜题攻略

原子之心游戏里面玩家会在剧院中碰到一

11-19 118阅读
原神终将到来的花神诞祭任务流程|终将到来的花神诞祭任务攻略

原神终将到来的花神诞祭任

终将到来的花神诞祭是原神须弥地区魔神

11-19 154阅读