一个新的、具有挑战性的 AGI 测试让大多数 AI 模型难以应对

1个月前 科技 12观看
摘要 知名 AI 研究员 Francois Chollet 共同创立的非营利组织 Arc Prize Foundation 在周一的一篇博文中宣布,他们创建了一个新的、具有挑战性的测试,用于衡量领先 AI 模型的通用智能水平。到目前为

知名 AI 研究员 Francois Chollet 共同创立的非营利组织 Arc Prize Foundation 在周一的一篇博文中宣布,他们创建了一个新的、具有挑战性的测试,用于衡量领先 AI 模型的通用智能水平。KmL喜好网-记录每日喜好的科技时尚娱乐生活

到目前为止,这个名为 ARC-AGI-2 的新测试让大多数模型都难以应对。KmL喜好网-记录每日喜好的科技时尚娱乐生活

根据 Arc Prize 排行榜显示,像 OpenAI 的 o1-pro 和 DeepSeek 的 R1 这样的"推理型" AI 模型在 ARC-AGI-2 上的得分在 1% 到 1.3% 之间。包括 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Flash 在内的强大非推理模型的得分约为 1%。KmL喜好网-记录每日喜好的科技时尚娱乐生活

ARC-AGI 测试由类似谜题的问题组成,AI 需要从不同颜色方块的集合中识别视觉模式,并生成正确的"答案"网格。这些问题的设计目的是迫使 AI 适应它之前从未见过的新问题。KmL喜好网-记录每日喜好的科技时尚娱乐生活

Arc Prize Foundation 让超过 400 人参加了 ARC-AGI-2 测试,以建立人类基准。平均而言,这些人组成的"小组"在测试题目中的正确率达到 60% —— 远远超过任何模型的得分。KmL喜好网-记录每日喜好的科技时尚娱乐生活

在 X 平台上的一篇帖子中,Chollet 声称 ARC-AGI-2 比第一代测试 ARC-AGI-1 能更好地衡量 AI 模型的实际智能水平。Arc Prize Foundation 的测试旨在评估 AI 系统是否能在其训练数据之外高效地获取新技能。KmL喜好网-记录每日喜好的科技时尚娱乐生活

Chollet 表示,与 ARC-AGI-1 不同,新测试防止 AI 模型依赖"暴力计算" —— 即大量计算力 —— 来寻找解决方案。Chollet 此前承认这是 ARC-AGI-1 的一个主要缺陷。KmL喜好网-记录每日喜好的科技时尚娱乐生活

为了解决第一个测试的缺陷,ARC-AGI-2 引入了一个新的衡量标准:效率。它还要求模型即时解释模式,而不是依赖记忆。KmL喜好网-记录每日喜好的科技时尚娱乐生活

Arc Prize Foundation 联合创始人 Greg Kamradt 在一篇博文中写道:"智能不仅仅由解决问题或获得高分的能力来定义。获取和部署这些能力的效率是一个关键的、决定性的组成部分。核心问题不仅仅是'AI 能否获得解决任务的技能?',还包括'以什么效率或成本?'"KmL喜好网-记录每日喜好的科技时尚娱乐生活

ARC-AGI-1 在大约五年内都未被超越,直到 2024 年 12 月,OpenAI 发布了其先进的推理模型 o3,该模型超越了所有其他 AI 模型,并在评估中达到了与人类相当的表现。然而,正如我们当时指出的,o3 在 ARC-AGI-1 上的性能提升伴随着高昂的成本。KmL喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 的 o3 模型版本 —— o3 (low) —— 首次在 ARC-AGI-1 上达到新高度,在测试中得分 75.7%,但在 ARC-AGI-2 上每个任务使用 200 美元的计算力只获得了 4% 的可怜得分。KmL喜好网-记录每日喜好的科技时尚娱乐生活

随着科技行业许多人呼吁需要新的、未饱和的基准来衡量 AI 进展,ARC-AGI-2 应运而生。Hugging Face 的联合创始人 Thomas Wolf 最近告诉 TechCrunch,AI 行业缺乏足够的测试来衡量所谓人工通用智能的关键特征,包括创造力。KmL喜好网-记录每日喜好的科技时尚娱乐生活

与新基准一同发布的还有 Arc Prize 2025 竞赛,挑战开发者在每个任务仅花费 0.42 美元的情况下,在 ARC-AGI-2 测试中达到 85% 的准确率。KmL喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
苹果打算明年带来AirTag 2,或与M4 MacBook Air一起发布

苹果打算明年带来AirTag 2,或与M4

在202

11-19 70阅读
中国联通:6G 70%技术与5G重合 将有6大典型应用

中国联通:6G 70%技术与5G重合 将有

时至今日,6

11-19 65阅读
海马体的“中年危机”

海马体的“中年危机”

写真

11-19 69阅读
轻云鲸裕完成数千万元的Pre-A轮融资

轻云鲸裕完成数千万元的Pre-A轮

近期,

11-19 61阅读
打工人,靠新中式按摩“续命”

打工人,靠新中式按摩“续命”

26岁

11-19 70阅读
《永夜星河》三折叠剧情,怎么「折」都有面儿

《永夜星河》三折叠剧情,怎

作者 / 郑容和编辑 / 朱   婷运营

11-19 67阅读
一夜新娘袁昊年龄, 袁昊扮演的秦尚城和花溶在一起了吗

一夜新娘袁昊年龄, 袁昊扮

网剧《一夜新娘》热播,男主袁昊圈

11-19 65阅读
人民日报评代拍乱象, 代拍为何惹众怒?

人民日报评代拍乱象, 代拍

近期除了家暴一词被大家热议,代拍

11-19 70阅读
悬疑探案剧《宋慈韶华录》今日开播,海天一李乃文等实力派助阵

悬疑探案剧《宋慈韶华录》

李乃文的新剧《三大队》还在热播

11-19 61阅读
释彦能:银幕硬汉,反派巅峰——正邪交锋,票房破亿传奇!

释彦能:银幕硬汉,反派巅峰—

  在当今动作电影的舞台上,释彦能以

11-19 64阅读
《永恒天空》正式版同步登陆PC与PS5 主机试玩版发布

《永恒天空》正式版同步登

去年最佳的PC生存游戏之一《永恒天空

11-19 62阅读
原子之心动物谜题答案_动物谜题解谜教程

原子之心动物谜题答案_动

原子之心游戏中玩家会碰到一个动物谜题

11-19 71阅读
饥荒猪皮怎么获得?饥荒猪皮获得方法详细介绍

饥荒猪皮怎么获得?饥荒猪

饥荒猪皮怎么获得?猪皮是饥荒游戏里面的

11-19 67阅读
硬件情报站第156期:AMD锐龙9800X3D黄牛价翻倍 网友14900K送保被拒

硬件情报站第156期:AMD锐龙

11-19 74阅读
饥荒龙心怎么获得?饥荒快速获得龙心的技巧分享

饥荒龙心怎么获得?饥荒快

龙心是饥荒游戏里面的重要材料,可以从龙

11-19 67阅读