一个新的、具有挑战性的 AGI 测试让大多数 AI 模型难以应对

4个月前 科技 29观看
摘要 知名 AI 研究员 Francois Chollet 共同创立的非营利组织 Arc Prize Foundation 在周一的一篇博文中宣布,他们创建了一个新的、具有挑战性的测试,用于衡量领先 AI 模型的通用智能水平。到目前为

知名 AI 研究员 Francois Chollet 共同创立的非营利组织 Arc Prize Foundation 在周一的一篇博文中宣布,他们创建了一个新的、具有挑战性的测试,用于衡量领先 AI 模型的通用智能水平。7CH喜好网-记录每日喜好的科技时尚娱乐生活

到目前为止,这个名为 ARC-AGI-2 的新测试让大多数模型都难以应对。7CH喜好网-记录每日喜好的科技时尚娱乐生活

根据 Arc Prize 排行榜显示,像 OpenAI 的 o1-pro 和 DeepSeek 的 R1 这样的"推理型" AI 模型在 ARC-AGI-2 上的得分在 1% 到 1.3% 之间。包括 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Flash 在内的强大非推理模型的得分约为 1%。7CH喜好网-记录每日喜好的科技时尚娱乐生活

ARC-AGI 测试由类似谜题的问题组成,AI 需要从不同颜色方块的集合中识别视觉模式,并生成正确的"答案"网格。这些问题的设计目的是迫使 AI 适应它之前从未见过的新问题。7CH喜好网-记录每日喜好的科技时尚娱乐生活

Arc Prize Foundation 让超过 400 人参加了 ARC-AGI-2 测试,以建立人类基准。平均而言,这些人组成的"小组"在测试题目中的正确率达到 60% —— 远远超过任何模型的得分。7CH喜好网-记录每日喜好的科技时尚娱乐生活

在 X 平台上的一篇帖子中,Chollet 声称 ARC-AGI-2 比第一代测试 ARC-AGI-1 能更好地衡量 AI 模型的实际智能水平。Arc Prize Foundation 的测试旨在评估 AI 系统是否能在其训练数据之外高效地获取新技能。7CH喜好网-记录每日喜好的科技时尚娱乐生活

Chollet 表示,与 ARC-AGI-1 不同,新测试防止 AI 模型依赖"暴力计算" —— 即大量计算力 —— 来寻找解决方案。Chollet 此前承认这是 ARC-AGI-1 的一个主要缺陷。7CH喜好网-记录每日喜好的科技时尚娱乐生活

为了解决第一个测试的缺陷,ARC-AGI-2 引入了一个新的衡量标准:效率。它还要求模型即时解释模式,而不是依赖记忆。7CH喜好网-记录每日喜好的科技时尚娱乐生活

Arc Prize Foundation 联合创始人 Greg Kamradt 在一篇博文中写道:"智能不仅仅由解决问题或获得高分的能力来定义。获取和部署这些能力的效率是一个关键的、决定性的组成部分。核心问题不仅仅是'AI 能否获得解决任务的技能?',还包括'以什么效率或成本?'"7CH喜好网-记录每日喜好的科技时尚娱乐生活

ARC-AGI-1 在大约五年内都未被超越,直到 2024 年 12 月,OpenAI 发布了其先进的推理模型 o3,该模型超越了所有其他 AI 模型,并在评估中达到了与人类相当的表现。然而,正如我们当时指出的,o3 在 ARC-AGI-1 上的性能提升伴随着高昂的成本。7CH喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 的 o3 模型版本 —— o3 (low) —— 首次在 ARC-AGI-1 上达到新高度,在测试中得分 75.7%,但在 ARC-AGI-2 上每个任务使用 200 美元的计算力只获得了 4% 的可怜得分。7CH喜好网-记录每日喜好的科技时尚娱乐生活

随着科技行业许多人呼吁需要新的、未饱和的基准来衡量 AI 进展,ARC-AGI-2 应运而生。Hugging Face 的联合创始人 Thomas Wolf 最近告诉 TechCrunch,AI 行业缺乏足够的测试来衡量所谓人工通用智能的关键特征,包括创造力。7CH喜好网-记录每日喜好的科技时尚娱乐生活

与新基准一同发布的还有 Arc Prize 2025 竞赛,挑战开发者在每个任务仅花费 0.42 美元的情况下,在 ARC-AGI-2 测试中达到 85% 的准确率。7CH喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
小杨哥缺席,抖音还能玩转双11吗?

小杨哥缺席,抖音还能玩转双11吗?

采写/尹冰雪‍编辑/万天南“

11-19 127阅读
谷歌搜索涉嫌垄断:Chrome浏览器将被勒令出售

谷歌搜索涉嫌垄断:Chrome浏览器将

11月19日

11-19 125阅读
华为Mate 70已经到店:数量有限 抢到赚到

华为Mate 70已经到店:数量有限 抢

11月19日

11-19 133阅读
SVM频闪指标低的旗舰!iQOO Neo10系列屏幕参数出炉

SVM频闪指标低的旗舰!iQOO Neo10

11月18日

11-19 116阅读
小米汽车发布智能底盘预研技术,实现多种高难度动作‌

小米汽车发布智能底盘预研技术,实

11-19 104阅读
毛不易李雪琴:《毛雪汪》录了三年一百期,不白干不白干!|Talk独家探班

毛不易李雪琴:《毛雪汪》录

作者 / 朱   婷运营 / 狮子座“今

11-19 122阅读
“嫖娼门”王全安:前任个个赛西施,花800元睡站台女,终遭报应

“嫖娼门”王全安:前任个个

11-19 108阅读
安倍遇刺事件的态度问题(安倍遇刺事件的态度问题)

安倍遇刺事件的态度问题(安

安倍遇刺事件的态度问题 刘明

11-19 109阅读
莎拉波娃涉嫌欺诈? 网球巨星竟有这样的污点究竟是怎么回事

莎拉波娃涉嫌欺诈? 网球巨

如果是非常关注体育界的话,莎拉波

11-19 105阅读
翻转!劳斯莱斯车主已走保险理赔 货车司机面临10万修理费:律师解读

翻转!劳斯莱斯车主已走保险

11月15日消息,近

11-19 105阅读
万代魂系高端钢普拉大展 解体匠机第三弹高达Mk-II再参展

万代魂系高端钢普拉大展

万代高端模玩魂系列展会《TAMASHII NA

11-19 122阅读
三国群英传2秘籍大全_三国群英传2秘籍代码一览

三国群英传2秘籍大全_三国

相信熟悉三国群英传系列游戏的朋友都不

11-19 137阅读
ePSXe模拟器安卓版怎么导入游戏?ePSXe模拟器安卓版导入游戏教程

ePSXe模拟器安卓版怎么导

ePSXe模拟器安卓版是一款非常棒的可以

11-19 166阅读
原神沙脂蛹怎么获得?原神沙脂蛹采集地点一览

原神沙脂蛹怎么获得?原神

沙脂蛹是原神游戏中须弥地区的特产之一

11-19 121阅读
原神大走廊的尽头隐藏成就|大走廊的尽头任务攻略

原神大走廊的尽头隐藏成就

大走廊的尽头是原神须弥沙漠地区的隐藏

11-19 131阅读