AI遭遇新挑战:ARC-AGI-2测试成绩惨淡,人类实力碾压AI

1个月前 科技 16观看
摘要 AI遭遇新挑战:ARC-AGI-2测试成绩惨淡,人类实力碾压AI随着人工智能(AI)技术的飞速发展,我们正目睹着AI在各个领域的广泛应用。然而,近期的一项新测试——ARC-AGI-2,却为AI带来了新的挑战。这项由知名人工智能研究

AI遭遇新挑战:ARC-AGI-2测试成绩惨淡,人类实力碾压AIPFm喜好网-记录每日喜好的科技时尚娱乐生活

随着人工智能(AI)技术的飞速发展,我们正目睹着AI在各个领域的广泛应用。然而,近期的一项新测试——ARC-AGI-2,却为AI带来了新的挑战。这项由知名人工智能研究员弗朗索瓦・肖莱(François Chollet)共同创立的非营利组织Arc Prize基金会推出的测试,旨在衡量领先人工智能模型的通用智能水平。令人惊讶的是,大多数AI模型在测试中的表现并不理想。PFm喜好网-记录每日喜好的科技时尚娱乐生活

ARC-AGI-2测试由一系列类似谜题的问题组成,要求AI从一组不同颜色的方块中识别出视觉模式,并生成正确的“答案网格”。这一设计的目的是迫使AI适应未曾见过的新问题。这一系列谜题的设计难度极高,截至目前,大多数AI模型都在该测试中表现不佳。PFm喜好网-记录每日喜好的科技时尚娱乐生活

以推理能力著称的AI模型,如OpenAI的o1-pro和DeepSeek的R1,在ARC-AGI-2测试中的得分仅为1%至1.3%。而包括GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash等强大的非推理型模型,得分也仅在1%左右。这些数字令人震惊,因为这些模型在许多其他任务中表现出色,但在ARC-AGI-2测试中却无法识别视觉模式,生成正确的答案网格。PFm喜好网-记录每日喜好的科技时尚娱乐生活

值得注意的是,Arc Prize基金会还邀请了超过400人参加ARC-AGI-2测试。这些参与者组成的“小组”能够正确回答测试中60%的问题,这一成绩远远超过了任何AI模型的得分。这进一步证明了人类在解决这类问题上的优势,同时也揭示了AI在通用智能方面的局限性。PFm喜好网-记录每日喜好的科技时尚娱乐生活

然而,ARC-AGI-2的推出并非全无成果。Arc Prize基金会联合创始人格雷格・卡姆拉德(Greg Kamradt)在其博客中指出:“智能不仅仅是解决问题或取得高分的能力。这些能力的获取和部署效率是至关重要的决定性因素。”这一观点强调了效率在AI能力获取和部署中的重要性。PFm喜好网-记录每日喜好的科技时尚娱乐生活

尽管如此,ARC-AGI-2测试的成绩仍然引发了人们对AI未来的担忧。随着AI技术在各个领域的广泛应用,人们期待的是能够解决现实世界复杂问题的通用智能系统。然而,ARC-AGI-2测试的结果表明,当前的AI系统在处理这类问题时存在明显的局限性。PFm喜好网-记录每日喜好的科技时尚娱乐生活

与此同时,科技行业许多人呼吁需要新的、未饱和的基准来衡量AI进展。Hugging Face联合创始人托马斯・沃尔夫(Thomas Wolf)最近在接受TechCrunch采访时表示,AI行业缺乏足够的测试来衡量所谓的通用人工智能的关键特质,包括创造力。这种观点得到了ARC-AGI-2测试结果的印证。PFm喜好网-记录每日喜好的科技时尚娱乐生活

尽管面临挑战,我们仍应看到AI的巨大潜力。随着技术的不断进步,我们相信AI将在未来解决更多复杂的问题,提高生产效率,为人类带来更多的便利和价值。然而,这并不意味着我们应该忽视AI目前面临的挑战。相反,我们应该正视这些问题,通过持续的研究和开发,寻找解决之道。PFm喜好网-记录每日喜好的科技时尚娱乐生活

总的来说,ARC-AGI-2测试的成绩虽然令人失望,但同时也为我们提供了重要的反馈和启示。它提醒我们,尽管AI取得了显著的进步,但我们仍有更多的工作要做,以实现通用人工智能的理想。面对这一新的挑战,我们期待着未来的发展,并相信AI将在未来继续为我们带来惊喜和成就。PFm喜好网-记录每日喜好的科技时尚娱乐生活

PFm喜好网-记录每日喜好的科技时尚娱乐生活

PFm喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
辽宁省40+高校升级5.5G:上传提升2倍 下载快4.2Gbps

辽宁省40+高校升级5.5G:上传提升2

11月18日

11-19 70阅读
‌《半条命 2》发售 20 周年,Steam 限时免费领取‌

‌《半条命 2》发售 20 周年,Stea

11-19 64阅读
宝马全新纯电动BMW i4上市,eDrive40售46.99万

宝马全新纯电动BMW i4上市,eDrive

11-19 64阅读
并购重组大潮AB面:有的“做大做强”有的“拉高出货”

并购重组大潮AB面:有的“做大做强

自证

11-19 66阅读
刚刚,OpenAI发布Windows版ChatGPT,高级语音能用了

刚刚,OpenAI发布Windows版ChatGPT

图片来源:由无界AI生成今天凌晨2

11-19 66阅读
冯小刚和范冰冰关系不简单, 冯小刚力挺范冰冰复出引众怒

冯小刚和范冰冰关系不简单

众所周知范爷范冰冰在还没被封杀

11-19 69阅读
网络电影《浴血无名·奔袭》入选“五个一工程” 海空雄鹰文化传媒再创主旋律佳作

网络电影《浴血无名·奔袭

  11月18日,中共中央宣传部公布第十

11-19 62阅读
电影《朝花夕拾》将映   张珊萌担任制片人及主演

电影《朝花夕拾》将映

  “积谷防饥,养儿防老”,关注乡村“

11-19 70阅读
郭晶晶霍启刚夫妇合体跑马拉松 结束后匆匆离去直言要回家带小孩

郭晶晶霍启刚夫妇合体跑马

11月17日,香港媒体报道,郭晶晶霍启刚

11-19 62阅读
不愧是中国第一网红!李子柒油管日收入预估超8万:停更期间单月广告分成超78万

不愧是中国第一网红!李子柒

11月14日消息,据

11-19 62阅读
AI技术将一峰大二原作动画《電人アロー》黑白影像彩色化

AI技术将一峰大二原作动画

由一峰大

11-19 70阅读
城市天际线秘籍代码及使用方法详细介绍

城市天际线秘籍代码及使用

《城市:天际线》是以建造和管理城市为题

11-19 65阅读
卧龙苍天陨落在哪强化装备?卧龙苍天陨落强化装备位置介绍

卧龙苍天陨落在哪强化装备

卧龙苍天陨落在哪强化装备?卧龙苍天陨落

11-19 62阅读
原子之心展览园地下区域死者位置介绍

原子之心展览园地下区域死

原子之心游戏里面玩家可以与所有死者对

11-19 66阅读
功耗低+性能强 双十一AMD锐龙9000处理器省钱游戏套装推荐

功耗低+性能强 双十一AMD

11-19 63阅读