AI模型其实并不理解它们在说什么

1个月前 科技 8观看
摘要 来自MIT、哈佛大学和芝加哥大学的研究人员提出了"波将金式理解"这一术语,用来描述大语言模型中新发现的一种失效模式:这些模型能够在概念基准测试中表现出色,但缺乏在实践中应用这些概念所需的

来自MIT、哈佛大学和芝加哥大学的研究人员提出了"波将金式理解"这一术语,用来描述大语言模型中新发现的一种失效模式:这些模型能够在概念基准测试中表现出色,但缺乏在实践中应用这些概念所需的真正理解能力。jAd喜好网-记录每日喜好的科技时尚娱乐生活

这个术语源自"波将金村庄"的典故——俄国军事领袖格里戈里·波将金为了给叶卡捷琳娜二世女皇留下深刻印象而建造的虚假村庄。jAd喜好网-记录每日喜好的科技时尚娱乐生活

学者们将"波将金式理解"与"幻觉"区分开来,后者通常用来描述AI模型的错误或误判。实际上,AI的无能不仅仅体现在事实错误上;AI模型缺乏像人类那样理解概念的能力,这一倾向正如人们广泛使用的贬义词"随机鹦鹉"来形容大语言模型所暗示的。jAd喜好网-记录每日喜好的科技时尚娱乐生活

计算机科学家Marina Mancoridis、Bec Weeks、Keyon Vafa和Sendhil Mullainathan提出了"波将金式理解"这一术语,用来描述模型在基准测试中成功但并未理解相关概念的情况。jAd喜好网-记录每日喜好的科技时尚娱乐生活

"波将金式理解之于概念知识,就如同幻觉之于事实知识——幻觉制造虚假事实;波将金式理解制造虚假的概念连贯性,"作者们在其预印本论文《大语言模型中的波将金式理解》中解释道。jAd喜好网-记录每日喜好的科技时尚娱乐生活

该论文计划于本月晚些时候在2025年国际机器学习会议(ICML 2025)上发表。jAd喜好网-记录每日喜好的科技时尚娱乐生活

哈佛大学博士后研究员、论文合著者之一Keyon Vafa在接受The Register邮件采访时表示,选择"波将金式理解"这一术语是为了避免将AI模型拟人化。jAd喜好网-记录每日喜好的科技时尚娱乐生活

论文中引用了一个"波将金式理解"的例子。当被要求解释ABAB押韵格式时,OpenAI的GPT-4o准确地回答:"ABAB格式是交替押韵:第一行和第三行押韵,第二行和第四行押韵。"jAd喜好网-记录每日喜好的科技时尚娱乐生活

然而,当被要求为使用ABAB押韵格式的四行诗填写空白词时,该模型给出的词并不能恰当押韵。换句话说,模型能够正确预测Token来解释ABAB押韵格式,但缺乏重现这种格式所需的理解能力。jAd喜好网-记录每日喜好的科技时尚娱乐生活

研究人员认为,AI模型中波将金式理解的问题在于它们使基准测试失效。AI模型基准测试的目的是暗示更广泛的能力。但如果测试只衡量测试表现,而不衡量将模型训练应用到测试场景之外的能力,那么它就没有太大价值。jAd喜好网-记录每日喜好的科技时尚娱乐生活

正如安全公司Socket的Sarah Gooding所指出的:"如果大语言模型能够在没有真正理解的情况下得到正确答案,那么基准测试的成功就会产生误导。"jAd喜好网-记录每日喜好的科技时尚娱乐生活

正如我们之前注意到的,AI基准测试存在许多问题,AI公司可能会试图操纵它们。jAd喜好网-记录每日喜好的科技时尚娱乐生活

因此,研究人员开发了自己的基准测试来评估波将金式理解的普遍性,结果发现它们在测试的模型中"无处不在"——包括Llama-3.3 (70B)、GPT-4o、Gemini-2.0 (Flash)、Claude 3.5 (Sonnet)、DeepSeek-V3、DeepSeek-R1和Qwen2-VL (72B)。jAd喜好网-记录每日喜好的科技时尚娱乐生活

一项测试专注于文学技巧、博弈论和心理偏见。研究发现,虽然被评估的模型在大多数时候能够识别概念(94.2%),但在被要求对概念实例进行分类时经常失败(平均失败率55%),在生成示例时失败率为40%,在编辑概念实例时失败率也为40%。jAd喜好网-记录每日喜好的科技时尚娱乐生活

就像前面提到的ABAB押韵错误一样,模型能够可靠地解释莎士比亚十四行诗中明显的文学技巧,但大约有一半的时间在发现、重现或编辑十四行诗方面遇到困难。jAd喜好网-记录每日喜好的科技时尚娱乐生活

"波将金式理解的存在意味着,在人类身上表示理解的行为在大语言模型中并不表示理解,"Vafa说。"这意味着我们要么需要新的方法来测试大语言模型,而不是让它们回答用来测试人类的相同问题,要么找到方法来消除大语言模型的这种行为。"jAd喜好网-记录每日喜好的科技时尚娱乐生活

做到这一点将是朝着通用人工智能(AGI)迈出的一步。这可能还需要一段时间。jAd喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
讯飞星火4.0 Turbo正式发布,7项“第一”引领大模型规模化应用落地

讯飞星火4.0 Turbo正式发布,7项“

【锋巢网】大模型应用7项第一!10

11-19 126阅读
中国电信完成6G天地一体化测试:这上、下行网速感受下!

中国电信完成6G天地一体化测试:这

11月19日

11-19 116阅读
2025款宝骏悦也Plus发布:配备灵眸智驾2.0 Max,定价10.38万

2025款宝骏悦也Plus发布:配备灵眸

11-19 113阅读
大模型公司们创业未半,技术主心骨们却先弃船回大厂了?

大模型公司们创业未半,技术主心骨

2024

11-19 103阅读
新茶饮疯狂“24小时”

新茶饮疯狂“24小时”

零售

11-19 99阅读
2012年,“非诚勿扰”女高朋王佳暴虐杀害丈夫,如今快要出狱了

2012年,“非诚勿扰”女高朋

11-19 120阅读
44岁董洁:曾是无数人的“白月光”,却陷入中年尴尬

44岁董洁:曾是无数人的“白

董洁,她曾经是无数人心中的白月光,但也

11-19 106阅读
扁鹊归宿地的怅惘(扁鹊归宿地的怅惘)

扁鹊归宿地的怅惘(扁鹊归宿

关键词:神医扁鹊 气死回生 讳疾忌医

11-19 102阅读
停播超2个月:小杨哥掉粉500万+!

停播超2个月:小杨哥掉粉500

11月15日消息,今

11-19 104阅读
最美《变形金刚》女主梅根福克斯怀孕登热搜 网友谈样貌:咋成卡戴珊了...

最美《变形金刚》女主梅根

11月12日消息,知

11-19 102阅读
万代魂系高端钢普拉大展 解体匠机第三弹高达Mk-II再参展

万代魂系高端钢普拉大展

万代高端模玩魂系列展会《TAMASHII NA

11-19 116阅读
《勇者斗恶龙3重制版》发售再度引发社会现象 DQ休假燃起

《勇者斗恶龙3重制版》发

日本国民RPG《勇者斗恶龙》系列呼声最

11-19 117阅读
原子之心3826设施啁啾表全收集攻略

原子之心3826设施啁啾表全

啁啾表是原子之心游戏里面的一个特殊收

11-19 109阅读
原子之心展览园地下区域死者位置介绍

原子之心展览园地下区域死

原子之心游戏里面玩家可以与所有死者对

11-19 117阅读
饥荒金色腰带有什么用?饥荒金色腰带用途详细介绍

饥荒金色腰带有什么用?饥

饥荒金色腰带有什么用?金色腰带是饥荒游

11-19 121阅读