Anthropic 首席执行官声称 AI 模型幻觉比人类少

3周前 科技 8观看
摘要 Anthropic 首席执行官 Dario Amodei 表示,如今的 AI 模型产生幻觉(即捏造内容并以真实陈述的方式呈现)发生的频率低于人类,他在周四于旧金山举办的 Anthropic 首个开发者活动 Code with Claude

Anthropic 首席执行官 Dario Amodei 表示,如今的 AI 模型产生幻觉(即捏造内容并以真实陈述的方式呈现)发生的频率低于人类,他在周四于旧金山举办的 Anthropic 首个开发者活动 Code with Claude 的新闻发布会上如此表示。IfN喜好网-记录每日喜好的科技时尚娱乐生活

Amodei 在阐述这一观点时强调:AI 幻觉并不是阻碍 Anthropic 迈向 AGI(拥有与人类同等或更高级别智力的 AI 系统)道路上的制约因素。IfN喜好网-记录每日喜好的科技时尚娱乐生活

“这一问题的答案确实取决于你如何衡量,但我怀疑 AI 模型产生幻觉的频率可能低于人类,不过它们的幻觉方式更让人感到意外,”Amodei 回应 TechCrunch 提问时表示。IfN喜好网-记录每日喜好的科技时尚娱乐生活

Anthropic 的 CEO 是业界对 AI 模型实现 AGI 前景持最强烈乐观态度的领导者之一。在他去年广泛传播的一篇论文中,Amodei 提到他相信 AGI 最早可能在 2026 年出现。在周四的新闻发布会上,Anthropic 的 CEO 表示他正目睹向这一目标稳步迈进,并指出“各个领域的进展都在不断加速”。IfN喜好网-记录每日喜好的科技时尚娱乐生活

“大家总是在寻找那些限制 AI 能力的硬性障碍,”Amodei 说,“但这些障碍根本不存在。”IfN喜好网-记录每日喜好的科技时尚娱乐生活

其他 AI 领域领导者则认为幻觉现象是实现 AGI 面临的一大障碍。就在本周早些时候,Google DeepMind 首席执行官 Demis Hassabis 指出,如今的 AI 模型存在太多“漏洞”,在许多明显的问题上回答失误。譬如,本月初,一位代表 Anthropic 的律师因在法庭文件中利用 Claude 生成引用而不得不在法庭上道歉,因为该 AI 聊天机器人捏造了信息,导致人名和职称错误。IfN喜好网-记录每日喜好的科技时尚娱乐生活

验证 Amodei 的说法较为困难,主要原因在于多数幻觉评测标准都是将 AI 模型彼此对比;并没有将模型与人类进行比较。某些技术手段似乎有助于降低幻觉率,例如为 AI 模型提供网页搜索功能。另外,一些 AI 模型,例如 OpenAI 的 GPT-4.5,在评测中相较于早期版本的系统展现出明显较低的幻觉率。IfN喜好网-记录每日喜好的科技时尚娱乐生活

然而,也有证据显示,在高级推理 AI 模型中,幻觉现象实际上可能变得更严重。OpenAI 的 o3 和 o4-mini 模型的幻觉率高于该公司之前一代的推理模型,而公司其实并不完全理解其中的原因。IfN喜好网-记录每日喜好的科技时尚娱乐生活

在后续的新闻发布会上,Amodei 指出电视广播机构、政治家以及各行各业的人类都会不断犯错。正如 Amodei 所说,AI 也会出错,这并不意味着它们不具备智能。然而,Anthropic 的 CEO 也承认,AI 模型以置信度很高的方式将虚假信息作为事实陈述,这可能确实会成为一个问题。IfN喜好网-记录每日喜好的科技时尚娱乐生活

实际上,Anthropic 已对 AI 模型欺骗人类的倾向做了不少研究,这一问题在该公司最近推出的 Claude Opus 4 中似乎尤为突出。Apollo Research(一家获得早期测试 AI 模型权限的安全研究机构)发现,Claude Opus 4 的早期版本表现出高度倾向于对人类进行算计和欺骗。Apollo 甚至建议 Anthropic 不应立即推出该早期模型。对此,Anthropic 称其已经提出了若干缓解措施,似乎已经应对了 Apollo 提出的那些问题。IfN喜好网-记录每日喜好的科技时尚娱乐生活

Amodei 的评论表明,Anthropic 可能会认为某个 AI 模型即便仍存在幻觉现象,也可以被视作 AGI(或具备与人类同等的智力)。不过,按照许多人的定义,一个会产生幻觉的 AI 仍然难以达到 AGI 的标准。IfN喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
抖音电商拐点已至,从美妆行业开始跌落?

抖音电商拐点已至,从美妆行业开始

前几日,抖音首次公布了“双11”大

11-19 77阅读
辽宁省40+高校升级5.5G:上传提升2倍 下载快4.2Gbps

辽宁省40+高校升级5.5G:上传提升2

11月18日

11-19 83阅读
凯迪拉克公布2026款Vistiq电动SUV细节,明年上市

凯迪拉克公布2026款Vistiq电动SU

11-19 80阅读
可栗口语完成数百万元天使轮融资

可栗口语完成数百万元天使轮融资

近日,A

11-19 77阅读
千诀科技完成数千万元天使轮融资

千诀科技完成数千万元天使轮融资

近日,

11-19 77阅读
6年前,主持实习生弦子,为何诬告朱军性骚扰?如今她又怎样了?

6年前,主持实习生弦子,为何

11-19 82阅读
吴秀波息影一年后首现身, 吴秀波出轨门怎么回事?

吴秀波息影一年后首现身,

吴秀波原本是圈中一线的演技派男

11-19 77阅读
ENHYPEN的第二张正规专辑后续《ROMANCE:UNTOLD-daydream-》刷新了历代K-POP后续专辑中创下了最高初动销量新纪录

ENHYPEN的第二张正规专辑

18日,据Hanteo Chart榜单数

11-19 81阅读
虞书欣林一新剧演情侣,《嘘,国王在冬眠》改编自哪部小说?

虞书欣林一新剧演情侣,《嘘

12月22日是冬至,在这天,虞书欣和林

11-19 75阅读
《最后生还者》新季明年春首播

《最后生还者》新季明年春

HBO及HBO Max首

11-19 84阅读
《这是我的战争》10周年纪念 最新慈善DLC即将登场

《这是我的战争》10周年纪

「妄想欢庆」——《这是我的战争》10周

11-19 85阅读
咸鱼之王兑换码2024,咸鱼之王礼包码100连抽兑换码最新分享

咸鱼之王兑换码2024,咸鱼

咸鱼之王是一款非常魔性的放置挂机手游

11-19 92阅读
原神失物匿于繁华任务怎么做|失物匿于繁华任务攻略

原神失物匿于繁华任务怎么

失物匿于繁华是原神须弥地区魔神主线任

11-19 87阅读
《荒野大镖客:救赎》PC版显卡性能实测:缺乏诚意的移植!帧生成效果开倒车

《荒野大镖客:救赎》PC版显

11-19 83阅读
界面设计全面升级 NVIDIA app实际体验:五大靓点堪称N卡必备搭档

界面设计全面升级 NVIDIA

11-19 94阅读