Anthropic研究沙龙:人工智能对齐有多难?

4个月前 科技 27观看
摘要 在旧金山举行的Anthropic研究沙龙活动上,Anthropic的四位研究人员:亚历克斯·塔姆金(Alex Tamkin)、扬·雷克(Jan Leike)、阿曼达·阿斯凯尔(Amanda Askell)和乔什·巴特森(J

在旧金山举行的Anthropic研究沙龙活动上,Anthropic的四位研究人员:亚历克斯·塔姆金(Alex Tamkin)、扬·雷克(Jan Leike)、阿曼达·阿斯凯尔(Amanda Askell)和乔什·巴特森(Josh Batson)讨论了对齐科学、可解释性和人工智能研究的未来。bO1喜好网-记录每日喜好的科技时尚娱乐生活

Anthropic研究沙龙:人工智能对齐有多难?bO1喜好网-记录每日喜好的科技时尚娱乐生活

对齐的定义和目标。bO1喜好网-记录每日喜好的科技时尚娱乐生活

对齐微调团队的阿曼达(Amanda Askell)指出,与其试图为“对齐”定义一个完美且统一的目标,不如将其视为一个不断改进和迭代的过程。在她看来,对齐的核心目标是让模型的行为能够模拟出一个“富有道德动机并行事理性”的人类。如果这样一个善良、有责任感的“”与数百万用户互动、面对复杂的道德和社会问题时,也将表现出良好的道德行为。然而,她也承认模型面对的现实更加复杂。一个普通人在与某人讨论政治时可能会很直接,但如果AI需要与众多用户讨论该话题时,则必须考虑更广泛的影响,例如可能会对公共舆论造成的影响。bO1喜好网-记录每日喜好的科技时尚娱乐生活

对齐的工作并不是试图强行向模型注入某种固定价值观,而是希望模型能够以一种类似于人类的方式应对价值冲突。在她的视角中,人类自己的价值观或道德框架并不是完全确定的,而是根据经验和信息在不断调整,如果AI也能够像人类一样在面对冲突时进行反思,这会让模型的行为更加自然、可信且安全。bO1喜好网-记录每日喜好的科技时尚娱乐生活

同时,她还对“完美对齐”的目标发出了警示。在她看来,试图实现某种理论上的“完美对齐”,不仅会耗费过多资源,还可能忽视了AI发展的迭代性和动态性。如果一个模型或人类表现出“不容置疑的道德价值观”,反而可能会令人恐惧。她认为,道德更像是一种类比物理学的知识体系,是基于经验、假设和探索逐步积累的,而非天生的或一成不变的。通过设定最低限度的安全与道德基线,让AI在“足够好”的基础上不断提升,我们才能更高效地解决实际问题。bO1喜好网-记录每日喜好的科技时尚娱乐生活

Anthropic研究沙龙:人工智能对齐有多难?bO1喜好网-记录每日喜好的科技时尚娱乐生活

对齐的可扩展性。bO1喜好网-记录每日喜好的科技时尚娱乐生活

从OpenAI跳槽到Anthropic的对齐科学大佬雷克(Jan Leike)对可扩展性问题进行了探讨。当模型变得越来越复杂、执行更长时间的任务并具有更高能力时,如何确保对齐工作的有效性?他的观点是:对齐当前模型的方法可能足以解决眼下的问题,但未来随着模型能力的提升,这些方法可能无法满足需求,需要全新的解决方案。bO1喜好网-记录每日喜好的科技时尚娱乐生活

他介绍道,当前的对齐工作主要依赖于人类可以参与评估结果。比如,通过读取模型的输出或观察其行为,研究人员可以判断对齐的效果是否符合预期。但,当模型变得更复杂,特别是在执行长期独立任务时,仅靠人类的监督将难以确保模型始终在按照我们的目标行动。模型可能会在很长的行为链条中做出独立决策,这些行为或中间阶段难以被追踪和理解。bO1喜好网-记录每日喜好的科技时尚娱乐生活

雷克认为,一个重要方向是“可扩展监督”。这种方法的设想是,通过利用能力较弱但被验证为更对齐的模型,去评估一个能力更强模型,从而实现跨代的信任传递。不过,他也承认这一方法存在显著的风险,尤其是当能力更强的模型可能隐藏其真实意图时,另外,如何确保评估模型本身的对齐性也是一个巨大挑战。在谈到自动化对齐的研究方面,他认为,在中期内,可能需要利用AI模型本身来帮助解决对齐问题。这一设想不仅包含利用模型协助研究新的对齐机制,也包括让模型帮助评估和改进自己的行为。但是,他强调即便是在这种“自动化对齐”的愿景下,仍然需要解决一项核心问题:我们能否信任模型在研究时的动机和结论?如果无法确保这一点,那么整个研究努力都可能偏离初衷。bO1喜好网-记录每日喜好的科技时尚娱乐生活

另一个关键点是,如果对齐的可扩展性无法有效改进,现有对齐方法可能很快就会失效。他举了一个场景,模型的“链式思维”(chain of thought)可能不再以英语或清晰的形式呈现,而是在一系列高度抽象甚至不透明的步骤中累积决策,这样的行为过程可能完全超出现有人类或技术的监测能力,从而在根本上阻碍了对齐工作的可操作性。bO1喜好网-记录每日喜好的科技时尚娱乐生活

Anthropic研究沙龙:人工智能对齐有多难?bO1喜好网-记录每日喜好的科技时尚娱乐生活

可解释性的角色。bO1喜好网-记录每日喜好的科技时尚娱乐生活

可解释性团队的乔什(Josh Batson)强调,可解释性不仅是理解模型行为的一种手段,更是确保对齐方法有效的重要基石。如何通过深入解读模型内部运作,辨别出模型的真实动机和潜在风险,从而验证模型是否能够安全地执行任务,是保证模型行为安全性的关键。bO1喜好网-记录每日喜好的科技时尚娱乐生活

乔什认为,可解释性的最终目标是回答一个关键问题:模型为什么会做出这个决定,而不是做出另一个可能的决定。当前模型在输出自然语言的情况下,人类有能力通过观察模型的“思维链条”来推测其决策逻辑,然而,他指出,模型与人类之间存在一个重要的类比:当人直接被问到某个行为的原因时,人们会给出一个合理的解释,但这一解释并不总是反映其真实的内在动机。同样,AI模型也会有同样的表现,如何突破这种表面的“合理性”,深入模型的内部,成为可解释性研究的核心挑战。bO1喜好网-记录每日喜好的科技时尚娱乐生活

他提出了一个有趣的研究假设:可解释性可能会发展为一个“简洁而深刻”的方案,帮助我们直接看到模型做出了哪些具体的决定。他举了一个例子,当模型具备某些“特征”时,比如“积极”或“有害”特征,可解释性应该能够明确标注这些特征如何被激活,以及在何种情境下出现。同时,可解释性还可以帮助研究人员观察到模型中某些不符合期望的特性,例如“虚假友好”或“伪装的善意特征”,并通过研究模型内部的“电路”找出与这些行为相关的激活模式。他进一步指出,目前的可解释性工作已经在模型理解方面取得了一些进展,例如通过观察特征的活跃模式,研究人员已经能够初步识别模型触发某些行为的条件,然而,这种分析工具需要更强的普适性。他提出后期将通过研究模型的关键特征,识别出它们与人类预期对齐的程度,并进一步判断这些特征在未知场景中的表现。bO1喜好网-记录每日喜好的科技时尚娱乐生活

乔什认为,随着模型能力的增加,其决策过程将变得更加复杂且难以理解,未来的高阶模型可能不再依赖思维链条这种可解释的输出,反而通过一系列复杂且难以解读的中间步骤进行处理。他谈到,最好的情况可能是,可解释性最终将以一种直观而实用的方式发挥作用,例如识别“善意特征”并提升其权重,同时抑制那些“恶意特征”或“欺骗性特征”。他用一个比喻来总结可解释性的重要性:它可能会变成一把“灯塔之光”,引导我们直观洞察模型内部的运作和行为。bO1喜好网-记录每日喜好的科技时尚娱乐生活

乔什还特别谈到可解释性在对齐研究中的定位。他认为,可解释性并非单独工作的领域,而是与对齐本身形成了紧密的协作关系。例如,阿曼达提到的让模型表现像“有道德的好人”的对齐工作,以及雷克提出的确保对齐的可扩展性,最终都需要可解释性工具的支持来验证和检验对齐方法是否真正有效。bO1喜好网-记录每日喜好的科技时尚娱乐生活

 bO1喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
‌TCL华星宣布印刷OLED量产及APEX技术品牌‌

‌TCL华星宣布印刷OLED量产及APE

11-19 59阅读
TGA 2024 提名名单将于 11 月 19 日北京时间公布

TGA 2024 提名名单将于 11 月 19

11-19 68阅读
摸着Meta过河,百度再战AI眼镜

摸着Meta过河,百度再战AI眼镜

“Goo

11-19 65阅读
马斯克新官上任再起诉OpenAI!新证据称Ilya七年前就不放心奥特曼了

马斯克新官上任再起诉OpenAI!新证

文章来源:量子位图片来源:由无界AI

11-19 68阅读
Scaling Law遭遇瓶颈,OpenAI被曝押注智能体“Operator”

Scaling Law遭遇瓶颈,OpenAI被曝

文章来源:量子位图片来源:由无界AI

11-19 65阅读
李宇春与康姆士乐队合唱《恐龙一样勇敢》 讲述小女孩与病魔抗争的故事

李宇春与康姆士乐队合唱《

  《有歌2024》第五期,李宇春和康姆

11-19 64阅读
魔兽世界年卡来了 送筋肉鱼人 兔年坐骑,怀旧服幽冥幼龙(魔兽世界年卡来了)

魔兽世界年卡来了 送筋肉

暴雪今天早晨发布了魔兽世界最新的

11-19 65阅读
不愧是中国第一网红!李子柒油管日收入预估超8万:停更期间单月广告分成超78万

不愧是中国第一网红!李子柒

11月14日消息,据

11-19 62阅读
《最后生还者》新季明年春首播

《最后生还者》新季明年春

HBO及HBO Max首

11-19 69阅读
和平精英跳伞怎么快速落地?和平精英跳伞技巧

和平精英跳伞怎么快速落地

《和平精英》游戏中玩家将通过跳伞进入

11-19 67阅读
电脑怎么玩switch游戏?使用switch模拟器免费玩switch游戏的方法分享

电脑怎么玩switch游戏?使

电脑怎么玩switch游戏?switch游戏指的是

11-19 67阅读
原神终将结束的花神诞祭全任务攻略一览

原神终将结束的花神诞祭全

终将结束的花神诞祭是原神须弥地区主线

11-19 67阅读
原子之心电脉冲枪在哪?电脉冲枪获取方法分享

原子之心电脉冲枪在哪?电

原子之心电脉冲枪在哪?电脉冲枪是原子之

11-19 73阅读
《荒野大镖客:救赎》PC版显卡性能实测:缺乏诚意的移植!帧生成效果开倒车

《荒野大镖客:救赎》PC版显

11-19 68阅读