谷歌发布双思维AI Agent:像人类一样思考,重大技术突破!

8个月前 科技 56观看
摘要 今年10月,OpenAI高级研究科学家、德扑AI之父Noam Brown,曾在美国旧金山举办的TED AI大会上提出了一个惊人的理论——让AI模型思考20秒所带来的性能提升,相当于将模型扩大100,000倍并

今年10月,OpenAI高级研究科学家、德扑AI之父Noam Brown,曾在美国旧金山举办的TED AI大会上提出了一个惊人的理论——让AI模型思考20秒所带来的性能提升,相当于将模型扩大100,000倍并训练100,000倍的时间。DTW喜好网-记录每日喜好的科技时尚娱乐生活

Noam所指的技术便是System 1/2 thinking,也是OpenAI最新模型o1正在使用的技术。DTW喜好网-记录每日喜好的科技时尚娱乐生活

谷歌DeepMind研究人员则直接把这项技术集成到AI Agent中开发了Talker-Reasoner框架,让其具备“快”、“慢”两种拟人化思考方式。这对于解决复杂、冗长的任务来说帮助巨大,也突破了传统AI Agent执行业务流程的方法,极大提升了效率。DTW喜好网-记录每日喜好的科技时尚娱乐生活

谷歌发布双思维AI Agent:像人类一样思考,重大技术突破!DTW喜好网-记录每日喜好的科技时尚娱乐生活

像人类一样思考——快、慢思维DTW喜好网-记录每日喜好的科技时尚娱乐生活

在介绍谷歌的双思维AI Agent之前,「AIGC开放社区」先为大家简单介绍一下System 1/2的快、慢思维的由来和技术特性,对于理解Talker-Reasoner框架很有帮助DTW喜好网-记录每日喜好的科技时尚娱乐生活

快、慢思维最早是由诺贝尔经济学奖得主-丹尼尔·卡内曼在其著作《思考,快与慢》中提出,并被广泛接受为理解人类思维的一种重要理论框架。DTW喜好网-记录每日喜好的科技时尚娱乐生活

这两种思维方式分别被称为“System1”和“System 2”,它们各自承担着不同的认知任务,并以独特的方式影响着我们的决策过程。DTW喜好网-记录每日喜好的科技时尚娱乐生活

谷歌发布双思维AI Agent:像人类一样思考,重大技术突破!DTW喜好网-记录每日喜好的科技时尚娱乐生活

System 1,所谓的“快思考”,是一种自动化的、迅速的思维模式,几乎不需要消耗大量的认知资源,也不需要个体付出明显的努力。DTW喜好网-记录每日喜好的科技时尚娱乐生活

当我们面对一个熟悉的场景或问题时,System1会迅速作出反应,提供即时的答案或解决方案。例如,当我们看到一辆车突然向我们驶来时,我们会本能地做出躲避的动作;或者当我们听到一个笑话时,我们可能会立即感到好笑并发出笑声。DTW喜好网-记录每日喜好的科技时尚娱乐生活

这些反应都是System1在起作用的结果,它依赖于直觉和经验积累,能够在短时间内处理大量信息,但同时也可能因为缺乏深入分析而产生偏见或错误判断。DTW喜好网-记录每日喜好的科技时尚娱乐生活

相比之下,System2则代表着“慢思考”,这是一种更为复杂和谨慎的思维过程。System2负责执行那些需要更多注意力和努力的任务,如解决复杂的数学问题、进行逻辑推理或是制定长期计划等。DTW喜好网-记录每日喜好的科技时尚娱乐生活

如果你使用过OpenAI的o1或者国内的Deepseek、阿里最新开源的QwQ-32B模型,它们在执行超复杂问题时,便会进入短暂的思考时间DTW喜好网-记录每日喜好的科技时尚娱乐生活

System2的特点在于其能够对信息进行细致的分析和评估,从而得出更加准确和全面的结论。然而,由于这种思考方式需要消耗较多的认知资源,所以比System1要慢得多。DTW喜好网-记录每日喜好的科技时尚娱乐生活

此外,在面对紧急情况或压力较大的情境下,System2的表现可能会受到影响,导致决策效率降低。DTW喜好网-记录每日喜好的科技时尚娱乐生活

谷歌双思维AI Agent——Talker-ReasonerDTW喜好网-记录每日喜好的科技时尚娱乐生活

而谷歌DeepMind研究人员提出的Talker-Reasoner中,巧妙地将System1/2集成到了AI Agent上。DTW喜好网-记录每日喜好的科技时尚娱乐生活

Talker-Reasoner架构的核心思想是将AI Agent分为两个独立的模块:Talker和Reasoner。这两个模块分别对应于人类的System 1和System 2,各自承担着不同的任务和功能。DTW喜好网-记录每日喜好的科技时尚娱乐生活

谷歌发布双思维AI Agent:像人类一样思考,重大技术突破!DTW喜好网-记录每日喜好的科技时尚娱乐生活

Talker模块,类似于System 1,负责快速、直观的对话生成,它能够迅速响应用户的需求,生成自然语言的回答。而Reasoner模块,类似于System 2,负责复杂的多步推理和规划,它需要更多的时间和计算资源来处理复杂的任务,如调用外部工具、检索信息和解决问题。DTW喜好网-记录每日喜好的科技时尚娱乐生活

在Talker模块中,AI Agent被设计为能够理解和处理自然语言,生成连贯和自然的对话。这需要AI Agent具备强大的语言理解和生成能力,以及对上下文的敏感性。Talker模块需要能够快速地从记忆中提取相关信息,以支持其对话生成。DTW喜好网-记录每日喜好的科技时尚娱乐生活

这种记忆可以是对话历史、用户偏好或其他相关信息。Talker模块的设计使其能够模拟人类的直觉反应,即使在信息不完全的情况下也能做出合理的回应DTW喜好网-记录每日喜好的科技时尚娱乐生活

与Talker模块的快速反应不同,Reasoner模块的设计重点在于深度思考和复杂问题解决。Reasoner模块需要能够执行多步推理,这可能涉及到对大量信息的分析和处理。它需要调用各种工具和数据库,以获取外部知识,支持其推理过程。DTW喜好网-记录每日喜好的科技时尚娱乐生活

谷歌发布双思维AI Agent:像人类一样思考,重大技术突破!DTW喜好网-记录每日喜好的科技时尚娱乐生活

Reasoner模块还需要能够形成和更新关于用户状态的信仰,这些信仰以结构化语言对象的形式存储在记忆中。这种信仰建模是Reasoner模块的关键特征,它使得AI Agent能够更好地理解用户的需求和意图,从而提供更准确的服务。DTW喜好网-记录每日喜好的科技时尚娱乐生活

在实际应用中,Talker和Reasoner模块之间的交互是通过记忆来实现的。Reasoner模块负责生成新的信仰状态,并将其存储在记忆中。Talker模块在需要时从记忆中检索这些信仰状态,以支持其对话生成。DTW喜好网-记录每日喜好的科技时尚娱乐生活

这种设计允许Talker模块即使在Reasoner模块尚未完成其推理过程时,也能够继续与用户进行互动。该分工类似于人类的大脑,System 1始终活跃,而System 2则在需要时介入。DTW喜好网-记录每日喜好的科技时尚娱乐生活

Talker-Reasoner测试数据DTW喜好网-记录每日喜好的科技时尚娱乐生活

为了测试Talker-Reasoner的双思维性能,研究人员用这个开发了一个睡眠辅导Agent。在这个场景中,AI Agent需要与用户进行对话,提供关于改善睡眠习惯的建议和计划。DTW喜好网-记录每日喜好的科技时尚娱乐生活

Talker模块负责与用户的直接互动,而Reasoner模块则负责制定和调整睡眠辅导计划。这种分工使得AI Agent能够同时进行快速的对话和复杂的规划,提高了用户体验。DTW喜好网-记录每日喜好的科技时尚娱乐生活

在测试中,Talker模块通过一系列指令编码专家知识,指导其完成睡眠辅导的各个阶段。这些指令不仅包括了与用户互动的规则,还包括了睡眠辅导的具体步骤和策略。Talker模块需要能够理解和回应用户的需求,同时保持对话的连贯性和自然性。DTW喜好网-记录每日喜好的科技时尚娱乐生活

谷歌发布双思维AI Agent:像人类一样思考,重大技术突破!DTW喜好网-记录每日喜好的科技时尚娱乐生活

Reasoner模块则需要根据用户的反馈和需求,调整和优化睡眠辅导计划。这可能涉及到调用外部资源,如睡眠相关的研究和建议,以及根据用户的具体情况制定个性化的计划。Reasoner模块的设计使其能够处理复杂的逻辑和推理,为用户提供最合适的建议。DTW喜好网-记录每日喜好的科技时尚娱乐生活

在实际对话中,Talker和Reasoner模块的协同工作被证明是有效的。Talker模块能够流畅地与用户对话,而Reasoner模块则能够根据用户的反馈调整和优化辅导计划。这种分工执行使得AI Agent能够同时处理快速的对话和复杂的规划,极大提高了用户体验。DTW喜好网-记录每日喜好的科技时尚娱乐生活

论文地址:https://arxiv.org/abs/2410.08328v1DTW喜好网-记录每日喜好的科技时尚娱乐生活

 DTW喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
拼多多「隐身」双十一

拼多多「隐身」双十一

纵然是在互联互通的大背景下,双十

11-19 122阅读
模型能力比肩OpenAI-o1 夸克全新“AI搜题”让新题、难题都有解

模型能力比肩OpenAI-o1 夸克全新

【锋巢网】随着AI融入学习场景,诸

11-19 140阅读
稳定7100MB/s!雷克沙ARES 8TB SSD评测:机箱里再也没有机械硬盘的位置了

稳定7100MB/s!雷克沙ARES 8TB SSD

一、前言:

11-19 115阅读
凯迪拉克公布2026款Vistiq电动SUV细节,明年上市

凯迪拉克公布2026款Vistiq电动SU

11-19 121阅读
Scaling Law遭遇瓶颈,OpenAI被曝押注智能体“Operator”

Scaling Law遭遇瓶颈,OpenAI被曝

文章来源:量子位图片来源:由无界AI

11-19 111阅读
于谦因釜山行爆红, 啥梗真没想到讲相声的他竟出演过这么多作品

于谦因釜山行爆红, 啥梗真

于谦明明就是一个讲相声的人,怎么

11-19 117阅读
NCT DREAM正辑四辑《DREAMSCAPE》登上韩国国内各大专辑周榜一位

NCT DREAM正辑四辑《DREAM

11月11日发行的NCT DREAM正辑

11-19 110阅读
演员许文广《故乡的泥土》央八开播 首演农民角色获赞好真实

演员许文广《故乡的泥土》

  近日,由原著作者田运章担任总编剧,

11-19 104阅读
张云龙秀恩爱庞博秀学历,《我的主场》主打一个凡尔赛

张云龙秀恩爱庞博秀学历,《

  年末最热血的一档综艺终于在爱奇

11-19 124阅读
马斯克赌大赢大 部分广告商准备重返推特

马斯克赌大赢大 部分广告

多位媒体高管透

11-19 108阅读
LUIDA’S BAR推出《DQIII》合作菜单

LUIDA’S BAR推出《DQIII

为纪念HD-

11-19 123阅读
互动影游《新世界:暗影成双》Steam页面开放 发行日期待定

互动影游《新世界:暗影成双

今日(11月16日),双人合作类互动影游《新

11-19 132阅读
特别好评《永恒天空》明年登陆PS5 试玩Demo现已上线

特别好评《永恒天空》明年

于 2023 年 6 月发售的开放世界科幻生

11-19 129阅读
redhat安装教程,虚拟机红帽子linux安装教程(保姆级)

redhat安装教程,虚拟机红

redhat是一款非常棒的操作系统,想要学习

11-19 120阅读
原子之心村子区域所有啁啾表位置详细介绍

原子之心村子区域所有啁啾

原子之心游戏的村子区域里面一共拥有4

11-19 135阅读