新型AI架构推理速度比大语言模型快100倍,仅需1000个训练样本

1周前 科技 4观看
摘要 新加坡AI初创公司Sapient Intelligence开发了一种新型AI架构,能够在复杂推理任务上匹敌甚至大幅超越大语言模型,同时具有更小的规模和更高的数据效率。这种被称为分层推理模型(HRM)的架构,灵感

新加坡AI初创公司Sapient Intelligence开发了一种新型AI架构,能够在复杂推理任务上匹敌甚至大幅超越大语言模型,同时具有更小的规模和更高的数据效率。le8喜好网-记录每日喜好的科技时尚娱乐生活

这种被称为分层推理模型(HRM)的架构,灵感来源于人脑如何利用不同系统进行缓慢、深思熟虑的规划和快速、直觉性计算。该模型仅需当今大语言模型所需数据和内存的一小部分就能取得令人印象深刻的结果。这种效率对于数据稀缺和计算资源有限的真实企业AI应用具有重要意义。le8喜好网-记录每日喜好的科技时尚娱乐生活

**思维链推理的局限性**le8喜好网-记录每日喜好的科技时尚娱乐生活

面对复杂问题时,当前的大语言模型主要依赖思维链(CoT)提示,将问题分解为基于文本的中间步骤,本质上是强迫模型在寻找解决方案时"大声思考"。le8喜好网-记录每日喜好的科技时尚娱乐生活

虽然CoT改善了大语言模型的推理能力,但它有根本性局限。Sapient Intelligence的研究人员在论文中指出:"用于推理的CoT是一根拐杖,而非令人满意的解决方案。它依赖于脆弱的、人为定义的分解,其中单个错误步骤或步骤顺序错误就可能完全破坏整个推理过程。"le8喜好网-记录每日喜好的科技时尚娱乐生活

这种对生成明确语言的依赖将模型的推理束缚在Token层面,通常需要大量训练数据并产生冗长、缓慢的响应。这种方法还忽视了内部发生的"潜在推理"类型,这种推理无需用语言明确表达。le8喜好网-记录每日喜好的科技时尚娱乐生活

研究人员指出:"需要一种更高效的方法来最小化这些数据需求。"le8喜好网-记录每日喜好的科技时尚娱乐生活

**受大脑启发的分层方法**le8喜好网-记录每日喜好的科技时尚娱乐生活

为了超越CoT,研究人员探索了"潜在推理",即模型不生成"思维Token",而是在其内部抽象表示中进行推理。这更符合人类思维方式;如论文所述:"大脑在潜在空间中以卓越效率维持冗长、连贯的推理链,无需不断转换回语言。"le8喜好网-记录每日喜好的科技时尚娱乐生活

然而,在AI中实现这种深度内部推理具有挑战性。简单地在深度学习模型中堆叠更多层次往往导致"梯度消失"问题,使学习信号在各层间减弱,令训练失效。另一种选择是循环架构,通过循环计算,但可能遭受"早期收敛"问题,即模型过快确定解决方案而未充分探索问题。le8喜好网-记录每日喜好的科技时尚娱乐生活

寻求更好方法的Sapient团队转向神经科学寻求解决方案。研究人员写道:"人脑为实现当代人工模型所缺乏的有效计算深度提供了引人注目的蓝图。它在不同时间尺度运行的皮层区域间分层组织计算,实现深度、多阶段推理。"le8喜好网-记录每日喜好的科技时尚娱乐生活

受此启发,他们设计了具有两个耦合循环模块的HRM:用于缓慢抽象规划的高层(H)模块,和用于快速详细计算的低层(L)模块。这种结构实现了团队称为"分层收敛"的过程。直观地说,快速L模块处理问题的一部分,执行多个步骤直到达到稳定的局部解决方案。此时,缓慢的H模块接受这个结果,更新其整体策略,并给L模块一个新的、精制的子问题去处理。这有效地重置了L模块,防止其陷入困境(早期收敛),并允许整个系统在不遭受梯度消失的精简模型架构中执行长序列推理步骤。le8喜好网-记录每日喜好的科技时尚娱乐生活

论文称:"这个过程允许HRM执行一系列不同的、稳定的、嵌套的计算,其中H模块指导整体问题解决策略,L模块执行每个步骤所需的密集搜索或优化。"这种嵌套循环设计允许模型在其潜在空间中深度推理,无需长CoT提示或大量数据。le8喜好网-记录每日喜好的科技时尚娱乐生活

一个自然的问题是这种"潜在推理"是否以可解释性为代价。Sapient Intelligence创始人兼CEO王冠反驳了这种观点,解释说模型的内部过程可以被解码和可视化,类似于CoT提供模型思维窗口的方式。他还指出CoT本身可能具有误导性。王冠告诉VentureBeat:"CoT并不真正反映模型的内部推理",他引用研究显示模型有时可以通过错误的推理步骤得出正确答案,反之亦然。"它本质上仍然是一个黑盒。"le8喜好网-记录每日喜好的科技时尚娱乐生活

**HRM实际应用**le8喜好网-记录每日喜好的科技时尚娱乐生活

为了测试模型,研究人员让HRM与需要广泛搜索和回溯的基准测试对抗,如抽象和推理语料库(ARC-AGI)、极其困难的数独谜题和复杂的迷宫求解任务。le8喜好网-记录每日喜好的科技时尚娱乐生活

结果显示HRM学会解决甚至先进大语言模型都难以处理的问题。例如,在"数独-极限"和"迷宫-困难"基准测试中,最先进的CoT模型完全失败,准确率为0%。相比之下,HRM在每个任务仅用1000个样本训练后就达到了接近完美的准确率。le8喜好网-记录每日喜好的科技时尚娱乐生活

在测试抽象推理和泛化的ARC-AGI基准测试中,2700万参数的HRM得分40.3%。这超过了领先的基于CoT的模型,如更大的o3-mini-high(34.5%)和Claude 3.7 Sonnet(21.2%)。这种在没有大型预训练语料库和非常有限数据条件下取得的性能,突出了其架构的力量和效率。le8喜好网-记录每日喜好的科技时尚娱乐生活

虽然解决谜题证明了模型的能力,但现实世界的意义在于不同类别的问题。据王冠介绍,开发者应该继续将大语言模型用于基于语言或创意任务,但对于"复杂或确定性任务",类似HRM的架构以更少的幻觉提供优越性能。他指出"需要复杂决策或长期规划的序列问题",特别是在对延迟敏感的领域,如具身AI和机器人技术,或数据稀缺领域如科学探索。le8喜好网-记录每日喜好的科技时尚娱乐生活

在这些场景中,HRM不仅解决问题,还学会更好地解决问题。王冠解释:"在我们的大师级数独实验中...HRM随着训练进展需要的步骤逐渐减少——类似于新手成为专家。"le8喜好网-记录每日喜好的科技时尚娱乐生活

对于企业而言,这正是架构效率直接转化为底线的地方。与CoT串行的、逐Token生成不同,HRM的并行处理允许王冠估计的"任务完成时间100倍加速"。这意味着更低的推理延迟和在边缘设备上运行强大推理的能力。le8喜好网-记录每日喜好的科技时尚娱乐生活

成本节约也很可观。王冠说:"针对特定复杂推理任务,像HRM这样的专门推理引擎与大型、昂贵、高延迟的基于API的模型相比提供了更有前景的替代方案。"为了说明效率,他指出训练专业级数独的模型大约需要两个GPU小时,而复杂的ARC-AGI基准测试需要50到200个GPU小时——仅为大规模基础模型所需资源的一小部分。这为解决专门的商业问题开辟了道路,从物流优化到复杂系统诊断,在数据和预算都有限的情况下。le8喜好网-记录每日喜好的科技时尚娱乐生活

展望未来,Sapient Intelligence已在努力将HRM从专门的问题解决器发展为更通用的推理模块。王冠说:"我们正在积极开发基于HRM构建的脑启发模型",强调在医疗保健、气候预测和机器人技术方面的有希望的初步结果。他透露这些下一代模型将与今天基于文本的系统显著不同,特别是通过包含自我纠正能力。le8喜好网-记录每日喜好的科技时尚娱乐生活

这项工作表明,对于困扰当今AI巨头的一类问题,前进的道路可能不是更大的模型,而是受终极推理引擎——人脑启发的更智能、更结构化的架构。le8喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
TGA 2024 提名名单将于 11 月 19 日北京时间公布

TGA 2024 提名名单将于 11 月 19

11-19 126阅读
小米发布超级智能驾驶技术Hyper Autonomous Driving(HAD)

小米发布超级智能驾驶技术Hyper

11-19 111阅读
红魔10 Pro系列发布:骁龙8至尊版+1.5K 144Hz“悟空屏”,起售价4999元

红魔10 Pro系列发布:骁龙8至尊版+

11-19 100阅读
“农药”不老,腾讯有“宝”

“农药”不老,腾讯有“宝”

腾讯

11-19 98阅读
52岁浙商要搞AD钙奶,宗馥莉又有一战

52岁浙商要搞AD钙奶,宗馥莉又有一

带领

11-19 102阅读
长安十二时辰龙波是好是坏 龙波扮演者是谁资料作品介绍(长安十二时辰龙波是好是坏)

长安十二时辰龙波是好是坏

《长安十二时辰》这部剧正在热播,在

11-19 96阅读
《号手就位》主角为什么都选择入伍,最后他们如何了?

《号手就位》主角为什么都

《号手就位》是中国首部火箭军题

11-19 108阅读
中国电影海外推广研讨会在豆园(Doc.Park)举行

中国电影海外推广研讨会在

  近日,原国家广电总局电影局原巡

11-19 98阅读
天生戏剧人!小演员田芯语乌镇首秀,领衔戏剧节唯一入围儿童剧《乐园》

天生戏剧人!小演员田芯语乌

  深秋,一场淅淅沥沥的小雨为江南带

11-19 103阅读
2024年全球票房十强!电影《毒液:最后一舞》中国票房破6亿

2024年全球票房十强!电影《

11月13日消息,根

11-19 101阅读
AI技术将一峰大二原作动画《電人アロー》黑白影像彩色化

AI技术将一峰大二原作动画

由一峰大

11-19 116阅读
真人互动恋爱影游《欢迎光临!心动咖啡厅》Steam页面开放 发行日期待定

真人互动恋爱影游《欢迎光

今日(11月16日),真人互动恋爱影游《欢迎

11-19 110阅读
Steam传播仇恨指控引人质疑:青蛙表情包占一半以上

Steam传播仇恨指控引人质

在海外的许多网友都喜欢用一个名为“P

11-19 121阅读
原神疗养观察任务流程|原神疗养观察攻略

原神疗养观察任务流程|原

原神疗养观察是游戏中须弥地区魔神任务

11-19 99阅读
饥荒宠物洞召唤宠物所需物品一览

饥荒宠物洞召唤宠物所需物

宠物洞是饥荒游戏里面的一个特殊场景,在

11-19 116阅读