新型15亿参数路由模型实现93%准确率,无需昂贵重训练

1个月前 科技 7观看
摘要 Katanemo Labs的研究人员推出了Arch-Router,这是一种全新的路由模型和框架,旨在智能地将用户查询映射到最合适的大语言模型。对于构建依赖多个大语言模型产品的企业来说,Arch-Router旨在解决一

Katanemo Labs的研究人员推出了Arch-Router,这是一种全新的路由模型和框架,旨在智能地将用户查询映射到最合适的大语言模型。8dj喜好网-记录每日喜好的科技时尚娱乐生活

对于构建依赖多个大语言模型产品的企业来说,Arch-Router旨在解决一个关键挑战:如何在不依赖刚性逻辑或每次变化时进行昂贵重训练的情况下,将查询导向最适合的模型。8dj喜好网-记录每日喜好的科技时尚娱乐生活

**大语言模型路由的挑战**8dj喜好网-记录每日喜好的科技时尚娱乐生活

随着大语言模型数量的增长,开发者正从单模型设置转向多模型系统,利用每个模型在特定任务上的独特优势(如代码生成、文本摘要或图像编辑)。8dj喜好网-记录每日喜好的科技时尚娱乐生活

大语言模型路由已成为构建和部署这些系统的关键技术,充当交通控制器的角色,将每个用户查询导向最合适的模型。8dj喜好网-记录每日喜好的科技时尚娱乐生活

现有的路由方法通常分为两类:"基于任务的路由",根据预定义任务路由查询;"基于性能的路由",寻求成本和性能之间的最佳平衡。8dj喜好网-记录每日喜好的科技时尚娱乐生活

然而,基于任务的路由在处理不明确或变化的用户意图时遇到困难,特别是在多轮对话中。另一方面,基于性能的路由刚性地优先考虑基准分数,往往忽略现实世界的用户偏好,并且在适应新模型时表现不佳,除非进行昂贵的微调。8dj喜好网-记录每日喜好的科技时尚娱乐生活

更根本的是,正如Katanemo Labs研究人员在论文中指出的:"现有路由方法在现实世界使用中存在局限性。它们通常优化基准性能,同时忽略由主观评估标准驱动的人类偏好。"8dj喜好网-记录每日喜好的科技时尚娱乐生活

研究人员强调需要"与主观人类偏好保持一致、提供更多透明度,并在模型和用例演变时保持易于适应"的路由系统。8dj喜好网-记录每日喜好的科技时尚娱乐生活

**偏好对齐路由的新框架**8dj喜好网-记录每日喜好的科技时尚娱乐生活

为了解决这些局限性,研究人员提出了一个"偏好对齐路由"框架,该框架基于用户定义的偏好将查询与路由策略匹配。8dj喜好网-记录每日喜好的科技时尚娱乐生活

在这个框架中,用户使用"领域-动作分类法"以自然语言定义他们的路由策略。这是一个两级层次结构,反映了人们自然描述任务的方式,从一般主题(领域,如"法律"或"金融")开始,然后缩小到特定任务(动作,如"摘要"或"代码生成")。8dj喜好网-记录每日喜好的科技时尚娱乐生活

每个策略都与首选模型相关联,允许开发者基于现实世界需求而不仅仅是基准分数做出路由决策。正如论文所述:"这种分类法作为一个心理模型,帮助用户定义清晰和结构化的路由策略。"8dj喜好网-记录每日喜好的科技时尚娱乐生活

路由过程分两个阶段进行。首先,偏好对齐路由模型接收用户查询和完整的策略集,选择最合适的策略。其次,映射函数将选定的策略连接到其指定的大语言模型。8dj喜好网-记录每日喜好的科技时尚娱乐生活

由于模型选择逻辑与策略分离,可以通过简单编辑路由策略来添加、删除或交换模型,无需重新训练或修改路由器本身。这种解耦提供了实际部署所需的灵活性,其中模型和用例不断演变。8dj喜好网-记录每日喜好的科技时尚娱乐生活

策略选择由Arch-Router驱动,这是一个为偏好对齐路由而微调的紧凑型15亿参数语言模型。Arch-Router接收用户查询和完整的策略描述集合作为其提示。然后生成最佳匹配策略的标识符。8dj喜好网-记录每日喜好的科技时尚娱乐生活

由于策略是输入的一部分,系统可以在推理时通过上下文学习适应新的或修改的路由,无需重新训练。这种生成方法允许Arch-Router使用其预训练知识来理解查询和策略的语义,并一次性处理整个对话历史。8dj喜好网-记录每日喜好的科技时尚娱乐生活

在提示中包含大量策略的一个常见担忧是可能增加延迟。然而,研究人员设计Arch-Router高度高效。"虽然路由策略的长度可能很长,但我们可以轻松增加Arch-Router的上下文窗口,对延迟的影响最小,"论文共同作者、Katanemo Labs创始人兼CEO Salman Paracha解释说。他指出,延迟主要由输出长度驱动,对于Arch-Router,输出只是路由策略的短名称,如"image_editing"或"document_creation"。8dj喜好网-记录每日喜好的科技时尚娱乐生活

**Arch-Router的实际应用**8dj喜好网-记录每日喜好的科技时尚娱乐生活

为了构建Arch-Router,研究人员在一个包含43,000个示例的精选数据集上微调了Qwen 2.5模型的15亿参数版本。然后在四个用于评估对话AI系统的公共数据集上测试了其相对于OpenAI、Anthropic和Google的最先进专有模型的性能。8dj喜好网-记录每日喜好的科技时尚娱乐生活

结果显示,Arch-Router实现了93.17%的最高总体路由分数,超过所有其他模型,包括顶级专有模型,平均优势为7.71%。该模型在更长对话中的优势更加明显,展示了其在多轮对话中跟踪上下文的强大能力。8dj喜好网-记录每日喜好的科技时尚娱乐生活

据Paracha介绍,这种方法已经在多个场景中得到应用。例如,在开源编码工具中,开发者使用Arch-Router将工作流程的不同阶段(如"代码设计"、"代码理解"和"代码生成")导向最适合每个任务的大语言模型。类似地,企业可以将文档创建请求路由到Claude 3.7 Sonnet等模型,同时将图像编辑任务发送到Gemini 2.5 Pro。8dj喜好网-记录每日喜好的科技时尚娱乐生活

该系统也非常适合"各个领域的个人助理,用户有从文本摘要到事实查询的多样化任务,"Paracha说,并补充说"在这些情况下,Arch-Router可以帮助开发者统一和改善整体用户体验。"8dj喜好网-记录每日喜好的科技时尚娱乐生活

这个框架与Arch集成,Arch是Katanemo Labs面向智能体的AI原生代理服务器,允许开发者实现复杂的流量整形规则。例如,在集成新的大语言模型时,团队可以向新模型发送特定路由策略的一小部分流量,通过内部指标验证其性能,然后自信地完全转移流量。该公司也在努力将其工具与评估平台集成,以进一步简化企业开发者的流程。8dj喜好网-记录每日喜好的科技时尚娱乐生活

最终目标是超越孤立的AI实现。"Arch-Router——以及更广泛的Arch——帮助开发者和企业从分散的大语言模型实现转向统一的、策略驱动的系统,"Paracha说。"在用户任务多样化的场景中,我们的框架帮助将任务和大语言模型的分散转变为统一体验,使最终产品对终端用户感觉无缝。"8dj喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
讯飞星火4.0 Turbo正式发布,7项“第一”引领大模型规模化应用落地

讯飞星火4.0 Turbo正式发布,7项“

【锋巢网】大模型应用7项第一!10

11-19 126阅读
极氪总裁提醒用户警惕杀猪盘:低价买车是诱饵

极氪总裁提醒用户警惕杀猪盘:低价

11月19日

11-19 117阅读
‌上汽奥迪首款B级车型将明年年中发布‌

‌上汽奥迪首款B级车型将明年年

11-19 112阅读
宝马全新纯电动BMW i4上市,eDrive40售46.99万

宝马全新纯电动BMW i4上市,eDrive

11-19 116阅读
割不动贵妇,燕窝盯上男总裁

割不动贵妇,燕窝盯上男总裁

消费

11-19 126阅读
戈壁和江百丽结局,男方不爱女方,女生到最后一无所有

戈壁和江百丽结局,男方不爱

《暗恋橘生淮南》中江百丽和戈壁

11-19 203阅读
泫雅&龙俊亨婚后首次公开近况:日本甜蜜旅行中!捧爱心蛋糕紧贴合影

泫雅&龙俊亨婚后首次

歌手泫雅和龙俊亨结婚一个月

11-19 97阅读
腾讯的这部甜宠剧,高颜值cp让人沦陷,男二也让人心动

腾讯的这部甜宠剧,高颜值cp

2020年4月10日,甜宠剧《致我们甜甜

11-19 107阅读
张晚意新剧《我知道我爱你》今日开播,他化身宠物医生

张晚意新剧《我知道我爱你

12月25日,张晚意的新剧《我知道我

11-19 119阅读
2024年全球票房十强!电影《毒液:最后一舞》中国票房破6亿

2024年全球票房十强!电影《

11月13日消息,根

11-19 103阅读
遥远未来的末世乌托邦,2D动作解谜游戏《默途》移动版即将上线

遥远未来的末世乌托邦,2D动

《默途》是由梦匠工作室开发的一款2D

11-19 116阅读
《严阵以待》DLC“深水”Steam页面开放 发售日待定

《严阵以待》DLC“深水”S

今日(11月16日),《严阵以待》DLC「Dark W

11-19 123阅读
原子之心村子区域所有啁啾表位置详细介绍

原子之心村子区域所有啁啾

原子之心游戏的村子区域里面一共拥有4

11-19 128阅读
饥荒san值怎么恢复?饥荒恢复san值的途径一览

饥荒san值怎么恢复?饥荒恢

san值是饥荒游戏里面的一个重要数值,玩

11-19 108阅读
饥荒南瓜可以做什么?饥荒超全南瓜食谱分享

饥荒南瓜可以做什么?饥荒

南瓜是饥荒游戏里面的一种蔬菜,玩家可以

11-19 105阅读