具备内嵌引用的新一代小型推理模型由注重伦理培训的 AI 初创公司 Pleias 发布

1周前 科技 1观看
摘要 法国 AI 初创公司 Pleias 去年年底推出了注重伦理培训的 Pleias 1.0 小型语言模型系列,引起了巨大反响——这是迄今为止首个且唯一一个完全基于抓取“open”数据构建的模型系列,此类

法国 AI 初创公司 Pleias 去年年底推出了注重伦理培训的 Pleias 1.0 小型语言模型系列,引起了巨大反响——这是迄今为止首个且唯一一个完全基于抓取“open”数据构建的模型系列,此类数据明确标记为公共领域、开源或未授权且不受版权保护。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

如今,该公司宣布发布两款开源的小规模推理模型,专为检索增强生成 (RAG) 、引用综合以及结构化多语种输出而设计。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

此次发布包括两个核心模型 —— Pleias-RAG-350M 和 Pleias-RAG-1B —— 每款模型均提供 CPU 优化的 GGUF 格式版本,总共四个可直接部署的变体。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

所有模型均基于 Pleias 1.0,可独立使用,也可与该公司已部署或计划部署的其他大语言模型 (LLM) 联合使用。所有模型似乎均遵循宽松的 Apache 2.0 开源许可证,意味着各组织可自由获取、修改并部署于商业场景中。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

正如你所知,RAG 是一种被广泛使用的技术,企业和组织可以借此将诸如 OpenAI 的 GPT-4、Google 的 Gemini 2.5 Flash、Anthropic 的 Claude Sonnet 3.7 或 Cohere 的 Command-A 等大语言模型,以及 Llama 4、DeepSeek V3 等开源替代方案,与外部知识库(如企业文档和云存储)连接。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

这对希望构建能够引用内部政策或产品目录的聊天机器人及其他 AI 应用的企业来说往往是必不可少的(另一种选择是将所有必要信息提示给具备长上下文能力的大语言模型,但这种方式对于注重安全性和单 token 传输成本的企业场景来说可能并不合适)。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

Pleias-RAG 模型系列是最新一次在小型语言模型中尝试调和准确性与效率之间差距的努力。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

这些模型主要面向寻求成本效益高且不牺牲可追溯性、多语种能力或结构化推理工作流程的大型企业、开发者和研究者。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

目标用户群实际上主要是 Pleias 所在的欧洲大陆,正如联合创始人 Alexander Doria 通过社交平台 X 向 VentureBeat 直接消息中所述:2Hn喜好网-记录每日喜好的科技时尚娱乐生活

“我们首要的动机在于欧洲扩展 RAG 应用时面临的困难。大多数私人机构拥有的 GPU 数量极少(情况可能已有变化,但不久前欧洲仅占 [Nvidia] H100 GPU 总量的不到 2%)。而与此同时,出于包括 GDPR 在内的监管原因,存在强烈的自建主机的需求。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

“过去一年中,小型语言模型进步显著,但它们常常被设计成‘迷你聊天机器人’,我们观察到在非英语语言场景下,无论是对输入文本理解还是生成文本质量,都出现了明显性能下降。所以我们很高兴达成了大多数目标:2Hn喜好网-记录每日喜好的科技时尚娱乐生活

  一个在 CPU 及其他受限基础设施上也能作为 RAG 替代 7-8B 模型的实际方案;2Hn喜好网-记录每日喜好的科技时尚娱乐生活

  完全可验证且具备引用支持的模型;2Hn喜好网-记录每日喜好的科技时尚娱乐生活

  同时保证了欧洲语言的处理性能。”2Hn喜好网-记录每日喜好的科技时尚娱乐生活

当然,模型在 Apache 2.0 开源许可下开放,意味着全球任何人都可以自由获取并使用这些模型。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

专注于扎根、引用和事实2Hn喜好网-记录每日喜好的科技时尚娱乐生活

Pleias-RAG 新模型的一大关键特性是其对来源引用的原生支持,能够在模型推理过程中直接生成带有原文引用的结果。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

不同于事后添加引用的方法或外部分块处理流程,Pleias-RAG 模型直接生成引用,采用了受 Wikipedia 引用格式启发的语法。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

这种方法既能生成更简洁、易读的引用片段,又能保持结果的可验证性。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

在受监管的环境中,引用扎根具有实际功能意义。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

对于医疗、法律和金融等需要对决策过程进行文档记录和可追溯性要求的领域,这些内置引用为审核提供了直接途径。Pleias 将这一设计选择定位为一种伦理必然,符合对可解释 AI 增长的监管需求。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

初步代理性?2Hn喜好网-记录每日喜好的科技时尚娱乐生活

Pleias-RAG 模型被描述为“初步代理性” —— 它们能够自主判断查询是否易于理解、判断查询是简单还是复杂,并基于来源是否充足来决定回答、重新表述或拒绝回答。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

其结构化输出包括语言检测、查询及来源分析报告,以及经过推理后的回答。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

尽管体量较小(Pleias-RAG-350M 仅有 3.5 亿参数),这些模型展现出了传统上与更大代理性系统相关的行为特征。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

据 Pleias 表示,这些能力源自一条专门的中期训练流程,将合成数据生成与迭代推理提示相融合。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

Pleias-RAG-350M 明确面向受限环境设计,在标准 CPU(包括移动级基础设施)上表现良好。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

根据内部基准测试,未经量化的 GGUF 版本在 8GB 内存配置上大约 20 秒即可生成完整的推理输出。得益于其小巧的体量,该模型在竞争中拥有少数对手,如 Qwen-0.5 和 SmolLM,但其对结构化来源综合的关注更为突出。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

跨任务和语言的竞争性能2Hn喜好网-记录每日喜好的科技时尚娱乐生活

在基准评测中,Pleias-RAG-350M 与 Pleias-RAG-1B 在 HotPotQA、2WikiMultiHopQA 以及 MuSiQue 等任务上表现超越了大多数参数量低于 40 亿的开源模型,包括 Llama-3.1-8B 和 Qwen-2.5-7B。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

这些多跳 RAG 基准测试考验了模型在跨多个文档进行推理以及辨识干扰信息方面的能力 —— 这是企业级知识系统的常见需求。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

此外,这些模型在多语种场景中也展现了强大实力。在法国、德国、西班牙及意大利语的翻译基准测试集上,Pleias 模型的性能下降几乎可以忽略不计。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

这使得它们与其他通常在处理非英语查询时性能下降 10% 至 35% 的小型语言模型明显区分开来。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

这种多语种支持得益于精心设计的 Tokenizer 和包含跨语言切换练习的合成对抗训练。模型不仅能检测用户查询的语言,也力求用相同语言进行回应 —— 这对于全球部署来说是一项重要特性。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

此外,Doria 强调了这些模型如何增强企业已有模型的性能:2Hn喜好网-记录每日喜好的科技时尚娱乐生活

“我们设想这些模型将用于编排场景,特别是由于其计算成本低。在评估中得到的一个非常有趣的结果是:即使是 350M 模型,在完全不同的答案上也表现优异,与 [Meta] Llama 和 [Alibaba] Qwen 所给出的答案截然不同。所以我们认为这得益于我们的推理流程,在满足成本效益的同时实现了真正的互补性……”2Hn喜好网-记录每日喜好的科技时尚娱乐生活

开放获取与许可2Hn喜好网-记录每日喜好的科技时尚娱乐生活

根据 Doria 以及详细介绍 Pleias-RAG 系列训练过程的技术论文,模型的训练数据来源于:“用于创建 RAG 训练集的 Common Corpus(全部 300 万条示例均来自此处)。我们在此基础上采用了 [Google] Gemma 来生成推理合成轨迹,因为其许可允许再利用和再训练。”2Hn喜好网-记录每日喜好的科技时尚娱乐生活

两款模型均在 Apache 2.0 许可下发布,允许商业再利用并集成至更大系统中。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

Pleias 强调,这些模型适合集成至搜索增强型助手、教育工具和用户支持系统中。公司还提供了 API 库,以简化开发者进行结构化输入输出格式化的过程。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

此次模型发布是 Pleias 更广泛努力的一部分,旨在将小型大语言模型重新定位为结构化推理的工具,而非通用对话机器人。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

通过利用外部记忆架构与系统化引用方法,Pleias-RAG 系列为那些信息不透明的前沿模型提供了一种透明、可审核的替代方案。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

未来展望2Hn喜好网-记录每日喜好的科技时尚娱乐生活

展望未来,Pleias 计划通过扩展模型处理更长上下文能力、更紧密的搜索集成以及针对更一致身份呈现的个性调整来拓展模型功能。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

他们还在探索强化学习,尤其是在引用准确性等领域,通过算法方式对引用验证进行量化。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

团队还积极与 Wikimedia Foundation 等合作伙伴展开合作,以利用可信来源支持特定的搜索集成。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

最终,当前针对 RAG 的专用实现、模型与工作流程可能会随着更先进的 AI 模型的训练和部署而逐步淘汰,那些模型将原生整合 RAG 与代理性工具的使用。正如 Doria 在 DM 中对 VentureBeat 所言:2Hn喜好网-记录每日喜好的科技时尚娱乐生活

“从长远来看,我坚信传统的 RAG 流程和长上下文模型终将被搜索代理所颠覆。我们已经开始朝这个方向前进:这也是为什么我们的模型已经具备了许多目前在 RAG 应用中外部化的功能(如查询重构、重新排序等)。我们显然还会更进一步,将搜索能力和来源处理能力直接整合到模型中。我坚信,随着代理模型能够自主掌控工作流程,RAG 终将以自动化的方式消失。”2Hn喜好网-记录每日喜好的科技时尚娱乐生活

通过 Pleias-RAG-350M 和 1B,该公司正押注于这样一个理念:当小型模型搭配上强大的推理支架与可验证的输出时,它们能够在多语种及基础设施受限的部署场景中,与体量更大的模型一较高下。2Hn喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
拼多多「隐身」双十一

拼多多「隐身」双十一

纵然是在互联互通的大背景下,双十

11-19 59阅读
抖音电商拐点已至,从美妆行业开始跌落?

抖音电商拐点已至,从美妆行业开始

前几日,抖音首次公布了“双11”大

11-19 59阅读
SVM频闪指标低的旗舰!iQOO Neo10系列屏幕参数出炉

SVM频闪指标低的旗舰!iQOO Neo10

11月18日

11-19 64阅读
雷神G50 Ultra手柄预售:TMR摇杆+扳机震动,179元起

雷神G50 Ultra手柄预售:TMR摇杆+

11-19 62阅读
李子柒复更,三大平台提前过年

李子柒复更,三大平台提前过年

停更1

11-19 59阅读
一夜新娘袁昊年龄, 袁昊扮演的秦尚城和花溶在一起了吗

一夜新娘袁昊年龄, 袁昊扮

网剧《一夜新娘》热播,男主袁昊圈

11-19 57阅读
人民日报评代拍乱象, 代拍为何惹众怒?

人民日报评代拍乱象, 代拍

近期除了家暴一词被大家热议,代拍

11-19 62阅读
网络电影《浴血无名·奔袭》入选“五个一工程” 海空雄鹰文化传媒再创主旋律佳作

网络电影《浴血无名·奔袭

  11月18日,中共中央宣传部公布第十

11-19 57阅读
电影《朝花夕拾》将映   张珊萌担任制片人及主演

电影《朝花夕拾》将映

  “积谷防饥,养儿防老”,关注乡村“

11-19 64阅读
零容忍!税务部门公布3起网络主播偷税被处罚案件

零容忍!税务部门公布3起网

11月15日消息,近

11-19 65阅读
《严阵以待》DLC“深水”Steam页面开放 发售日待定

《严阵以待》DLC“深水”S

今日(11月16日),《严阵以待》DLC「Dark W

11-19 65阅读
原子之心医院区域密码房解谜攻略

原子之心医院区域密码房解

原子之心的医院区域里面有一个密码房,需

11-19 65阅读
原子之心展览园死者位置_展览园全部死者位置一览

原子之心展览园死者位置_

原子之心游戏的展览园区域中一共拥有11

11-19 64阅读
饥荒理智怎么恢复?饥荒超全恢复理智值方法一览

饥荒理智怎么恢复?饥荒超

饥荒理智怎么恢复?在饥荒游戏的设定中,玩

11-19 65阅读
饥荒石头怎么大量获得?饥荒快速获得大量石头的技巧分享

饥荒石头怎么大量获得?饥

饥荒石头怎么大量获得?石头是饥荒游戏里

11-19 60阅读