法国 AI 初创公司 Pleias 去年年底推出了注重伦理培训的 Pleias 1.0 小型语言模型系列,引起了巨大反响——这是迄今为止首个且唯一一个完全基于抓取“open”数据构建的模型系列,此类数据明确标记为公共领域、开源或未授权且不受版权保护。
如今,该公司宣布发布两款开源的小规模推理模型,专为检索增强生成 (RAG) 、引用综合以及结构化多语种输出而设计。
此次发布包括两个核心模型 —— Pleias-RAG-350M 和 Pleias-RAG-1B —— 每款模型均提供 CPU 优化的 GGUF 格式版本,总共四个可直接部署的变体。
所有模型均基于 Pleias 1.0,可独立使用,也可与该公司已部署或计划部署的其他大语言模型 (LLM) 联合使用。所有模型似乎均遵循宽松的 Apache 2.0 开源许可证,意味着各组织可自由获取、修改并部署于商业场景中。
正如你所知,RAG 是一种被广泛使用的技术,企业和组织可以借此将诸如 OpenAI 的 GPT-4、Google 的 Gemini 2.5 Flash、Anthropic 的 Claude Sonnet 3.7 或 Cohere 的 Command-A 等大语言模型,以及 Llama 4、DeepSeek V3 等开源替代方案,与外部知识库(如企业文档和云存储)连接。
这对希望构建能够引用内部政策或产品目录的聊天机器人及其他 AI 应用的企业来说往往是必不可少的(另一种选择是将所有必要信息提示给具备长上下文能力的大语言模型,但这种方式对于注重安全性和单 token 传输成本的企业场景来说可能并不合适)。
Pleias-RAG 模型系列是最新一次在小型语言模型中尝试调和准确性与效率之间差距的努力。
这些模型主要面向寻求成本效益高且不牺牲可追溯性、多语种能力或结构化推理工作流程的大型企业、开发者和研究者。
目标用户群实际上主要是 Pleias 所在的欧洲大陆,正如联合创始人 Alexander Doria 通过社交平台 X 向 VentureBeat 直接消息中所述:
“我们首要的动机在于欧洲扩展 RAG 应用时面临的困难。大多数私人机构拥有的 GPU 数量极少(情况可能已有变化,但不久前欧洲仅占 [Nvidia] H100 GPU 总量的不到 2%)。而与此同时,出于包括 GDPR 在内的监管原因,存在强烈的自建主机的需求。
“过去一年中,小型语言模型进步显著,但它们常常被设计成‘迷你聊天机器人’,我们观察到在非英语语言场景下,无论是对输入文本理解还是生成文本质量,都出现了明显性能下降。所以我们很高兴达成了大多数目标:
一个在 CPU 及其他受限基础设施上也能作为 RAG 替代 7-8B 模型的实际方案;
完全可验证且具备引用支持的模型;
同时保证了欧洲语言的处理性能。”
当然,模型在 Apache 2.0 开源许可下开放,意味着全球任何人都可以自由获取并使用这些模型。
专注于扎根、引用和事实
Pleias-RAG 新模型的一大关键特性是其对来源引用的原生支持,能够在模型推理过程中直接生成带有原文引用的结果。
不同于事后添加引用的方法或外部分块处理流程,Pleias-RAG 模型直接生成引用,采用了受 Wikipedia 引用格式启发的语法。
这种方法既能生成更简洁、易读的引用片段,又能保持结果的可验证性。
在受监管的环境中,引用扎根具有实际功能意义。
对于医疗、法律和金融等需要对决策过程进行文档记录和可追溯性要求的领域,这些内置引用为审核提供了直接途径。Pleias 将这一设计选择定位为一种伦理必然,符合对可解释 AI 增长的监管需求。
初步代理性?
Pleias-RAG 模型被描述为“初步代理性” —— 它们能够自主判断查询是否易于理解、判断查询是简单还是复杂,并基于来源是否充足来决定回答、重新表述或拒绝回答。
其结构化输出包括语言检测、查询及来源分析报告,以及经过推理后的回答。
尽管体量较小(Pleias-RAG-350M 仅有 3.5 亿参数),这些模型展现出了传统上与更大代理性系统相关的行为特征。
据 Pleias 表示,这些能力源自一条专门的中期训练流程,将合成数据生成与迭代推理提示相融合。
Pleias-RAG-350M 明确面向受限环境设计,在标准 CPU(包括移动级基础设施)上表现良好。
根据内部基准测试,未经量化的 GGUF 版本在 8GB 内存配置上大约 20 秒即可生成完整的推理输出。得益于其小巧的体量,该模型在竞争中拥有少数对手,如 Qwen-0.5 和 SmolLM,但其对结构化来源综合的关注更为突出。
跨任务和语言的竞争性能
在基准评测中,Pleias-RAG-350M 与 Pleias-RAG-1B 在 HotPotQA、2WikiMultiHopQA 以及 MuSiQue 等任务上表现超越了大多数参数量低于 40 亿的开源模型,包括 Llama-3.1-8B 和 Qwen-2.5-7B。
这些多跳 RAG 基准测试考验了模型在跨多个文档进行推理以及辨识干扰信息方面的能力 —— 这是企业级知识系统的常见需求。
此外,这些模型在多语种场景中也展现了强大实力。在法国、德国、西班牙及意大利语的翻译基准测试集上,Pleias 模型的性能下降几乎可以忽略不计。
这使得它们与其他通常在处理非英语查询时性能下降 10% 至 35% 的小型语言模型明显区分开来。
这种多语种支持得益于精心设计的 Tokenizer 和包含跨语言切换练习的合成对抗训练。模型不仅能检测用户查询的语言,也力求用相同语言进行回应 —— 这对于全球部署来说是一项重要特性。
此外,Doria 强调了这些模型如何增强企业已有模型的性能:
“我们设想这些模型将用于编排场景,特别是由于其计算成本低。在评估中得到的一个非常有趣的结果是:即使是 350M 模型,在完全不同的答案上也表现优异,与 [Meta] Llama 和 [Alibaba] Qwen 所给出的答案截然不同。所以我们认为这得益于我们的推理流程,在满足成本效益的同时实现了真正的互补性……”
开放获取与许可
根据 Doria 以及详细介绍 Pleias-RAG 系列训练过程的技术论文,模型的训练数据来源于:“用于创建 RAG 训练集的 Common Corpus(全部 300 万条示例均来自此处)。我们在此基础上采用了 [Google] Gemma 来生成推理合成轨迹,因为其许可允许再利用和再训练。”
两款模型均在 Apache 2.0 许可下发布,允许商业再利用并集成至更大系统中。
Pleias 强调,这些模型适合集成至搜索增强型助手、教育工具和用户支持系统中。公司还提供了 API 库,以简化开发者进行结构化输入输出格式化的过程。
此次模型发布是 Pleias 更广泛努力的一部分,旨在将小型大语言模型重新定位为结构化推理的工具,而非通用对话机器人。
通过利用外部记忆架构与系统化引用方法,Pleias-RAG 系列为那些信息不透明的前沿模型提供了一种透明、可审核的替代方案。
未来展望
展望未来,Pleias 计划通过扩展模型处理更长上下文能力、更紧密的搜索集成以及针对更一致身份呈现的个性调整来拓展模型功能。
他们还在探索强化学习,尤其是在引用准确性等领域,通过算法方式对引用验证进行量化。
团队还积极与 Wikimedia Foundation 等合作伙伴展开合作,以利用可信来源支持特定的搜索集成。
最终,当前针对 RAG 的专用实现、模型与工作流程可能会随着更先进的 AI 模型的训练和部署而逐步淘汰,那些模型将原生整合 RAG 与代理性工具的使用。正如 Doria 在 DM 中对 VentureBeat 所言:
“从长远来看,我坚信传统的 RAG 流程和长上下文模型终将被搜索代理所颠覆。我们已经开始朝这个方向前进:这也是为什么我们的模型已经具备了许多目前在 RAG 应用中外部化的功能(如查询重构、重新排序等)。我们显然还会更进一步,将搜索能力和来源处理能力直接整合到模型中。我坚信,随着代理模型能够自主掌控工作流程,RAG 终将以自动化的方式消失。”
通过 Pleias-RAG-350M 和 1B,该公司正押注于这样一个理念:当小型模型搭配上强大的推理支架与可验证的输出时,它们能够在多语种及基础设施受限的部署场景中,与体量更大的模型一较高下。