Mistral AI 发布 Devstral――一款能在笔记本上运行的强大新型开源软件工程代理模型

2个月前 科技 19观看
摘要 资金充裕的法国 AI 模型制造商 Mistral 自 2023 年秋季推出其强大的开源基础模型以来,一直表现超出预期 —— 但最近在 X 平台上,一些开发者对其上一次发布的专有大语言模型 ( LLM )

资金充裕的法国 AI 模型制造商 Mistral 自 2023 年秋季推出其强大的开源基础模型以来,一直表现超出预期 —— 但最近在 X 平台上,一些开发者对其上一次发布的专有大语言模型 ( LLM ) Medium 3 提出了批评,认为这背离了其开源根基和承诺。VB8喜好网-记录每日喜好的科技时尚娱乐生活

请记住,开源模型可以被任何人自由获取和改编,而专有模型则需要付费,其定制选项更受限且由模型制造商控制。VB8喜好网-记录每日喜好的科技时尚娱乐生活

然而今天,Mistral 正以全新姿态回归,并大力重申对开源 AI 社区,特别是对以 AI 驱动的软件开发领域的承诺。该公司与开源初创企业 All Hands AI(Open Devin 的创建者)联手发布了 Devstral —— 一款拥有 2400 万参数的全新开源语言模型,其参数规模远小于许多竞争对手的多十亿级模型,从而大幅降低了计算资源要求,使其能够在笔记本电脑上运行,专为代理式 AI 开发而构建。VB8喜好网-记录每日喜好的科技时尚娱乐生活

Building upon CodestralVB8喜好网-记录每日喜好的科技时尚娱乐生活

Devstral 标志着 Mistral 在代码领域模型不断扩展产品线的下一步,此前 Codestral 系列曾取得成功。VB8喜好网-记录每日喜好的科技时尚娱乐生活

Codestral 于 2024 年 5 月首次发布,是 Mistral 初次涉足专用编码大语言模型的尝试。该模型拥有 220 亿参数,经过针对超过 80 种编程语言的训练,并因其在代码生成和补全任务中的表现而备受推崇。VB8喜好网-记录每日喜好的科技时尚娱乐生活

该模型的受欢迎程度和技术优势促成了快速迭代,其后推出了基于 Mamba 架构的增强版本 Codestral-Mamba,最近又发布了 Codestral 25.01,受到了 IDE 插件开发者和企业用户的青睐,他们需要高频率、低延迟的模型。VB8喜好网-记录每日喜好的科技时尚娱乐生活

Codestral 带来的动力帮助 Mistral 确立了在编码模型生态系统中的关键地位,并为 Devstral 的开发奠定了基础 —— 从快速代码补全扩展到全面的代理任务执行。VB8喜好网-记录每日喜好的科技时尚娱乐生活

Outperforms larger models on top SWE benchmarksVB8喜好网-记录每日喜好的科技时尚娱乐生活

Devstral 在 SWE-Bench Verified 基准测试中获得了 46.8% 的分数,该数据集包含 500 个真实 GitHub 问题,并经过手动验证其正确性。VB8喜好网-记录每日喜好的科技时尚娱乐生活

这一成绩使其超越了以往所有发布的开源模型以及多个封闭式模型,包括 GPT-4.1-mini,其优势超过了 20 个百分点。VB8喜好网-记录每日喜好的科技时尚娱乐生活

Mistral AI 的研究科学家 Baptiste Rozière 表示:“目前,它无疑是在 SWE-Bench Verified 和代码代理任务中表现最为优异的开源模型。而且它的模型规模非常小 —— 仅有 240 亿参数 —— 你甚至可以在 MacBook 上本地运行。”VB8喜好网-记录每日喜好的科技时尚娱乐生活

Mistral AI 开发者关系负责人 Sophia Yang 博士在社交网络 X 上写道:“将 Devstral 与任何评估架构下的封闭和开源模型对比,我们发现 Devstral 的性能远超许多封闭式替代方案。例如,其超越了近期发布的 GPT-4.1-mini 的性能超过 20%。”VB8喜好网-记录每日喜好的科技时尚娱乐生活

该模型基于 Mistral Small 3.1,通过强化学习和安全对齐技术进行了微调。VB8喜好网-记录每日喜好的科技时尚娱乐生活

Rozière 说:“我们从 Mistral 的 small tree control 这个已经表现出色的基础模型开始,然后采用安全性和强化学习技术进行专项化调优,以提升其在 SWE-Bench 上的表现。”VB8喜好网-记录每日喜好的科技时尚娱乐生活

Built for the agentic eraVB8喜好网-记录每日喜好的科技时尚娱乐生活

Devstral 不仅仅是一款代码生成模型 —— 它还经过优化,可集成到 OpenHands、SWE-Agent 和 OpenDevin 等代理式框架中。VB8喜好网-记录每日喜好的科技时尚娱乐生活

这些支撑系统使 Devstral 能够与测试用例交互、浏览源文件,并在多个项目中执行多步骤任务。VB8喜好网-记录每日喜好的科技时尚娱乐生活

Rozière 表示:“我们与 OpenDevin 共同发布该模型,它作为代码代理的支撑系统。我们负责构建模型,而对方构建支撑系统 —— 一套模型可以使用的提示和工具,类似于开发者模型的后端。”VB8喜好网-记录每日喜好的科技时尚娱乐生活

为了确保模型的稳健性,开发团队在多种仓库和内部工作流中对其进行了测试。VB8喜好网-记录每日喜好的科技时尚娱乐生活

Rozière 解释道:“我们非常谨慎地避免对 SWE-Bench 数据集过拟合。我们仅使用未从 SWE-Bench 集合克隆的仓库数据进行训练,并在不同的框架下对该模型进行了验证。”VB8喜好网-记录每日喜好的科技时尚娱乐生活

他还补充说,Mistral 已经在内部推广使用 Devstral,以确保其在面对全新且未曾见过的任务时具有良好的泛化能力。VB8喜好网-记录每日喜好的科技时尚娱乐生活

Efficient deployment with permissive open license — even for enterprise and commercial projectsVB8喜好网-记录每日喜好的科技时尚娱乐生活

Devstral 采用紧凑的 24B 架构,使得开发者可以在本地运行,无论是使用单块 RTX 4090 GPU 还是配置 32GB 内存的 Mac。这使得它在隐私敏感的场景和边缘部署中颇具吸引力。VB8喜好网-记录每日喜好的科技时尚娱乐生活

Rozière 表示:“这款模型面向对本地和隐私运行有需求的爱好者,即使在没有互联网的飞机上也能使用。”VB8喜好网-记录每日喜好的科技时尚娱乐生活

除了性能和便携性之外,其 Apache 2.0 许可证为商业应用提供了极具吸引力的方案。该许可证允许无限制的使用、改编和分发 —— 即使用于专有产品,这也使得 Devstral 成为企业采用时的低摩擦选项。VB8喜好网-记录每日喜好的科技时尚娱乐生活

详细的规格和使用说明可在 Hugging Face 上的 Devstral-Small-2505 模型卡中查阅。VB8喜好网-记录每日喜好的科技时尚娱乐生活

该模型具有 128,000 Token 的上下文窗口,并使用具有 131,000 词汇量的 Tekken Tokenizer。VB8喜好网-记录每日喜好的科技时尚娱乐生活

它支持通过包括 Hugging Face、Ollama、Kaggle、LM Studio 和 Unsloth 在内的所有主要开源平台进行部署,并能良好地与 vLLM、Transformers 和 Mistral Inference 等库协同工作。VB8喜好网-记录每日喜好的科技时尚娱乐生活

Available via API or locallyVB8喜好网-记录每日喜好的科技时尚娱乐生活

通过 Mistral 的 Le Platforme API (应用程序编程接口),以模型名称 devstral-small-2505 可访问 Devstral,其定价为每百万输入 Token 0.10 美元,每百万输出 Token 0.30 美元。VB8喜好网-记录每日喜好的科技时尚娱乐生活

对于本地部署的用户,诸如 OpenHands 等框架的支持可以让其无需额外工作便能与代码库及代理式工作流集成。VB8喜好网-记录每日喜好的科技时尚娱乐生活

Rozière 分享了他在开发流程中如何使用 Devstral 的经验:“我自己也在用。你可以让它执行一些小任务,比如更新包的版本或者修改一个分词脚本。它能够在你的代码中找到正确的位置并进行修改。使用起来真的很好。”VB8喜好网-记录每日喜好的科技时尚娱乐生活

More to comeVB8喜好网-记录每日喜好的科技时尚娱乐生活

尽管 Devstral 目前以研究预览版的形式发布,Mistral 与 All Hands AI 已经在开发具备更多功能的大型后续模型。Rozière 指出:“小型模型和大型模型之间总会存在差距,但我们已经在缩小这一差距上迈出了很大一步。即便与一些大型竞争对手相比,这些模型的表现已经非常强劲。”VB8喜好网-记录每日喜好的科技时尚娱乐生活

凭借其性能基准、宽松许可证以及代理式设计,Devstral 不仅定位为一款代码生成工具,更成为构建自主软件工程系统的基础模型。VB8喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
华为放出预热视频:暗示Mate 70系列将搭载全新AI手势

华为放出预热视频:暗示Mate 70系

11月19日

11-19 122阅读
LP周报丨珠海给去看展的投资人,送上了100亿大礼包

LP周报丨珠海给去看展的投资人,送

最近

11-19 115阅读
徐工集团CVC基金备案成功

徐工集团CVC基金备案成功

2024

11-19 104阅读
1元水,巨头们的游戏

1元水,巨头们的游戏

今年

11-19 128阅读
东方树叶们的「备胎上位史」

东方树叶们的「备胎上位史」

中国

11-19 121阅读
斗鱼第一土豪落天神身份曝光, 花钱如流水居然是这样的身份!

斗鱼第一土豪落天神身份曝

如果很早就看直播的网友,想必都听

11-19 98阅读
中国世界电影学会|2024·法国优秀影片展映圆满落幕

中国世界电影学会|2024·法

  由中国世界电影学会、中国文联电

11-19 102阅读
《我的主场》“篮”大凌晨五点魔鬼拉练 宏远主场喜提冠军大师课

《我的主场》“篮”大凌晨

  如果用运动定义青春,那么篮球必定

11-19 119阅读
魔兽世界年卡来了 送筋肉鱼人 兔年坐骑,怀旧服幽冥幼龙(魔兽世界年卡来了)

魔兽世界年卡来了 送筋肉

暴雪今天早晨发布了魔兽世界最新的

11-19 96阅读
三国群英传2秘籍大全_三国群英传2秘籍代码一览

三国群英传2秘籍大全_三国

相信熟悉三国群英传系列游戏的朋友都不

11-19 133阅读
帝国时代2秘籍大全_帝国时代2征服者/高清版秘籍(含隐藏秘籍)

帝国时代2秘籍大全_帝国时

帝国时代2秘籍是很多玩帝国时代2游戏玩

11-19 228阅读
原子之心3826设施啁啾表全收集攻略

原子之心3826设施啁啾表全

啁啾表是原子之心游戏里面的一个特殊收

11-19 110阅读
原子之心前期速刷神经聚合物的方法分享

原子之心前期速刷神经聚合

神经聚合物是原子之心游戏中用来解锁技

11-19 102阅读
饥荒金色腰带有什么用?饥荒金色腰带用途详细介绍

饥荒金色腰带有什么用?饥

饥荒金色腰带有什么用?金色腰带是饥荒游

11-19 124阅读