MiniMax-M1开源模型发布：百万级上下文窗口与超高效强化学习-喜好网-记录每日喜好的科技时尚娱乐生活

MiniMax-M1开源模型发布：百万级上下文窗口与超高效强化学习

1个月前科技 8观看

摘要中国AI初创公司MiniMax，因其热门的逼真AI视频模型海螺而在西方闻名，现已发布其最新大语言模型MiniMax-M1。对企业和开发者而言，这一完全开源的模型采用Apache 2.0许可证，企业可无限制地将其用于

中国AI初创公司MiniMax，因其热门的逼真AI视频模型海螺而在西方闻名，现已发布其最新大语言模型MiniMax-M1。对企业和开发者而言，这一完全开源的模型采用Apache 2.0许可证，企业可无限制地将其用于商业应用并根据需要进行修改，无需付费。

M1是一个开放权重模型，在长上下文推理、智能工具使用和高效计算性能方面树立了新标准。该模型现已在AI代码共享社区Hugging Face和微软的竞争对手GitHub上发布，这是公司在X社交账户上宣布的"MiniMax周"的首个发布产品，预计还将有更多产品公告。

MiniMax-M1的上下文窗口达到100万输入token，输出可达8万token，使其成为长上下文推理任务中最具扩展性的模型之一。

大语言模型中的"上下文窗口"指模型一次可处理的最大token数量，包括输入和输出。Token是文本的基本单位，可能包括完整单词、单词片段、标点符号或代码符号。这些token被转换为数值向量，模型通过其参数来表示和操作含义，本质上是LLM的原生语言。

相比之下，OpenAI的GPT-4o上下文窗口仅为12.8万token，足以在单次交互中与用户交换约一本小说的信息量。而拥有100万token的MiniMax-M1可以交换一个小型文集或丛书系列的信息量。谷歌Gemini 2.5 Pro同样提供100万token的上下文上限，据报道正在开发200万token窗口。

但M1还有另一个优势：它采用创新、高效的强化学习技术进行训练。该模型使用混合专家架构(MoE)和闪电注意力机制进行训练，旨在降低推理成本。

根据技术报告，在生成10万token长度时，MiniMax-M1仅消耗DeepSeek R1所需浮点运算(FLOPs)的25%。

架构和变体

该模型提供两个变体——MiniMax-M1-40k和MiniMax-M1-80k，分别对应其"思考预算"或输出长度。

该架构基于公司早期的MiniMax-Text-01基础构建，包含4560亿参数，每个token激活459亿参数。

此次发布的突出特点是模型的训练成本。MiniMax报告称，M1模型使用大规模强化学习训练，总成本为53.47万美元，在该领域展现了罕见的效率。

这一效率归功于名为CISPO的定制RL算法，该算法剪切重要性采样权重而非token更新，以及有助于简化扩展的混合注意力设计。

对于前沿LLM而言，这是一个惊人的"低成本"，因为DeepSeek训练其热门R1推理模型的成本据报告为500-600万美元，而OpenAI GPT-4这一已有两年多历史的模型训练成本据说超过1亿美元。这些成本来自图形处理单元(GPU)的价格和运行这些芯片所需的能源，GPU主要由英伟达等公司制造，每模块成本可达2-3万美元或更多。

基准测试性能

MiniMax-M1已在一系列测试高级推理、软件工程和工具使用能力的既定基准上进行评估。

在数学竞赛基准AIME 2024上，M1-80k模型达到86.0%的准确率。在编码和长上下文任务中也表现优异：

LiveCodeBench得分65.0% SWE-bench Verified得分56.0% TAU-bench得分62.8% OpenAI MRCR(4-needle版本)得分73.4%

这些结果使MiniMax-M1在多个复杂任务上领先于DeepSeek-R1和Qwen3-235B-A22B等其他开放权重竞争对手。

虽然OpenAI o3和Gemini 2.5 Pro等封闭权重模型在某些基准上仍占据榜首，但MiniMax-M1大幅缩小了性能差距，同时在Apache-2.0许可证下保持免费访问。

部署选项和开发工具

对于部署，MiniMax推荐vLLM作为服务后端，因其针对大型模型工作负载、内存效率和批处理请求处理的优化。公司还提供使用Transformers库的部署选项。

MiniMax-M1包含结构化函数调用功能，并配备具有在线搜索、视频和图像生成、语音合成和语音克隆工具的聊天机器人API。这些功能旨在支持实际应用中更广泛的智能行为。

对技术决策者和企业买家的意义

MiniMax-M1的开放访问、长上下文能力和计算效率解决了负责大规模管理AI系统的技术专业人员面临的几个反复出现的挑战。

对于负责LLM全生命周期管理的工程主管——如优化模型性能和在紧张时间内部署——MiniMax-M1提供了更低的运营成本配置，同时支持高级推理任务。其长上下文窗口可以显著减少对跨越数万或数十万token的企业文档或日志数据的预处理工作。