MiniMax-M1开源模型发布:百万级上下文窗口与超高效强化学习

1天前 科技 1观看
摘要 中国AI初创公司MiniMax,因其热门的逼真AI视频模型海螺而在西方闻名,现已发布其最新大语言模型MiniMax-M1。对企业和开发者而言,这一完全开源的模型采用Apache 2.0许可证,企业可无限制地将其用于

中国AI初创公司MiniMax,因其热门的逼真AI视频模型海螺而在西方闻名,现已发布其最新大语言模型MiniMax-M1。对企业和开发者而言,这一完全开源的模型采用Apache 2.0许可证,企业可无限制地将其用于商业应用并根据需要进行修改,无需付费。0v2喜好网-记录每日喜好的科技时尚娱乐生活

M1是一个开放权重模型,在长上下文推理、智能工具使用和高效计算性能方面树立了新标准。该模型现已在AI代码共享社区Hugging Face和微软的竞争对手GitHub上发布,这是公司在X社交账户上宣布的"MiniMax周"的首个发布产品,预计还将有更多产品公告。0v2喜好网-记录每日喜好的科技时尚娱乐生活

MiniMax-M1的上下文窗口达到100万输入token,输出可达8万token,使其成为长上下文推理任务中最具扩展性的模型之一。0v2喜好网-记录每日喜好的科技时尚娱乐生活

大语言模型中的"上下文窗口"指模型一次可处理的最大token数量,包括输入和输出。Token是文本的基本单位,可能包括完整单词、单词片段、标点符号或代码符号。这些token被转换为数值向量,模型通过其参数来表示和操作含义,本质上是LLM的原生语言。0v2喜好网-记录每日喜好的科技时尚娱乐生活

相比之下,OpenAI的GPT-4o上下文窗口仅为12.8万token,足以在单次交互中与用户交换约一本小说的信息量。而拥有100万token的MiniMax-M1可以交换一个小型文集或丛书系列的信息量。谷歌Gemini 2.5 Pro同样提供100万token的上下文上限,据报道正在开发200万token窗口。0v2喜好网-记录每日喜好的科技时尚娱乐生活

但M1还有另一个优势:它采用创新、高效的强化学习技术进行训练。该模型使用混合专家架构(MoE)和闪电注意力机制进行训练,旨在降低推理成本。0v2喜好网-记录每日喜好的科技时尚娱乐生活

根据技术报告,在生成10万token长度时,MiniMax-M1仅消耗DeepSeek R1所需浮点运算(FLOPs)的25%。0v2喜好网-记录每日喜好的科技时尚娱乐生活

架构和变体0v2喜好网-记录每日喜好的科技时尚娱乐生活

该模型提供两个变体——MiniMax-M1-40k和MiniMax-M1-80k,分别对应其"思考预算"或输出长度。0v2喜好网-记录每日喜好的科技时尚娱乐生活

该架构基于公司早期的MiniMax-Text-01基础构建,包含4560亿参数,每个token激活459亿参数。0v2喜好网-记录每日喜好的科技时尚娱乐生活

此次发布的突出特点是模型的训练成本。MiniMax报告称,M1模型使用大规模强化学习训练,总成本为53.47万美元,在该领域展现了罕见的效率。0v2喜好网-记录每日喜好的科技时尚娱乐生活

这一效率归功于名为CISPO的定制RL算法,该算法剪切重要性采样权重而非token更新,以及有助于简化扩展的混合注意力设计。0v2喜好网-记录每日喜好的科技时尚娱乐生活

对于前沿LLM而言,这是一个惊人的"低成本",因为DeepSeek训练其热门R1推理模型的成本据报告为500-600万美元,而OpenAI GPT-4这一已有两年多历史的模型训练成本据说超过1亿美元。这些成本来自图形处理单元(GPU)的价格和运行这些芯片所需的能源,GPU主要由英伟达等公司制造,每模块成本可达2-3万美元或更多。0v2喜好网-记录每日喜好的科技时尚娱乐生活

基准测试性能0v2喜好网-记录每日喜好的科技时尚娱乐生活

MiniMax-M1已在一系列测试高级推理、软件工程和工具使用能力的既定基准上进行评估。0v2喜好网-记录每日喜好的科技时尚娱乐生活

在数学竞赛基准AIME 2024上,M1-80k模型达到86.0%的准确率。在编码和长上下文任务中也表现优异:0v2喜好网-记录每日喜好的科技时尚娱乐生活

LiveCodeBench得分65.0% SWE-bench Verified得分56.0% TAU-bench得分62.8% OpenAI MRCR(4-needle版本)得分73.4%0v2喜好网-记录每日喜好的科技时尚娱乐生活

这些结果使MiniMax-M1在多个复杂任务上领先于DeepSeek-R1和Qwen3-235B-A22B等其他开放权重竞争对手。0v2喜好网-记录每日喜好的科技时尚娱乐生活

虽然OpenAI o3和Gemini 2.5 Pro等封闭权重模型在某些基准上仍占据榜首,但MiniMax-M1大幅缩小了性能差距,同时在Apache-2.0许可证下保持免费访问。0v2喜好网-记录每日喜好的科技时尚娱乐生活

部署选项和开发工具0v2喜好网-记录每日喜好的科技时尚娱乐生活

对于部署,MiniMax推荐vLLM作为服务后端,因其针对大型模型工作负载、内存效率和批处理请求处理的优化。公司还提供使用Transformers库的部署选项。0v2喜好网-记录每日喜好的科技时尚娱乐生活

MiniMax-M1包含结构化函数调用功能,并配备具有在线搜索、视频和图像生成、语音合成和语音克隆工具的聊天机器人API。这些功能旨在支持实际应用中更广泛的智能行为。0v2喜好网-记录每日喜好的科技时尚娱乐生活

对技术决策者和企业买家的意义0v2喜好网-记录每日喜好的科技时尚娱乐生活

MiniMax-M1的开放访问、长上下文能力和计算效率解决了负责大规模管理AI系统的技术专业人员面临的几个反复出现的挑战。0v2喜好网-记录每日喜好的科技时尚娱乐生活

对于负责LLM全生命周期管理的工程主管——如优化模型性能和在紧张时间内部署——MiniMax-M1提供了更低的运营成本配置,同时支持高级推理任务。其长上下文窗口可以显著减少对跨越数万或数十万token的企业文档或日志数据的预处理工作。0v2喜好网-记录每日喜好的科技时尚娱乐生活

对于管理AI编排流水线的人员,使用vLLM或Transformers等成熟工具对MiniMax-M1进行微调和部署的能力支持更容易地集成到现有基础设施中。混合注意力架构可能有助于简化扩展策略,该模型在多步推理和软件工程基准上的竞争性表现为内部副驾驶或基于智能体的系统提供了高能力基础。0v2喜好网-记录每日喜好的科技时尚娱乐生活

从数据平台角度来看,负责维护高效、可扩展基础设施的团队可以从M1对结构化函数调用的支持及其与自动化流水线的兼容性中受益。其开源性质允许团队在没有供应商锁定的情况下为其技术栈定制性能。0v2喜好网-记录每日喜好的科技时尚娱乐生活

安全主管也可能发现M1在高能力模型的安全本地部署方面的价值,该模型不依赖于向第三方端点传输敏感数据。0v2喜好网-记录每日喜好的科技时尚娱乐生活

综合考虑,MiniMax-M1为寻求实验或扩展先进AI能力的组织提供了灵活选择,同时管理成本、保持在运营限制内并避免专有约束。0v2喜好网-记录每日喜好的科技时尚娱乐生活

此次发布表明MiniMax持续专注于实用、可扩展的AI模型。通过将开放访问与先进架构和计算效率相结合,MiniMax-M1可能成为构建需要推理深度和长距离输入理解的下一代应用的开发者的基础模型。0v2喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
‌上汽奥迪首款B级车型将明年年中发布‌

‌上汽奥迪首款B级车型将明年年

11-19 79阅读
灵宝 CASBOT 01 人形机器人发布:52自由度,头部配屏,获联想投资

灵宝 CASBOT 01 人形机器人发布:5

11-19 72阅读
大模型公司们创业未半,技术主心骨们却先弃船回大厂了?

大模型公司们创业未半,技术主心骨

图片来源:由无界AI生成2024年下半

11-19 83阅读
大模型的效率腾飞,彩云科技做对了什么?

大模型的效率腾飞,彩云科技做对了

对于绝大多数AI创业者来说,AGI的

11-19 80阅读
刚刚,OpenAI发布Windows版ChatGPT,高级语音能用了

刚刚,OpenAI发布Windows版ChatGPT

图片来源:由无界AI生成今天凌晨2

11-19 81阅读
李诞真名叫什么? 误打误撞踏入演艺圈!

李诞真名叫什么? 误打误撞

《吐槽大会》第四季第一集播出之

11-19 85阅读
《逆天奇案》寡佬是谁?钟嘉瑜最后和谁在一起了?

《逆天奇案》寡佬是谁?钟嘉

在《逆天奇案》中,寡佬是一名警察,

11-19 73阅读
《老舅》官宣开机,郭京飞、王佳佳领衔主演,重绘时代浪潮下的经典温暖记忆

《老舅》官宣开机,郭京飞、

  11月14日,由腾讯视频、鸣涧影业出

11-19 76阅读
《好东西》豆瓣9.1,放映时观众数次鼓掌,导演:桥段全靠硬编

《好东西》豆瓣9.1,放映时

邵艺辉自编自导,宋佳、钟楚曦、章宇、

11-19 85阅读
要钱干嘛!比尔盖茨支持对富豪加税:我愿放弃62%的财富

要钱干嘛!比尔盖茨支持对富

11月11日消息,据

11-19 81阅读
2024年真实有效能赚钱的app有哪些?盘点赚钱软件app排行榜前十名!

2024年真实有效能赚钱的ap

随着移动互联网的快速发展,赚钱的方式也

11-19 320阅读
经典游戏重制合集《FATE: Reawakened》将登陆主机

经典游戏重制合集《FATE:

游戏发行商gamigo、WildTangent以及开

11-19 84阅读
遥远未来的末世乌托邦,2D动作解谜游戏《默途》移动版即将上线

遥远未来的末世乌托邦,2D动

《默途》是由梦匠工作室开发的一款2D

11-19 82阅读
饥荒蜘蛛网超详细获取方法分享

饥荒蜘蛛网超详细获取方法

蜘蛛网是饥荒游戏里面的一个常用材料,有

11-19 84阅读
原神赤王时代的沙漠与大赤沙海任务全流程攻略

原神赤王时代的沙漠与大赤

赤王时代的沙漠与大赤沙海是原神须弥地

11-19 84阅读