MiniMax发布全球首个混合架构开源模型M1 称强化训练成本仅53万美金

1个月前 生活 7观看
摘要《科创板日报》6月17日讯(记者 黄心怡) MiniMax行动了。今日凌晨,总部位于上海的AI独角兽企业MiniMax发布其自主研发的MiniMax-M1系列模型。M1被定义为“全球首个开源的大规模混合架构推理模型”。技术报告显示, M1模型原

《科创板日报》6月17日讯(记者 黄心怡) MiniMax行动了。fJO喜好网-记录每日喜好的科技时尚娱乐生活

今日凌晨,总部位于上海的AI独角兽企业MiniMax发布其自主研发的MiniMax-M1系列模型。M1被定义为“全球首个开源的大规模混合架构推理模型”。技术报告显示, M1模型原生支持100万Token的上下文窗口,这一数字与谷歌最新的Gemini 2.5 Pro持平,并支持业内最长的8万Token推理输出;其RL(强化训练)成本下降一个量级,成本仅53万美金;在工具使用场景(TAU-bench)中MiniMax-M1-40k超过Gemini-2.5 Pro。fJO喜好网-记录每日喜好的科技时尚娱乐生活

fJO喜好网-记录每日喜好的科技时尚娱乐生活

开源技术报告截图

MiniMax对M1的定价采用阶梯式,随着输入文本长度增加而提高。其中,0-32k Token:输入0.8元/百万Token,输出8元/百万Token;32k-128k Token:输入1.2元/百万Token,输出16元/百万Token;128k-1M Token:输入2.4元/百万Token,输出24元/百万Token。fJO喜好网-记录每日喜好的科技时尚娱乐生活

前两个档位的定价均低于DeepSeek-R1,而第三个超长文本档位则是DeepSeek模型目前尚未覆盖的领域。此外,MiniMax方面表示,在其自有的App和Web端,M1模型将保持不限量免费使用。fJO喜好网-记录每日喜好的科技时尚娱乐生活

报告还提到,在进行8万Token的深度推理时,M1所需的算力仅为DeepSeek R1的约30%;生成10万token时,推理算力只需要DeepSeek R1的25%。fJO喜好网-记录每日喜好的科技时尚娱乐生活

MiniMax此次提出的CISPO算法,其收敛性能比字节跳动近期提出的DAPO算法快一倍,也优于DeepSeek早期使用的GRPO算法,这使得M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本为53.5万美元。MiniMax表示,这一成本“比最初的预期少了一个数量级”。fJO喜好网-记录每日喜好的科技时尚娱乐生活

年初DeepSeek的爆火出圈后,其带来的技术革新与成本降低,拉动了行业“技术平权”,更将压力传到其它大模型厂商,尤其是一路靠风险投资支持,进军到决赛圈的大模型“六小虎”。在DeepSeek影响下,“六小虎”的商业化和融资变得极具挑战。今年以来多家企业出现了联合创始人、高管离职的情况。fJO喜好网-记录每日喜好的科技时尚娱乐生活

为了能够继续留在牌桌上,“六小虎”正在积极破局求变。比如,零一万物在年初调整策略,将大部分训练和AI基础设施团队并入阿里,不再追求训练超级大模型。百川智能则精简B端业务,声称要聚焦AI医疗大模型。fJO喜好网-记录每日喜好的科技时尚娱乐生活

剩下的Kimi、智谱、阶跃星辰选择留在通用人工智能的牌桌上,相继上线了自研推理模型。而MiniMax此次发布并开源推理模型,也预示其做好了准备,将继续加入这场大模型之争中。fJO喜好网-记录每日喜好的科技时尚娱乐生活

《科创板日报》记者获悉,M1的发布是MiniMax“开源周”的序幕。在接下来的四个工作日里,MiniMax计划每天发布一项新的技术或产品更新。fJO喜好网-记录每日喜好的科技时尚娱乐生活

当前,大模型的竞争格局还面临新的变数,那就是——DeepSeek R2的发布。fJO喜好网-记录每日喜好的科技时尚娱乐生活

今年以来,DeepSeek对V3模型和R1模型进行了小版本试升级,但DeepSeek R2模型何时发布,迟迟未有消息。这不仅对DeepSeek自身意义重大,也是现有大模型玩家所面临的一场竞争考验。fJO喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
“筷子夹火箭”之后 星舰即将执行第六次试飞 还有哪些看点?

“筷子夹火箭”之后 星舰

《科创板日报》11月18日讯 今日,马斯克

11-19 94阅读
国力股份:已与国内固态电池龙头企业签订合作协议 下游半导体市场空间持续打开|直击业绩会

国力股份:已与国内固态电池

《科创板日报》11月18日讯(记者 郭辉)“

11-19 94阅读
千呼万唤始出来,华为Mate 70系列开启预订!黑科技、原生鸿蒙有望“非凡”亮相

千呼万唤始出来,华为Mate 7

《科创板日报》11月18日讯(记者 黄心怡)

11-19 111阅读
搭C-DM插混系统 风云T9长续航版11月18日上市

搭C-DM插混系统 风云T9长

据此前消息,奇瑞风云T9长续航版将于11

11-19 107阅读
抖音电商百大萌主活动收官!内容驱动流量增长,解锁宠物营销新思路

抖音电商百大萌主活动收官

从“萌即正义”到“人宠互动”,以宠物

11-19 93阅读
动漫绿调色教程

动漫绿调色教程

11-19 103阅读
复古港风的调色教程

复古港风的调色教程

11-19 99阅读
“迷人的绽放” AS Dalio 2025春夏新品备受青睐

“迷人的绽放” AS Dalio

10月,AS Dalio “Enchanted Bloom 迷

11-19 105阅读
尚仄国际LOOLAYY六礼品牌中法时装周巴黎大秀

尚仄国际LOOLAYY六礼品牌

<<高情远韵>> 2024年9月27日13:30-

11-19 116阅读
Max Mara 2025春夏:科学与魔法的奇妙物语

Max Mara 2025春夏:科学与

科学家与数学家的存在,将复杂混乱的宇

11-19 101阅读
1-10月全国一般公共预算收入保持平稳增长

1-10月全国一般公共预算收

央视网消息(新闻联播):财

11-19 100阅读
西气东输管网累计输送中亚天然气超5000亿立方米

西气东输管网累计输送中亚

天山网-新疆日报讯(记

11-19 116阅读
有个女生跟我说

有个女生跟我说

某一天,有个女生跟我说,她是我男友的女

11-19 118阅读
人有时候求知欲爆炸

人有时候求知欲爆炸

人有时候求知欲爆炸。 比如我,昨天

11-19 111阅读
有阵子大姨妈很不稳定

有阵子大姨妈很不稳定

有阵子大姨妈很不稳定。 有次在外

11-19 115阅读