DeepSeek 开源其 R1 推理模型系列

3个月前 科技 23观看
摘要 DeepSeek 今天发布了一个新的大语言模型系列 - R1 系列,该系列专门针对推理任务进行了优化。这家中国人工智能开发商已经在 Hugging Face 平台上开源了这些算法的源代码。该大语言模型系列的

DeepSeek 今天发布了一个新的大语言模型系列 - R1 系列,该系列专门针对推理任务进行了优化。mEz喜好网-记录每日喜好的科技时尚娱乐生活

这家中国人工智能开发商已经在 Hugging Face 平台上开源了这些算法的源代码。mEz喜好网-记录每日喜好的科技时尚娱乐生活

该大语言模型系列的主打产品是两个名为 R1 和 R1-Zero 的算法。据 DeepSeek 称,前者在多个推理基准测试中的表现优于 OpenAI 的 o1。而 R1-Zero 虽然能力相对较弱,但在机器学习研究领域可能代表着一个重要突破。mEz喜好网-记录每日喜好的科技时尚娱乐生活

这两个大语言模型都采用了具有 6710 亿参数的混合专家 (MoE) 架构。MoE 模型由多个神经网络组成,每个网络都针对不同的任务集进行优化。当模型接收到输入提示时,一个称为路由器的机制会将查询发送到最适合处理它的神经网络。mEz喜好网-记录每日喜好的科技时尚娱乐生活

MoE 架构的主要优势在于降低了推理成本。当用户向 MoE 模型输入提示时,查询不会激活整个 AI,而只会激活生成响应所需的特定神经网络。因此,R1 和 R1-Zero 在回答提示时激活的参数不到其 6710 亿参数的十分之一。mEz喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek 在训练 R1-Zero 时采用了一种与研究人员通常使用的推理模型训练方法不同的方式。mEz喜好网-记录每日喜好的科技时尚娱乐生活

推理优化的大语言模型通常使用强化学习和监督微调两种方法进行训练。前者通过试错来教会 AI 模型执行任务。而监督微调则通过提供任务执行示例来提升 AI 的输出质量。mEz喜好网-记录每日喜好的科技时尚娱乐生活

在训练 R1-Zero 时,DeepSeek 跳过了监督微调阶段。尽管如此,该公司仍然成功地为模型配备了推理能力,比如将复杂任务分解为更简单子步骤的能力。mEz喜好网-记录每日喜好的科技时尚娱乐生活

"这是首个通过纯强化学习验证大语言模型推理能力的开放研究,无需监督微调," DeepSeek 的研究人员详细说明。"这一突破为该领域的未来发展铺平了道路。"mEz喜好网-记录每日喜好的科技时尚娱乐生活

尽管 R1-Zero 具有先进的功能集,但其输出质量有限。该模型的响应有时会出现"无休止的重复、可读性差和语言混杂"等问题,DeepSeek 的研究人员指出。该公司创建 R1 就是为了解决这些限制。mEz喜好网-记录每日喜好的科技时尚娱乐生活

R1 是 R1-Zero 的增强版本,采用了修改后的训练工作流程开发。这个工作流程使用了 DeepSeek 在开发 R1-Zero 时省略的监督微调技术。该公司表示,这一改变显著提升了输出质量。mEz喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek 使用近二十个基准测试将 R1 与四个流行的大语言模型进行了比较。据该公司称,其模型在多个基准测试中成功超越了 OpenAI 的推理优化模型 o1。在 o1 得分较高的大多数基准测试中,R1 的表现仅落后不到 5%。mEz喜好网-记录每日喜好的科技时尚娱乐生活

R1 超越 o1 的基准测试之一是 LiveCodeBench。这是一个经常更新新练习题的编程任务集合。这降低了 AI 模型在公共网络上找到现成答案的可能性。mEz喜好网-记录每日喜好的科技时尚娱乐生活

除了 R1 和 R1-Zero,DeepSeek 今天还开源了一系列能力较弱但硬件效率更高的模型。这些模型是从 R1 "蒸馏" 而来,这意味着在训练过程中,部分 LLM 的知识被转移到了这些模型中。mEz喜好网-记录每日喜好的科技时尚娱乐生活

这些蒸馏模型的规模从 15 亿到 700 亿参数不等。它们基于 Llama 和 Qwen 开源大语言模型系列。DeepSeek 表示,其中一个蒸馏模型 R1-Distill-Qwen-32B 在多个基准测试中的表现优于 o1 的缩小版本 OpenAI-o1-mini。mEz喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
星驿付与慧徕店亮相金融界“奥运会”—Sibos2024年会,与国际金融大咖齐聚北京,共话全球金融发展

星驿付与慧徕店亮相金融界“奥运

【锋巢网】导读:10月21日至24日,

11-19 61阅读
比亚迪造出的第一款实车“316”亮相,王传福称第二天就砍掉了

比亚迪造出的第一款实车“316”

11 月

11-19 67阅读
小米汽车发布智能底盘预研技术,实现多种高难度动作‌

小米汽车发布智能底盘预研技术,实

11-19 65阅读
慢热的腾讯,上火的AI搜索

慢热的腾讯,上火的AI搜索

11月1

11-19 65阅读
灵初智能完成天使轮融资

灵初智能完成天使轮融资

近日,

11-19 66阅读
“嫖娼门”王全安:前任个个赛西施,花800元睡站台女,终遭报应

“嫖娼门”王全安:前任个个

11-19 69阅读
长安十二时辰龙波是好是坏 龙波扮演者是谁资料作品介绍(长安十二时辰龙波是好是坏)

长安十二时辰龙波是好是坏

《长安十二时辰》这部剧正在热播,在

11-19 65阅读
()

()

血珀,一直是很多玩琥珀的朋友的心

11-19 64阅读
腾讯的这部甜宠剧,高颜值cp让人沦陷,男二也让人心动

腾讯的这部甜宠剧,高颜值cp

2020年4月10日,甜宠剧《致我们甜甜

11-19 61阅读
「抖音城市生活节」长沙站完美收官!湘江河畔,邂逅长沙“秋·chill范儿”!

「抖音城市生活节」长沙站

摘要:「湘」聚江畔,在「湘当秋·

11-19 68阅读
《啪嗒砰》精神续作《Ratatan》新预告片分享

《啪嗒砰》精神续作《Rata

Game Source Entertainment 宣布与开

11-19 66阅读
互动影游《新世界:暗影成双》Steam页面开放 发行日期待定

互动影游《新世界:暗影成双

今日(11月16日),双人合作类互动影游《新

11-19 67阅读
TGA:DLC、拓展包、新赛季、重制版等均可提名所有奖项

TGA:DLC、拓展包、新赛季、

今日(11月16日),TGA主创Geoff Keighley与

11-19 73阅读
饥荒理智怎么恢复?饥荒超全恢复理智值方法一览

饥荒理智怎么恢复?饥荒超

饥荒理智怎么恢复?在饥荒游戏的设定中,玩

11-19 71阅读
原神疗养观察任务流程|原神疗养观察攻略

原神疗养观察任务流程|原

原神疗养观察是游戏中须弥地区魔神任务

11-19 67阅读