DeepSeek V3 引发AI路径之辩:从“鹦鹉学舌”到“乌鸦喝水”?

7个月前 科技 46观看
摘要文章来源:AI先锋官图片来源:由无界AI生成2024 年底,DeepSeek V3 骤火。作为一款开源模型,DeepSeek V3 拥有 6710 亿参数,却能在性能上逼近 GPT-4 和 Claude 2 等闭源顶级模型。更令人震撼的是,据深度求索报道,它仅用 278.8

文章来源:AI先锋官Zrn喜好网-记录每日喜好的科技时尚娱乐生活

图片来源:由无界AI生成图片来源:由无界AI生成

2024 年底,DeepSeek V3 骤火。Zrn喜好网-记录每日喜好的科技时尚娱乐生活

作为一款开源模型,DeepSeek V3 拥有 6710 亿参数,却能在性能上逼近 GPT-4 和 Claude 2 等闭源顶级模型。Zrn喜好网-记录每日喜好的科技时尚娱乐生活

更令人震撼的是,据深度求索报道,它仅用 278.8 万 GPU 小时就完成了训练,可以说将训练成本打了成“白菜价”。Zrn喜好网-记录每日喜好的科技时尚娱乐生活

关联阅读:突然刷屏的ai界“拼多多”deepseekZrn喜好网-记录每日喜好的科技时尚娱乐生活

经过小编简单的实测,在文本生成领域DeepSeek V3的速度的确惊人。Zrn喜好网-记录每日喜好的科技时尚娱乐生活

但业内关注的核心议题,并非其性能问题,而是DeepSeek V3 是否真为全球,尤其算力匮乏的中国 AI 界,趟出了一条更经济实惠的蹊径?Zrn喜好网-记录每日喜好的科技时尚娱乐生活

质疑者有之:比如,传播很广综合“各位大佬在群里的回复”版本。Zrn喜好网-记录每日喜好的科技时尚娱乐生活

A:
“幻方这消息纯粹就是断章取义。训练一个671B的moe模型,而且用了fp8的架构,来达到gpu耗时数的下降,幻方在技术上确实牛。但幻方在训这个模型之前,是用了他们自己的r1模型(对标op­e­n­ai o1模型)来生成数据的,这个部分的反复尝试要不要算在成本里呢。
且不算前面那笔糊涂账,单就在训练上做降本增效这件事,这不代表推理需求会下降,只代表大厂可以用性价比更高的方式去做模型极限能力的探索。应用端只要有增长的逻辑,推理的需求依然是值得期待的。”
B:
“-训练只有一次,推理是无数次。推理需求实质上远大于训练需求,尤其是用户基数大了。
- De­e­p­s­e­ek是站在巨人的肩膀上,使用大量高质量合成数据。
- De­e­p­s­e­ek这个统计口径只计算了训练,但数据的配比需要做大量的预实验,合成数据的生成和清洗也需要消耗算力。
- De­e­p­s­e­ek的模型的MoE每个专家都可以单独拿出来训练,本身相比于de­n­se架构就是省力一些的方案。
-人人都超越了GPT 4o,ll­a­ma 3天天被踩在脚底下,消费者和企业界实际使用最多的还是这两个模型。这些宣传的成绩未必可靠。”
C:
“1,FP8的训练本身就不怎么耗资源,而且DS这个是“设定”好的大模型训练,就是已经限定了大模型的能力,这样减小了很多不必要的消耗。
2,Op­e­n­AI和An­t­r­o­p­ic这样的在训练新东西、新能力,走弯路的消耗量可能百倍千倍于最后那个正确路径。就好像看过几遍答案,水平很一般的学生也能在1小时内把高考数学卷整出满分,或者接近满分。一份试卷做过越多次,速度越快,搞不好30分钟就能满分…DS这个模型加入了很多“设定”因素,就是知道这样有效,有利于提高推理能力。
3,模型能力追求的是“通识能力”,为了能考个好成绩,该读的3年书谁也躲不过,现在算力和数据无非就是想卷这个时间缩短。大模型通识能力上限太高了,卷算力才刚开始,谁犹豫,谁质疑,谁掉队。
4,另外就是多模态和具身智能的接口。GPT-5难产有个很重要原因就是GPT-5要有开放机器人模态的潜在能力,就是能处理物理世界数据。这玩意儿也是全新的,超越了现在大模型的能力。”

还有就是胡延平的长微博《为什么 deepseek 的火爆不宜过高评价》Zrn喜好网-记录每日喜好的科技时尚娱乐生活

但其敢于承受质疑的基础技术原理也自成逻辑。比如:Zrn喜好网-记录每日喜好的科技时尚娱乐生活

1.多头潜在注意力(MLA)Zrn喜好网-记录每日喜好的科技时尚娱乐生活

为了实现高效推理,DeepSeek V3采用了多头潜在注意力(MLA)机制,MLA通过低秩联合压缩注意力键和值,大幅减少了推理过程中的键值(KV)缓存,从而降低了缓存需求。Zrn喜好网-记录每日喜好的科技时尚娱乐生活

具体而言,MLA仅需缓存压缩后的潜在向量和解耦的旋转位置编码键,相比传统的多头注意力显著减少了显存占用。Zrn喜好网-记录每日喜好的科技时尚娱乐生活

2.混合专家架构(Mixture of Experts, MoE)Zrn喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek V3的最大特点是采用了 MoE 架构。整个模型虽然包含 6710 亿参数,但每次仅激活约 370 亿参数,这得益于动态路由机制。Zrn喜好网-记录每日喜好的科技时尚娱乐生活

该机制采用了粒度更细的专家,并将部分专家隔离为共享专家,为了解决MoE模型中常见的负载不均衡问题,DeepSeek V3创新性地采用了无辅助损失负载均衡策略。Zrn喜好网-记录每日喜好的科技时尚娱乐生活

该策略通过为每个专家引入偏置项,动态调整专家选择概率从而在不影响模型性能的前提下,实现了专家负载均衡。Zrn喜好网-记录每日喜好的科技时尚娱乐生活

不管最终事实及可复现度如何,deepseek 之问最大的价值是,为当下极高能耗、拼钱拼卡拼能源的大模型军备竞赛,提供了另一种可讨论的新路径。Zrn喜好网-记录每日喜好的科技时尚娱乐生活

类似的一个议题是,人工智能专家朱松纯提出的“鹦鹉学舌”向“乌鸦喝水”的大模型范式演进。Zrn喜好网-记录每日喜好的科技时尚娱乐生活

所谓“鹦鹉范式”指的是,当前普遍采用的基于大数据和深度学习的 AI 模型,这些模型能够进行简单的模仿和重复,但缺乏真正的理解和推理能力。Zrn喜好网-记录每日喜好的科技时尚娱乐生活

而“乌鸦范式”则是一种“小数据、大任务”的模式,强调自主推理和长期洞察,具有低功耗的特点,对数据与算力要求都相对更低,朱松纯认为其代表着人工智能未来的发展方向。Zrn喜好网-记录每日喜好的科技时尚娱乐生活

从这个角度上,DeepSeek V3虽然在训练成本和算力消耗上相对较低,但其训练过程仍然需要大量的GPU小时。Zrn喜好网-记录每日喜好的科技时尚娱乐生活

乐观者认为,通过蒸馏和优化,DeepSeek V3 在推理能力上实现了有效突破,证明 AI 不再只是语言模仿器,而是逐渐具备自主判断能力。另一方面,展示了算法优化和硬件适配对 AI 发展的巨大推动力。Zrn喜好网-记录每日喜好的科技时尚娱乐生活

从 MLA 到MoE,从推理效率到成本控制,它为开源 AI 模型树立了新标杆,更让我们看到了“乌鸦范式”的可能性。Zrn喜好网-记录每日喜好的科技时尚娱乐生活

大模型 DeepSeek
展开全文
猜你感兴趣
拼多多「隐身」双十一

拼多多「隐身」双十一

纵然是在互联互通的大背景下,双十

11-19 126阅读
有你吗 比亚迪抽车中奖名单公布:共90台仰望U8、腾势Z9 GT、豹8豪车

有你吗 比亚迪抽车中奖名单公布:

11月19日

11-19 137阅读
男子为骗保开车撞树不慎当场身亡 系团伙自导自演:已骗90多万

男子为骗保开车撞树不慎当场身亡

11月19日

11-19 131阅读
土耳其对亚马逊旗下Twitch处以200万里拉罚款,因数据泄露事件

土耳其对亚马逊旗下Twitch处以20

11月1

11-19 110阅读
“知春路时代”的创业者,被回购条款绊了一跤

“知春路时代”的创业者,被回购条

这次

11-19 130阅读
泫雅&龙俊亨婚后首次公开近况:日本甜蜜旅行中!捧爱心蛋糕紧贴合影

泫雅&龙俊亨婚后首次

歌手泫雅和龙俊亨结婚一个月

11-19 103阅读
ENHYPEN的第二张正规专辑后续《ROMANCE:UNTOLD-daydream-》刷新了历代K-POP后续专辑中创下了最高初动销量新纪录

ENHYPEN的第二张正规专辑

18日,据Hanteo Chart榜单数

11-19 104阅读
天生戏剧人!小演员田芯语乌镇首秀,领衔戏剧节唯一入围儿童剧《乐园》

天生戏剧人!小演员田芯语乌

  深秋,一场淅淅沥沥的小雨为江南带

11-19 111阅读
《好东西》豆瓣9.1,放映时观众数次鼓掌,导演:桥段全靠硬编

《好东西》豆瓣9.1,放映时

邵艺辉自编自导,宋佳、钟楚曦、章宇、

11-19 129阅读
徐克执导!新《射雕英雄传》官宣定档2025大年初一 肖战饰演郭靖

徐克执导!新《射雕英雄传》

11月15日消息,今

11-19 107阅读
AI技术将一峰大二原作动画《電人アロー》黑白影像彩色化

AI技术将一峰大二原作动画

由一峰大

11-19 135阅读
文明6秘籍大全_文明6秘籍代码及使用方法一览

文明6秘籍大全_文明6秘籍

文明6游戏支持秘籍功能,玩家可以通过在

11-19 140阅读
海龟汤恐怖题目和答案全套汇总推荐(2024)

海龟汤恐怖题目和答案全套

《海龟汤》是年轻人之间最新的热门社交

11-19 502阅读
奥特曼格斗进化0怎么放大招?奥特曼格斗进化0攻略

奥特曼格斗进化0怎么放大

《奥特曼格斗进化0》游戏中可以操控各

11-19 152阅读
原神尽在咫尺的目标任务怎么做|尽在咫尺的目标任务攻略

原神尽在咫尺的目标任务怎

尽在咫尺的目标是原神须弥地区魔神主线

11-19 113阅读