DeepSeek V3 引发AI路径之辩:从“鹦鹉学舌”到“乌鸦喝水”?

4个月前 科技 29观看
摘要文章来源:AI先锋官图片来源:由无界AI生成2024 年底,DeepSeek V3 骤火。作为一款开源模型,DeepSeek V3 拥有 6710 亿参数,却能在性能上逼近 GPT-4 和 Claude 2 等闭源顶级模型。更令人震撼的是,据深度求索报道,它仅用 278.8

文章来源:AI先锋官Ypz喜好网-记录每日喜好的科技时尚娱乐生活

图片来源:由无界AI生成图片来源:由无界AI生成

2024 年底,DeepSeek V3 骤火。Ypz喜好网-记录每日喜好的科技时尚娱乐生活

作为一款开源模型,DeepSeek V3 拥有 6710 亿参数,却能在性能上逼近 GPT-4 和 Claude 2 等闭源顶级模型。Ypz喜好网-记录每日喜好的科技时尚娱乐生活

更令人震撼的是,据深度求索报道,它仅用 278.8 万 GPU 小时就完成了训练,可以说将训练成本打了成“白菜价”。Ypz喜好网-记录每日喜好的科技时尚娱乐生活

关联阅读:突然刷屏的ai界“拼多多”deepseekYpz喜好网-记录每日喜好的科技时尚娱乐生活

经过小编简单的实测,在文本生成领域DeepSeek V3的速度的确惊人。Ypz喜好网-记录每日喜好的科技时尚娱乐生活

但业内关注的核心议题,并非其性能问题,而是DeepSeek V3 是否真为全球,尤其算力匮乏的中国 AI 界,趟出了一条更经济实惠的蹊径?Ypz喜好网-记录每日喜好的科技时尚娱乐生活

质疑者有之:比如,传播很广综合“各位大佬在群里的回复”版本。Ypz喜好网-记录每日喜好的科技时尚娱乐生活

A:
“幻方这消息纯粹就是断章取义。训练一个671B的moe模型,而且用了fp8的架构,来达到gpu耗时数的下降,幻方在技术上确实牛。但幻方在训这个模型之前,是用了他们自己的r1模型(对标op­e­n­ai o1模型)来生成数据的,这个部分的反复尝试要不要算在成本里呢。
且不算前面那笔糊涂账,单就在训练上做降本增效这件事,这不代表推理需求会下降,只代表大厂可以用性价比更高的方式去做模型极限能力的探索。应用端只要有增长的逻辑,推理的需求依然是值得期待的。”
B:
“-训练只有一次,推理是无数次。推理需求实质上远大于训练需求,尤其是用户基数大了。
- De­e­p­s­e­ek是站在巨人的肩膀上,使用大量高质量合成数据。
- De­e­p­s­e­ek这个统计口径只计算了训练,但数据的配比需要做大量的预实验,合成数据的生成和清洗也需要消耗算力。
- De­e­p­s­e­ek的模型的MoE每个专家都可以单独拿出来训练,本身相比于de­n­se架构就是省力一些的方案。
-人人都超越了GPT 4o,ll­a­ma 3天天被踩在脚底下,消费者和企业界实际使用最多的还是这两个模型。这些宣传的成绩未必可靠。”
C:
“1,FP8的训练本身就不怎么耗资源,而且DS这个是“设定”好的大模型训练,就是已经限定了大模型的能力,这样减小了很多不必要的消耗。
2,Op­e­n­AI和An­t­r­o­p­ic这样的在训练新东西、新能力,走弯路的消耗量可能百倍千倍于最后那个正确路径。就好像看过几遍答案,水平很一般的学生也能在1小时内把高考数学卷整出满分,或者接近满分。一份试卷做过越多次,速度越快,搞不好30分钟就能满分…DS这个模型加入了很多“设定”因素,就是知道这样有效,有利于提高推理能力。
3,模型能力追求的是“通识能力”,为了能考个好成绩,该读的3年书谁也躲不过,现在算力和数据无非就是想卷这个时间缩短。大模型通识能力上限太高了,卷算力才刚开始,谁犹豫,谁质疑,谁掉队。
4,另外就是多模态和具身智能的接口。GPT-5难产有个很重要原因就是GPT-5要有开放机器人模态的潜在能力,就是能处理物理世界数据。这玩意儿也是全新的,超越了现在大模型的能力。”

还有就是胡延平的长微博《为什么 deepseek 的火爆不宜过高评价》Ypz喜好网-记录每日喜好的科技时尚娱乐生活

但其敢于承受质疑的基础技术原理也自成逻辑。比如:Ypz喜好网-记录每日喜好的科技时尚娱乐生活

1.多头潜在注意力(MLA)Ypz喜好网-记录每日喜好的科技时尚娱乐生活

为了实现高效推理,DeepSeek V3采用了多头潜在注意力(MLA)机制,MLA通过低秩联合压缩注意力键和值,大幅减少了推理过程中的键值(KV)缓存,从而降低了缓存需求。Ypz喜好网-记录每日喜好的科技时尚娱乐生活

具体而言,MLA仅需缓存压缩后的潜在向量和解耦的旋转位置编码键,相比传统的多头注意力显著减少了显存占用。Ypz喜好网-记录每日喜好的科技时尚娱乐生活

2.混合专家架构(Mixture of Experts, MoE)Ypz喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek V3的最大特点是采用了 MoE 架构。整个模型虽然包含 6710 亿参数,但每次仅激活约 370 亿参数,这得益于动态路由机制。Ypz喜好网-记录每日喜好的科技时尚娱乐生活

该机制采用了粒度更细的专家,并将部分专家隔离为共享专家,为了解决MoE模型中常见的负载不均衡问题,DeepSeek V3创新性地采用了无辅助损失负载均衡策略。Ypz喜好网-记录每日喜好的科技时尚娱乐生活

该策略通过为每个专家引入偏置项,动态调整专家选择概率从而在不影响模型性能的前提下,实现了专家负载均衡。Ypz喜好网-记录每日喜好的科技时尚娱乐生活

不管最终事实及可复现度如何,deepseek 之问最大的价值是,为当下极高能耗、拼钱拼卡拼能源的大模型军备竞赛,提供了另一种可讨论的新路径。Ypz喜好网-记录每日喜好的科技时尚娱乐生活

类似的一个议题是,人工智能专家朱松纯提出的“鹦鹉学舌”向“乌鸦喝水”的大模型范式演进。Ypz喜好网-记录每日喜好的科技时尚娱乐生活

所谓“鹦鹉范式”指的是,当前普遍采用的基于大数据和深度学习的 AI 模型,这些模型能够进行简单的模仿和重复,但缺乏真正的理解和推理能力。Ypz喜好网-记录每日喜好的科技时尚娱乐生活

而“乌鸦范式”则是一种“小数据、大任务”的模式,强调自主推理和长期洞察,具有低功耗的特点,对数据与算力要求都相对更低,朱松纯认为其代表着人工智能未来的发展方向。Ypz喜好网-记录每日喜好的科技时尚娱乐生活

从这个角度上,DeepSeek V3虽然在训练成本和算力消耗上相对较低,但其训练过程仍然需要大量的GPU小时。Ypz喜好网-记录每日喜好的科技时尚娱乐生活

乐观者认为,通过蒸馏和优化,DeepSeek V3 在推理能力上实现了有效突破,证明 AI 不再只是语言模仿器,而是逐渐具备自主判断能力。另一方面,展示了算法优化和硬件适配对 AI 发展的巨大推动力。Ypz喜好网-记录每日喜好的科技时尚娱乐生活

从 MLA 到MoE,从推理效率到成本控制,它为开源 AI 模型树立了新标杆,更让我们看到了“乌鸦范式”的可能性。Ypz喜好网-记录每日喜好的科技时尚娱乐生活

大模型 DeepSeek
展开全文
猜你感兴趣
星驿付与慧徕店亮相金融界“奥运会”—Sibos2024年会,与国际金融大咖齐聚北京,共话全球金融发展

星驿付与慧徕店亮相金融界“奥运

【锋巢网】导读:10月21日至24日,

11-19 62阅读
戴森设计大奖国际20强名单出炉

戴森设计大奖国际20强名单出炉

【锋巢网】首次有两支中国大陆赛

11-19 70阅读
“抽象”主播为何爆火?

“抽象”主播为何爆火?

前不

11-19 71阅读
并购重组大潮AB面:有的“做大做强”有的“拉高出货”

并购重组大潮AB面:有的“做大做强

自证

11-19 67阅读
一单只挣几块钱,年轻人追捧的代炒是门好生意吗?

一单只挣几块钱,年轻人追捧的代炒

杭州

11-19 68阅读
雷佳音:再获金鸡影帝,拥抱四美台上哽咽,不忘向张艺谋要手机号

雷佳音:再获金鸡影帝,拥抱四

11-19 71阅读
安倍遇刺事件的态度问题(安倍遇刺事件的态度问题)

安倍遇刺事件的态度问题(安

安倍遇刺事件的态度问题 刘明

11-19 68阅读
中国世界电影学会|2024·法国优秀影片展映圆满落幕

中国世界电影学会|2024·法

  由中国世界电影学会、中国文联电

11-19 67阅读
「抖音城市生活节」长沙站完美收官!湘江河畔,邂逅长沙“秋·chill范儿”!

「抖音城市生活节」长沙站

摘要:「湘」聚江畔,在「湘当秋·

11-19 68阅读
全新《柯南》动画上线:侦探与怪盗抢王者水晶

全新《柯南》动画上线:侦探

11月18日消息,《

11-19 68阅读
《优米雅的鍊金工房》第二波情报,新宣传片公开

《优米雅的鍊金工房》第二

活着, 就会不断地累积记忆。这是她在灭

11-19 68阅读
奥特曼格斗进化0怎么放大招?奥特曼格斗进化0攻略

奥特曼格斗进化0怎么放大

《奥特曼格斗进化0》游戏中可以操控各

11-19 105阅读
N网怎么开启18+开关?NEXUSMODS开启18+开关的详细操作教程

N网怎么开启18+开关?NEXUS

N网怎么开启18+开关?N网全称NEXUSMODS,是

11-19 93阅读
原子之心剧院死者位置_剧院全部死者所在位置分享

原子之心剧院死者位置_剧

原子之心的剧院区域中一共存在7个死者,

11-19 62阅读
界面设计全面升级 NVIDIA app实际体验:五大靓点堪称N卡必备搭档

界面设计全面升级 NVIDIA

11-19 79阅读