DeepSeek V3 引发AI路径之辩：从“鹦鹉学舌”到“乌鸦喝水”？-喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek V3 引发AI路径之辩：从“鹦鹉学舌”到“乌鸦喝水”？

7个月前科技 46观看

摘要文章来源：AI先锋官图片来源：由无界AI生成2024 年底，DeepSeek V3 骤火。作为一款开源模型，DeepSeek V3 拥有 6710 亿参数，却能在性能上逼近 GPT-4 和 Claude 2 等闭源顶级模型。更令人震撼的是，据深度求索报道，它仅用 278.8

文章来源：AI先锋官

图片来源：由无界AI生成

2024 年底，DeepSeek V3 骤火。

作为一款开源模型，DeepSeek V3 拥有 6710 亿参数，却能在性能上逼近 GPT-4 和 Claude 2 等闭源顶级模型。

更令人震撼的是，据深度求索报道，它仅用 278.8 万 GPU 小时就完成了训练，可以说将训练成本打了成“白菜价”。

关联阅读：突然刷屏的ai界“拼多多”deepseek

经过小编简单的实测，在文本生成领域DeepSeek V3的速度的确惊人。

但业内关注的核心议题，并非其性能问题，而是DeepSeek V3 是否真为全球，尤其算力匮乏的中国 AI 界，趟出了一条更经济实惠的蹊径？

质疑者有之：比如，传播很广综合“各位大佬在群里的回复”版本。

A：
“幻方这消息纯粹就是断章取义。训练一个671B的moe模型，而且用了fp8的架构，来达到gpu耗时数的下降，幻方在技术上确实牛。但幻方在训这个模型之前，是用了他们自己的r1模型（对标openai o1模型）来生成数据的，这个部分的反复尝试要不要算在成本里呢。
且不算前面那笔糊涂账，单就在训练上做降本增效这件事，这不代表推理需求会下降，只代表大厂可以用性价比更高的方式去做模型极限能力的探索。应用端只要有增长的逻辑，推理的需求依然是值得期待的。”

B：
“-训练只有一次，推理是无数次。推理需求实质上远大于训练需求，尤其是用户基数大了。
- Deepseek是站在巨人的肩膀上，使用大量高质量合成数据。
- Deepseek这个统计口径只计算了训练，但数据的配比需要做大量的预实验，合成数据的生成和清洗也需要消耗算力。
- Deepseek的模型的MoE每个专家都可以单独拿出来训练，本身相比于dense架构就是省力一些的方案。
-人人都超越了GPT 4o，llama 3天天被踩在脚底下，消费者和企业界实际使用最多的还是这两个模型。这些宣传的成绩未必可靠。”

C：
“1，FP8的训练本身就不怎么耗资源，而且DS这个是“设定”好的大模型训练，就是已经限定了大模型的能力，这样减小了很多不必要的消耗。
2，OpenAI和Antropic这样的在训练新东西、新能力，走弯路的消耗量可能百倍千倍于最后那个正确路径。就好像看过几遍答案，水平很一般的学生也能在1小时内把高考数学卷整出满分，或者接近满分。一份试卷做过越多次，速度越快，搞不好30分钟就能满分…DS这个模型加入了很多“设定”因素，就是知道这样有效，有利于提高推理能力。
3，模型能力追求的是“通识能力”，为了能考个好成绩，该读的3年书谁也躲不过，现在算力和数据无非就是想卷这个时间缩短。大模型通识能力上限太高了，卷算力才刚开始，谁犹豫，谁质疑，谁掉队。
4，另外就是多模态和具身智能的接口。GPT-5难产有个很重要原因就是GPT-5要有开放机器人模态的潜在能力，就是能处理物理世界数据。这玩意儿也是全新的，超越了现在大模型的能力。”

还有就是胡延平的长微博《为什么 deepseek 的火爆不宜过高评价》