DeepSeek被称为AI界拼多多训练2个月花557.6万美元-喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek被称为AI界拼多多训练2个月花557.6万美元

7个月前游戏 31观看

摘要据钱江晚报报道，此次DeepSeek-V3在AI行业引发关注，关键的原因在于——超低的预训练成本。“预训练”是AI大模型学习中的一种方法，指的是通过海

据钱江晚报报道，此次DeepSeek-V3在AI行业引发关注，关键的原因在于——超低的预训练成本。

“预训练”是AI大模型学习中的一种方法，指的是通过海量的数据，训练一个大模型。训练时需要大量的数据和算力支持，每次迭代可能耗资数百万至数亿美元。

官方技术论文披露，DeepSeek-V3在预训练阶段仅使用2048块GPU训练了2个月，且只花费557.6万美元。这个费用是什么概念？

据报道，GPT-4o的模型训练成本约为1亿美元。简单粗暴地说，这相当于DeepSeek-V3比同等性能的AI大模型，降了十几倍的成本。

早在2024年5月，深度求索发布DeepSeek-V2时，就曾因给模型的定价太过于便宜，开启了中国大模型的价格战，被称之为“AI界的拼多多”。

“相比于说它是‘拼多多’，它更像小米，贴近成本定价，并且自产自销。”马千里认为，训练成本比较低的原因，离不开深度求索团队自研的架构和算力，他们自身的算力储备可以与大厂比肩，并且更注重底层的模型。

“ChatGPT走的是大参数、大算力、大投入的路子，DeepSeek-V3的路径用了更多的巧思，依托数据与算法层面的优化创新，从而高效利用算力，实现较好的模型效果。”马千里说道。

展开全文

猜你感兴趣

木内ラムネ作品《月のお気

木内ラム

11-19 129阅读

每年冠军纪录，九号品牌见证

11月16日，KPL年度总决赛决赛在万众瞩目

11-19 119阅读

《人中之龙８外传夏威夷海

在“人中之龙”系列最新作《人中之龙８外

11-19 136阅读

动作射击新作《Kusan: Cit

韩国开发商CIRCLEfromDOT与英国发行商

11-19 118阅读

卧龙苍天陨落全章节龙脉晶

龙脉晶石是卧龙苍天陨落游戏里面的特殊

11-19 133阅读

青年外交官模拟大会颁奖礼

由澳门基金会赞

07-11 33阅读

小孩哥炒菜、转锅秀翻网友

暑期来临，在结束

07-14 29阅读

广东2025年高招提前批征集

7月14日，记者从

07-15 29阅读

国务院部署逐步推行免费学

7月25日，国务院

07-28 23阅读

粤陇协同创新职教新范式，广

近日，2025年广东

08-01 33阅读

零跑全新B系列首款车型B10

（2024年11月15日，广州）2024年第二十二届广

11-19 134阅读

广州车展开启年末购车潮：新

11-19 144阅读

进博会汽车黑科技，空中出租

第七届进博已经开幕，越来越多的企业

11-19 135阅读

广州车展|豪华智能旗舰SUV

11月15日，2024广州国际车展正式拉开

11-19 133阅读

三款重磅车型亮相一汽-大

随着数字化和智能化的推进，电动车行

11-19 114阅读