大模型性价比之王来了!训练2个月、花费558万美元 性能匹敌GPT-4o

7个月前 生活 50观看
摘要《科创板日报》12月27日讯(编辑 宋子乔) 12月26日晚,幻方量化宣布,全新系列模型DeepSeek-V3上线并同步开源,API服务已同步更新,接口配置无需改动。其上一代模型DeepSeek-V2.5于9月6日正式发布,迭代速速不可谓不快。据介绍,Dee

《科创板日报》12月27日讯(编辑 宋子乔) 12月26日晚,幻方量化宣布,全新系列模型DeepSeek-V3上线并同步开源,API服务已同步更新,接口配置无需改动。9zF喜好网-记录每日喜好的科技时尚娱乐生活

image9zF喜好网-记录每日喜好的科技时尚娱乐生活

其上一代模型DeepSeek-V2.5于9月6日正式发布,迭代速速不可谓不快。9zF喜好网-记录每日喜好的科技时尚娱乐生活

据介绍,DeepSeek-V3为自研MoE模型,生成速度相比V2.5模型实现了3倍的提升,但暂不支持多模态输入输出。(小K注:MoE模型全称Mixture of Experts,混合专家模型,是一种机器学习架构,通过组合多个专家模型,在处理复杂任务时显著提高效率和精度)。9zF喜好网-记录每日喜好的科技时尚娱乐生活

参数和性能:DeepSeek-V3拥有6710亿参数,其中激活参数为370亿,在14.8万亿token上进行了预训练9zF喜好网-记录每日喜好的科技时尚娱乐生活

生成速度:相比V2.5版本,DeepSeek-V3的生成速度提升至3倍,每秒吞吐量高达60 token。9zF喜好网-记录每日喜好的科技时尚娱乐生活

开源和可用性:DeepSeek-V3完全开源9zF喜好网-记录每日喜好的科技时尚娱乐生活

多语言处理能力:虽然当前版本暂不支持多模态输入输出,但在多语言处理方面表现出色,尤其在算法代码和数学方面。9zF喜好网-记录每日喜好的科技时尚娱乐生活

image9zF喜好网-记录每日喜好的科技时尚娱乐生活

答案生成速度更快

另外,在多项基准测试中,DeepSeek-V3的成绩超越了Qwen2.5-72 B和Llama-3.1-405 B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。9zF喜好网-记录每日喜好的科技时尚娱乐生活

image9zF喜好网-记录每日喜好的科技时尚娱乐生活

其中,在数学能力方面,DeepSeek-V3大幅超过了所有开源闭源模型。(小K注:以2024年美国数学竞赛和全国高中数学联赛题库进行测试)9zF喜好网-记录每日喜好的科技时尚娱乐生活

image9zF喜好网-记录每日喜好的科技时尚娱乐生活

值得注意的是,幻方量化在已开源的论文中强调其训练成本极低——通过对算法、框架和硬件的优化协同设计,假设H800GPU的租用价格为每块GPU2美元/小时,DeepSeek-V3的全部训练成本总计仅为557.6万美元(注:该成本仅包括DeepSeek-V3的正式训练,不包括与先前在架构、算法或数据上的研究和消融实验相关的成本):9zF喜好网-记录每日喜好的科技时尚娱乐生活

image9zF喜好网-记录每日喜好的科技时尚娱乐生活

训练成本合计

在预训练阶段,模型每训练1万亿token仅需要180K个GPU小时,即在配备2048个GPU的集群上只需3.7天,也就是说,该阶段团队使用2048块H800 GPU训练了模型不到2个月便达成目标9zF喜好网-记录每日喜好的科技时尚娱乐生活

另外,加上上下文长度scaling所需的119K GPU小时和后训练的5K GPU小时,DeepSeek-V3完整训练仅消耗2.788M个GPU小时。9zF喜好网-记录每日喜好的科技时尚娱乐生活

image9zF喜好网-记录每日喜好的科技时尚娱乐生活

image9zF喜好网-记录每日喜好的科技时尚娱乐生活

图源:开源论文

技术大牛Andrej Karpathy发文称赞道:作为参考,要达到这种级别的能力,通常需要约1.6万个GPU的计算集群。不仅如此,当前业界正在部署的集群规模甚至已经达到了10万个GPU。比如,Llama 3 405B消耗了3080万GPU小时,而看起来更强大的DeepSeek-V3却只用了280万GPU小时(计算量减少了约11倍)。(小K注:Karpathy是OpenAI的联合创始人之一,并且曾担任特斯拉的AI总监)9zF喜好网-记录每日喜好的科技时尚娱乐生活

image9zF喜好网-记录每日喜好的科技时尚娱乐生活

Stability AI前CEO表示,以每秒60个token(相当于人类阅读速度5倍)的速度全天候运行DeepSeek-V3,每天仅需要2美元。9zF喜好网-记录每日喜好的科技时尚娱乐生活

API服务定价上调2倍有余

DeepSeek-V3的发布标志着DeepSeek AI在自然语言处理和AI领域的又一重要进步,预计将为开发者、企业和研究人员提供强大的工具和资源。其应用场景主要包括:9zF喜好网-记录每日喜好的科技时尚娱乐生活

聊天和编码场景:为开发者设计,能够理解和生成代码,提高编程效率。9zF喜好网-记录每日喜好的科技时尚娱乐生活

多语言自动翻译:支持多达20种语言的实时翻译和语音识别,适合需要处理多种语言内容的企业用户。9zF喜好网-记录每日喜好的科技时尚娱乐生活

图像生成和AI绘画:整合视觉理解技术,允许用户通过简单的文本描述生成高质量图像,丰富应用场景和用户创意表达的自由度。9zF喜好网-记录每日喜好的科技时尚娱乐生活

性能更强、速度更快的DeepSeek-V3上线,幻方量化给出的定价是多少呢?新版本模型价格比上一代贵了2倍有余。9zF喜好网-记录每日喜好的科技时尚娱乐生活

幻方量化表示DeepSeek-V3的API服务定价将上调为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元,按缓存未命中的输入价格计,加总成本是10元人民币9zF喜好网-记录每日喜好的科技时尚娱乐生活

上一代模型Deepseek-V2.5的价格是,输入:0.14美元/百万Token,输出为:0.28美元/百万Token,加总成本是0.14+0.28=0.42美元,大约3元人民币9zF喜好网-记录每日喜好的科技时尚娱乐生活

这里的Token是大模型在处理数据时的最小单元,一般而言,100万Token相当于70万-100万英文单词,或接近100万中文汉字。列夫•托尔斯泰的名著《战争与和平》的英文版大约是大约有1200-1500页、58万英文单词,把它翻译为中文,大约有100-130万字,让DeepSeek-V3读完全文只需要2元左右。9zF喜好网-记录每日喜好的科技时尚娱乐生活

尽管提价,但与同类型模型相比,DeepSeek-V3依旧极具性价比。比如OpenAI的GPT 4o定价相当高,输入:5美元/百万Token,输出:15美元/百万Token,加总成本是20美元,约合人民币140元。9zF喜好网-记录每日喜好的科技时尚娱乐生活

image9zF喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
这一次,美国人还是没能投出一位女总统

这一次,美国人还是没能投出

11-19 111阅读
好价还在快来买!AMD 锐龙7 9700X京东爆款推荐

好价还在快来买!AMD 锐龙7

虽然今年京东商城11.11大促已经落下

11-19 97阅读
递四方亮相进博会高峰论坛,共探国际物流新机遇

递四方亮相进博会高峰论坛

在第七届中国国际进口博览会(以下简称

11-19 95阅读
荣耀300系列相关信息曝光,有望带来卫通版本

荣耀300系列相关信息曝光,

作为荣耀旗下针对中高端市场推出的

11-19 100阅读
《扭矩漂移2》!耕升 RTX 4080 SUPER 炫光OC燃起瞬间激情

《扭矩漂移2》!耕升 RTX 40

“昨晚,我在秋名山输给了一辆AE86,他用

11-19 96阅读
日系清新风格摄影和调色教程

日系清新风格摄影和调色教

11-19 114阅读
优雅蓝调复古拍摄教程

优雅蓝调复古拍摄教程

11-19 108阅读
 丸美小金针面霜揽获高保湿面霜超值爆款榜、面霜人气榜双料冠军

丸美小金针面霜揽获高保

国货护肤品牌丸美近日推出了一款备受

11-19 103阅读
第三届栩栩华生时尚文化大赏成功举办 ——集众人所长,踏上远见之路

第三届栩栩华生时尚文化大

(9月13日,秦皇岛)近日,由栩栩华生内容集

11-19 99阅读
刘嘉玲亲临 赫本西施与传世花联名旗舰店璀璨启业

刘嘉玲亲临 赫本西施与传

9月26日,深圳市南山区睿印购物中心

11-19 101阅读
湖南常德一学校门口发生撞人事件 有人员受伤

湖南常德一学校门口发生撞

央视

11-19 96阅读
低温寒潮天气来袭 多地多措并举确保“菜篮子”量足价稳

低温寒潮天气来袭 多地多

央视网消息:随着天气逐

11-19 120阅读
那你想干嘛

那你想干嘛

甲:不想上班。 乙:那你想干嘛? 甲:想

11-19 102阅读
有点心疼我女儿

有点心疼我女儿

有点心疼我女儿。 她小时候我炒菜

11-19 101阅读
山楂片的功效与作用

山楂片的功效与作用

功效与作用减肥、降低血脂、防癌抗癌1

11-19 106阅读