不到600万美元,性能匹敌GPT4.0!DeepSeek-V3发布震惊业界

7个月前 科技 58观看
摘要 12月30日消息(南山)近日,幻方量化旗下的DeepSeek公司宣布发布全新系列模型DeepSeek-V3首个版本,并同步开源。DeepSeek-V3为自研MoE模型,671B参数,激活37B,在14.8T token上进行了预训练。Dee

12月30日消息(南山)近日,幻方量化旗下的DeepSeek公司宣布发布全新系列模型DeepSeek-V3首个版本,并同步开源。L46喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek-V3为自研MoE模型,671B参数,激活37B,在14.8T token上进行了预训练。L46喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek引用评测报告指出,DeepSeek-V3多项评测成绩超越了阿里旗下Qwen2.5-72B和Meta旗下Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。L46喜好网-记录每日喜好的科技时尚娱乐生活

L46喜好网-记录每日喜好的科技时尚娱乐生活

令业界震惊的是,DeepSeek-V3训练仅花费了557.6万美元,在2048xH800集群上运行55天完成,还很坦诚地公布了技术细节。L46喜好网-记录每日喜好的科技时尚娱乐生活

相比之下,GPT-4o这样的模型训练成本约为1亿美元。L46喜好网-记录每日喜好的科技时尚娱乐生活

这一成果已经引起海外注意。其中,OpenAI创始成员Karpathy点评称,DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。它看起来比Llama 3 405B更强,训练消耗的算力却仅为后者的1/11。L46喜好网-记录每日喜好的科技时尚娱乐生活

这意味着算力成本的大幅下降,也意味着大模型领域在经历了“百模大战”后,可能会迎来新一轮的大模型产品竞争。 L46喜好网-记录每日喜好的科技时尚娱乐生活

L46喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
Redmi史上强旗舰!K80系列开启预约:下周发布

Redmi史上强旗舰!K80系列开启预约

11月19日

11-19 115阅读
iPhone 17 Pro Max外观曝光:灵动岛变小

iPhone 17 Pro Max外观曝光:灵动

11月19日

11-19 103阅读
大佬喊话,AI寒冬已来?

大佬喊话,AI寒冬已来?

OpenA

11-19 111阅读
“鲶鱼”雷军:抖音粉丝突破3000万,换一种方式卷同行?

“鲶鱼”雷军:抖音粉丝突破3000万

在流

11-19 97阅读
大模型公司们创业未半,技术主心骨们却先弃船回大厂了?

大模型公司们创业未半,技术主心骨

图片来源:由无界AI生成2024年下半

11-19 132阅读
太太太灵了吧,这是什么「好东西」

太太太灵了吧,这是什么「好

作者 / 西贝偏北运营 / 狮子座还记得

11-19 104阅读
斗鱼第一土豪落天神身份曝光, 花钱如流水居然是这样的身份!

斗鱼第一土豪落天神身份曝

如果很早就看直播的网友,想必都听

11-19 102阅读
2024东方卫视跨年首发阵容,胡歌唐嫣代表《繁花》剧组亮相

2024东方卫视跨年首发阵容

12月25日,2024东方卫视跨年首发阵

11-19 106阅读
电视剧《三大队》今日开播,秦昊演刑警队长程兵

电视剧《三大队》今日开播

由张译领衔主演,王骁、曹炳琨、魏

11-19 128阅读
停播超2个月:小杨哥掉粉500万+!

停播超2个月:小杨哥掉粉500

11月15日消息,今

11-19 111阅读
《天穗之咲稻姬外传》确定制作 本篇Steam平台限时促销中

《天穗之咲稻姬外传》确定

Marvelous Inc.(代表取缔役社长:佐藤澄宣

11-19 130阅读
原子之心展览园啁啾表位置_展览园所有啁啾表所在位置一览

原子之心展览园啁啾表位置

啁啾表是原子之心游戏里面的一个特殊收

11-19 139阅读
原子之心芭蕾舞者谜题攻略_芭蕾舞者舞姿调整攻略

原子之心芭蕾舞者谜题攻略

原子之心游戏里面玩家会在剧院中碰到一

11-19 121阅读
饥荒猪皮怎么获得?饥荒猪皮获得方法详细介绍

饥荒猪皮怎么获得?饥荒猪

饥荒猪皮怎么获得?猪皮是饥荒游戏里面的

11-19 114阅读
饥荒饥饿腰带制作方法及制作材料分享

饥荒饥饿腰带制作方法及制

饥饿腰带是饥荒游戏里面的一件魔法物品

11-19 137阅读