DeepSeek 发布采用 MIT 许可证的改进版 V3 模型

1个月前 科技 17观看
摘要 DeepSeek 今天发布了其 DeepSeek-V3 大语言模型的改进版本,并采用了新的开源许可证。软件开发者兼博主 Simon Willison 率先报道了这一更新。DeepSeek 本身并未发布公告。新模型的 Readme 文

DeepSeek 今天发布了其 DeepSeek-V3 大语言模型的改进版本,并采用了新的开源许可证。316喜好网-记录每日喜好的科技时尚娱乐生活

软件开发者兼博主 Simon Willison 率先报道了这一更新。DeepSeek 本身并未发布公告。新模型的 Readme 文件 (代码仓库中通常包含说明注释的组件) 目前仍是空白的。316喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek-V3 是一个于去年 12 月首次亮相的开源大语言模型。它是 DeepSeek-R1 的基础,而 DeepSeek-R1 是一个推理模型,今年早些时候使这家中国人工智能实验室声名鹊起。DeepSeek-V3 是一个通用模型,并非专门针对推理进行优化,但它可以解决一些数学问题并生成代码。316喜好网-记录每日喜好的科技时尚娱乐生活

在此之前,该大语言模型是在自定义开源许可证下发布的。DeepSeek 今天推出的新版本改用了广泛使用的 MIT 许可证。开发者几乎可以不受任何限制地在商业项目中使用和修改更新后的模型。316喜好网-记录每日喜好的科技时尚娱乐生活

更值得注意的是,新版 DeepSeek-V3 似乎比原版更强大且硬件效率更高。316喜好网-记录每日喜好的科技时尚娱乐生活

大多数最先进的大语言模型只能在数据中心的图形卡上运行。Apple Inc. 机器学习研究组的研究科学家 Awni Hannun 在 Mac Studio 上运行了新版 DeepSeek-V3。该模型能够以每秒约 20 个 token 的速率生成输出。316喜好网-记录每日喜好的科技时尚娱乐生活

这台 Mac Studio 采用了售价 9,499 美元的高端配置。在该机器上部署 DeepSeek-V3 需要应用 4 位量化。这是一种大语言模型优化技术,通过牺牲一些输出精度来换取更低的内存使用和延迟。316喜好网-记录每日喜好的科技时尚娱乐生活

根据 VentureBeat 发现的一条 X 平台帖子,新版 DeepSeek-V3 在编程方面比原版更出色。该帖子包含了一个评估模型生成 Python 和 Bash 代码能力的基准测试。新版本获得了约 60% 的得分,比原版 DeepSeek-V3 高出几个百分点。316喜好网-记录每日喜好的科技时尚娱乐生活

该模型仍落后于 DeepSeek-R1 (该 AI 实验室的旗舰推理优化大语言模型)。最新的 DeepSeek-V3 版本的得分也低于另一个推理优化模型 Qwen-32B。316喜好网-记录每日喜好的科技时尚娱乐生活

尽管 DeepSeek-V3 拥有 6,710 亿个参数,但在回答提示时只激活约 370 亿个参数。这种设计使模型比传统的激活所有参数的大语言模型需要更少的基础设施。据 DeepSeek 称,该大语言模型的效率也高于 DeepSeek-R1,这降低了推理成本。316喜好网-记录每日喜好的科技时尚娱乐生活

原版 DeepSeek-V3 的训练数据集包含 14.8 万亿个 token。训练过程使用了约 280 万个显卡小时,显著低于前沿大语言模型通常所需的时间。为了提高模型的输出质量,DeepSeek 工程师使用来自 DeepSeek-R1 的提示响应对其进行了微调。316喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
当代年轻人,仍然想要“接盘”房地产

当代年轻人,仍然想要“接盘”房地

10月份,住建部数据显示,本月商品房

11-19 71阅读
‌TCL华星宣布印刷OLED量产及APEX技术品牌‌

‌TCL华星宣布印刷OLED量产及APE

11-19 58阅读
凯迪拉克公布2026款Vistiq电动SUV细节,明年上市

凯迪拉克公布2026款Vistiq电动SU

11-19 66阅读
「西图之光」获近千万元A轮融资

「西图之光」获近千万元A轮融资

【投

11-19 65阅读
咖啡界“老二”闭店上百家,星巴克们开始慌了?

咖啡界“老二”闭店上百家,星巴克

星巴

11-19 69阅读
太太太灵了吧,这是什么「好东西」

太太太灵了吧,这是什么「好

作者 / 西贝偏北运营 / 狮子座还记得

11-19 65阅读
贾乃亮帮清购物车, 网友没胆安利给自家老板!

贾乃亮帮清购物车, 网友没

今天双十二,大家剁手了吗!小编是没

11-19 61阅读
NCT成员道英自2021年演出《玛丽・安东妮》之后睽违3年再度登上音乐剧舞台演出《笑面人》

NCT成员道英自2021年演出

NCT成员道英自2021年演出《玛

11-19 68阅读
央视剧评|《西北岁月》:书写西北革命史的壮丽篇章

央视剧评|《西北岁月》:书写

  正在总台央视综合频道(CCTV-1)黄金

11-19 66阅读
我们都在等待,等待钟声响起的那一刻。那是我生命最后的一刻,那也是最好的时刻

我们都在等待,等待钟声响起

  一段民族不可遗忘的历史,一个隐蔽

11-19 54阅读
LUIDA’S BAR推出《DQIII》合作菜单

LUIDA’S BAR推出《DQIII

为纪念HD-

11-19 67阅读
《永恒天空》正式版同步登陆PC与PS5 主机试玩版发布

《永恒天空》正式版同步登

去年最佳的PC生存游戏之一《永恒天空

11-19 62阅读
原子之心展览园啁啾表位置_展览园所有啁啾表所在位置一览

原子之心展览园啁啾表位置

啁啾表是原子之心游戏里面的一个特殊收

11-19 68阅读
原子之心电脉冲枪在哪?电脉冲枪获取方法分享

原子之心电脉冲枪在哪?电

原子之心电脉冲枪在哪?电脉冲枪是原子之

11-19 72阅读
饥荒金色腰带有什么用?饥荒金色腰带用途详细介绍

饥荒金色腰带有什么用?饥

饥荒金色腰带有什么用?金色腰带是饥荒游

11-19 67阅读