DeepSeek 发布采用 MIT 许可证的改进版 V3 模型

4个月前 科技 32观看
摘要 DeepSeek 今天发布了其 DeepSeek-V3 大语言模型的改进版本,并采用了新的开源许可证。软件开发者兼博主 Simon Willison 率先报道了这一更新。DeepSeek 本身并未发布公告。新模型的 Readme 文

DeepSeek 今天发布了其 DeepSeek-V3 大语言模型的改进版本,并采用了新的开源许可证。acP喜好网-记录每日喜好的科技时尚娱乐生活

软件开发者兼博主 Simon Willison 率先报道了这一更新。DeepSeek 本身并未发布公告。新模型的 Readme 文件 (代码仓库中通常包含说明注释的组件) 目前仍是空白的。acP喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek-V3 是一个于去年 12 月首次亮相的开源大语言模型。它是 DeepSeek-R1 的基础,而 DeepSeek-R1 是一个推理模型,今年早些时候使这家中国人工智能实验室声名鹊起。DeepSeek-V3 是一个通用模型,并非专门针对推理进行优化,但它可以解决一些数学问题并生成代码。acP喜好网-记录每日喜好的科技时尚娱乐生活

在此之前,该大语言模型是在自定义开源许可证下发布的。DeepSeek 今天推出的新版本改用了广泛使用的 MIT 许可证。开发者几乎可以不受任何限制地在商业项目中使用和修改更新后的模型。acP喜好网-记录每日喜好的科技时尚娱乐生活

更值得注意的是,新版 DeepSeek-V3 似乎比原版更强大且硬件效率更高。acP喜好网-记录每日喜好的科技时尚娱乐生活

大多数最先进的大语言模型只能在数据中心的图形卡上运行。Apple Inc. 机器学习研究组的研究科学家 Awni Hannun 在 Mac Studio 上运行了新版 DeepSeek-V3。该模型能够以每秒约 20 个 token 的速率生成输出。acP喜好网-记录每日喜好的科技时尚娱乐生活

这台 Mac Studio 采用了售价 9,499 美元的高端配置。在该机器上部署 DeepSeek-V3 需要应用 4 位量化。这是一种大语言模型优化技术,通过牺牲一些输出精度来换取更低的内存使用和延迟。acP喜好网-记录每日喜好的科技时尚娱乐生活

根据 VentureBeat 发现的一条 X 平台帖子,新版 DeepSeek-V3 在编程方面比原版更出色。该帖子包含了一个评估模型生成 Python 和 Bash 代码能力的基准测试。新版本获得了约 60% 的得分,比原版 DeepSeek-V3 高出几个百分点。acP喜好网-记录每日喜好的科技时尚娱乐生活

该模型仍落后于 DeepSeek-R1 (该 AI 实验室的旗舰推理优化大语言模型)。最新的 DeepSeek-V3 版本的得分也低于另一个推理优化模型 Qwen-32B。acP喜好网-记录每日喜好的科技时尚娱乐生活

尽管 DeepSeek-V3 拥有 6,710 亿个参数,但在回答提示时只激活约 370 亿个参数。这种设计使模型比传统的激活所有参数的大语言模型需要更少的基础设施。据 DeepSeek 称,该大语言模型的效率也高于 DeepSeek-R1,这降低了推理成本。acP喜好网-记录每日喜好的科技时尚娱乐生活

原版 DeepSeek-V3 的训练数据集包含 14.8 万亿个 token。训练过程使用了约 280 万个显卡小时,显著低于前沿大语言模型通常所需的时间。为了提高模型的输出质量,DeepSeek 工程师使用来自 DeepSeek-R1 的提示响应对其进行了微调。acP喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
拼多多「隐身」双十一

拼多多「隐身」双十一

纵然是在互联互通的大背景下,双十

11-19 122阅读
北上广深一线城市爱买啥车 北京喜欢比亚迪、上海广州更爱特斯拉

北上广深一线城市爱买啥车 北京

11月19日

11-19 104阅读
大佬喊话,AI寒冬已来?

大佬喊话,AI寒冬已来?

OpenA

11-19 109阅读
“知春路时代”的创业者,被回购条款绊了一跤

“知春路时代”的创业者,被回购条

这次

11-19 122阅读
灵初智能完成天使轮融资

灵初智能完成天使轮融资

近日,

11-19 119阅读
综艺《开播!短剧季》试镜最后一役!谁能夺得《包拯与公孙策》IP试播资格?

综艺《开播!短剧季》试镜最

  国内首档“微短剧+综艺”创新真人

11-19 114阅读
演员许文广《故乡的泥土》央八开播 首演农民角色获赞好真实

演员许文广《故乡的泥土》

  近日,由原著作者田运章担任总编剧,

11-19 104阅读
73岁张纪中为四胎女儿办满月宴 晒全家福庆祝

73岁张纪中为四胎女儿办满

11月18日导演张

11-19 108阅读
全新《柯南》动画上线:侦探与怪盗抢王者水晶

全新《柯南》动画上线:侦探

11月18日消息,《

11-19 104阅读
三傻变劳拉

三傻变劳拉

跨度太大,玩家一

11-19 100阅读
《暗喻幻想: ReFantazio》发布最新宣传片 “剧情预告片2”

《暗喻幻想: ReFantazio》

《暗喻幻想: ReFantazio》发布最新宣传

11-19 112阅读
碧蓝航线ios反和谐教程_碧蓝航线ios反和谐2024

碧蓝航线ios反和谐教程_碧

碧蓝航线ios反和谐怎么弄?相信很多苹果

11-19 146阅读
原神5个战斗性隐藏成就攻略

原神5个战斗性隐藏成就攻

5个战斗性成就是原神须弥地区的隐藏任

11-19 115阅读
饥荒辣椒酱制作方法及制作材料分享

饥荒辣椒酱制作方法及制作

辣椒酱是饥荒游戏里面的一个特殊食物,不

11-19 135阅读
饥荒暖石制作方法详细介绍

饥荒暖石制作方法详细介绍

暖石是饥荒游戏里面的一个特殊道具,可以

11-19 186阅读