DeepSeek 成功证明:动力是 AI 创新的关键

1天前 科技 1观看
摘要 2025 年 1 月震撼了 AI 领域。看似势不可挡的 OpenAI 以及实力雄厚的美国科技巨头,都被我们可以称之为大语言模型( LLM )领域的“黑马”所震惊。DeepSeek 是一家中国公司,以前鲜为人知,却突然向 O

2025 年 1 月震撼了 AI 领域。看似势不可挡的 OpenAI 以及实力雄厚的美国科技巨头,都被我们可以称之为大语言模型( LLM )领域的“黑马”所震惊。DeepSeek 是一家中国公司,以前鲜为人知,却突然向 OpenAI 发起了挑战。实际上,DeepSeek-R1 在基准测试上虽然略逊于美国巨头的顶级模型,但它让大家顿时开始关注硬件和能耗使用方面的效率问题。uFw喜好网-记录每日喜好的科技时尚娱乐生活

由于无法获得最先进的高端硬件,DeepSeek 显然在效率创新上有着更大的动力,而这恰恰是大公司较少关注的领域。OpenAI 声称他们有证据显示 DeepSeek 可能使用了他们的模型进行训练,但目前没有具体证据证明这一点。所以,无论这一说法是否属实,还是 OpenAI 仅仅为了安抚投资者而为之,都存在争议。不过,DeepSeek 已经发布了他们的工作成果,而且人们已经验证了这些结果至少在较小规模上的可复现性。uFw喜好网-记录每日喜好的科技时尚娱乐生活

那么,DeepSeek 怎么能取得如此巨大的成本节省,而美国公司却无法做到呢?答案很简单:他们拥有更强的动力。要详细说来,则需要一点技术背景的解释。uFw喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek 使用了 KV-cache 优化uFw喜好网-记录每日喜好的科技时尚娱乐生活

对 GPU 内存的一项重要成本节省措施是对大语言模型中每个注意力层使用的 Key-Value 缓存( KV cache )进行优化。uFw喜好网-记录每日喜好的科技时尚娱乐生活

大语言模型由 Transformer 块组成,每个块包括一个注意力层和一个常规的前馈网络。前馈网络从概念上模拟任意关系,但实际上,它难以始终准确地捕捉数据中的模式。注意力层则解决了语言建模中的这一问题。uFw喜好网-记录每日喜好的科技时尚娱乐生活

模型使用 token 来处理文本,为了简单起见,我们这里称之为“单词”。在大语言模型中,每个单词都会被分配一个高维度向量( 比如说, 一千个维度 );从概念上讲,每个维度代表一种概念,比如热或冷、绿色、柔软、名词等。一个单词的向量表示即代表了它的含义及各个维度上的数值。uFw喜好网-记录每日喜好的科技时尚娱乐生活

然而,我们的语言允许其他单词来修饰一个单词的含义。举例来说,“苹果”本身有一定含义,但我们可以有一个“绿色苹果”作为修饰后的版本。更极端的情况是,在 iPhone 上下文中的“苹果”与草地情境中的“苹果”有所不同。那么,如何让系统根据其他单词来修正一个单词的向量含义呢?这正是注意力机制发挥作用的地方。uFw喜好网-记录每日喜好的科技时尚娱乐生活

注意力模型给每个单词分配了另外两个向量:一个是 key,另一个是 query。query 表示单词中可被修正的含义特质,而 key 则代表它能为其他单词提供何种修正。例如,单词“绿色”可以提供关于颜色和绿色度的信息,所以“绿色”的 key 在“绿色度”这一维度上会有一个较高的数值;另一方面,“苹果”可能是绿色或不是,因此“苹果”的 query 向量在绿色度这一维度上也会有较高数值。如果我们将“绿色”的 key 与“苹果”的 query 计算点积,其结果应该会相对较大,而“桌子”的 key 与“苹果”的 query 点积则不会这么高。然后,注意力层会将“绿色”这一单词的少量数值加到“苹果”这一单词的数值上,从而使“苹果”的数值被修正得稍微偏绿。uFw喜好网-记录每日喜好的科技时尚娱乐生活

在大语言模型生成文本时,是逐个单词依次生成的。当生成下一个单词时,之前生成的所有单词都会成为上下文的一部分,但这些单词的 keys 和 values 已经被计算好了。当新的单词添加到上下文中时,就需要根据它的 query 以及所有之前单词的 keys 和 values 更新其数值,这也是为何所有这些数值都存储在 GPU 内存中,这就是 KV cache 。uFw喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek 发现单词的 key 与 value 之间存在关联性,所以“绿色”这一单词的含义和它影响绿色程度的能力显然密切相关。因此,可以将两者压缩为一个(可能更小的)向量,并在处理过程中轻松解压。DeepSeek 发现这虽然会对基准测试的结果造成影响,但却节省了大量 GPU 内存。uFw喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek 应用了 MoEuFw喜好网-记录每日喜好的科技时尚娱乐生活

神经网络的本质在于对于每个 query,整个网络都需要被评估(或计算)。然而,并非所有的计算都是有用的。网络中的权重或参数中蕴藏着对世界的知识,但关于埃菲尔铁塔的知识并不能用来回答有关南美部落历史的问题;同样,知道“苹果是一种水果”在回答关于广义相对论的问题时也毫无用处。然而,无论这些信息是否有用,在计算网络时,所有部分都会被处理,这在文本生成过程中会产生巨大的计算成本,而这些成本本应被避免。这就引出了专家混合模型( MoE )的概念。uFw喜好网-记录每日喜好的科技时尚娱乐生活

在 MoE 模型中,神经网络被划分为多个较小的子网络,称为专家。需要注意的是,这里的“专家”并非预先明确定义的主题专家;网络会在训练过程中自行发现这些分工。不过,网络会给每个 query 分配一个相关性分数,并只激活匹配分数较高的部分,这大大节省了计算成本。虽然某些问题确实需要多个领域的专业知识来得到良好回答,从而可能导致这类 query 的性能下降,但由于这些领域都是从数据中自动识别,此类情况非常少见。uFw喜好网-记录每日喜好的科技时尚娱乐生活

强化学习的重要性uFw喜好网-记录每日喜好的科技时尚娱乐生活

大语言模型被训练为通过链式思考模型来思考,其微调目标在于模仿思考过程后再给出答案。模型被要求将它的思考过程(在生成答案之前先生成思考过程)用语言表达出来,之后系统会对思考过程和最终答案进行评估,并通过强化学习(正确匹配奖励,错误匹配惩罚)进行训练。uFw喜好网-记录每日喜好的科技时尚娱乐生活

这需要使用包含思考 token 的昂贵训练数据。DeepSeek 仅要求系统在标签 < think > 和 < /think > 之间生成思考内容,并在标签 < answer > 和 < /answer > 之间生成答案。模型仅仅依据形式(标签的使用)和答案的匹配情况来获得奖励或惩罚,从而大大降低了训练数据的成本。在 RL 初期,模型尝试生成的思考内容非常少,导致答案错误。最终,模型学会了生成既长又连贯的思考过程,这就是 DeepSeek 所称的“顿悟”时刻。从那以后,答案的质量显著提升。uFw喜好网-记录每日喜好的科技时尚娱乐生活

DeepSeek 还采用了其他一些优化技巧,不过这些内容过于技术性,此处不再详述。uFw喜好网-记录每日喜好的科技时尚娱乐生活

对 DeepSeek 及更大市场的最终思考uFw喜好网-记录每日喜好的科技时尚娱乐生活

在任何技术研究中,我们首先需要探索可能,然后再去提高效率,这是一种自然的进程。DeepSeek 对大语言模型领域的贡献是惊人的,无论其训练是否使用了 OpenAI 的输出,其学术贡献都不容忽视,同时也可能改变初创企业的运营方式。但这并不意味着 OpenAI 或其他美国巨头就必须陷入绝望,这正是研究的运作方式——一组人的研究成果会惠及另一组人。DeepSeek 当然也得益于 Google、OpenAI 以及众多其他研究者早期的研究成果。uFw喜好网-记录每日喜好的科技时尚娱乐生活

然而,如今认为 OpenAI 将无限期垄断大语言模型领域的观点已不太可能成立。无论多少监管游说或相互指责,都无法维持其垄断局面。技术已经掌握在众多手中,并且公开透明,使得技术的进步不可阻挡。虽然这对 OpenAI 的投资者来说可能有些头疼,但对我们大家来说,这无疑是一场胜利。未来属于众人,我们永远感激 Google、OpenAI 等早期贡献者。uFw喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
OPPO Reno13系列外观详解:蝴蝶紫配色惊艳 超美小OPhone

OPPO Reno13系列外观详解:蝴蝶紫

在结束了

11-19 68阅读
中国大模型要用Infra“降本增效”

中国大模型要用Infra“降本增效

今年7

11-19 57阅读
灵初智能完成天使轮融资

灵初智能完成天使轮融资

近日,

11-19 59阅读
这个东北小镇,拿捏年轻人的第一件貂

这个东北小镇,拿捏年轻人的第一件

你会

11-19 63阅读
川普赢了,马斯克能当上 AI 部部长吗?

川普赢了,马斯克能当上 AI 部部长

图片来源:由无界AI生成2018 年,扎

11-19 60阅读
中国世界电影学会|2024·法国优秀影片展映圆满落幕

中国世界电影学会|2024·法

  由中国世界电影学会、中国文联电

11-19 61阅读
2024东方卫视跨年首发阵容,胡歌唐嫣代表《繁花》剧组亮相

2024东方卫视跨年首发阵容

12月25日,2024东方卫视跨年首发阵

11-19 57阅读
停播超2个月:小杨哥掉粉500万+!

停播超2个月:小杨哥掉粉500

11月15日消息,今

11-19 62阅读
文化输出第一人!网红博主李子柒回归 时隔三年更新视频

文化输出第一人!网红博主李

11月12日消息,今

11-19 54阅读
《猫眼三姐妹》动画将重制!童年三女神高清归来!

《猫眼三姐妹》动画将重制

近日有报道称,北

11-19 60阅读
重装机兵4失落密码大全_重装机兵4所有失落密码一览

重装机兵4失落密码大全_重

失落密码是《重装机兵4》游戏里面的一

11-19 177阅读
ePSXe模拟器安卓版怎么导入游戏?ePSXe模拟器安卓版导入游戏教程

ePSXe模拟器安卓版怎么导

ePSXe模拟器安卓版是一款非常棒的可以

11-19 93阅读
原子之心展览园死者位置_展览园全部死者位置一览

原子之心展览园死者位置_

原子之心游戏的展览园区域中一共拥有11

11-19 64阅读
原神大走廊的尽头隐藏成就|大走廊的尽头任务攻略

原神大走廊的尽头隐藏成就

大走廊的尽头是原神须弥沙漠地区的隐藏

11-19 64阅读
饥荒萤火虫怎么捕捉?饥荒捕捉萤火虫的技巧分享

饥荒萤火虫怎么捕捉?饥荒

在饥荒游戏里面,我们可以通过捕捉萤火虫

11-19 63阅读