Transformer:AI 模型进化背后的驱动引擎探秘

6个月前 科技 33观看
摘要 如今,几乎所有前沿的 AI 产品和模型都采用 Transformer 架构。像 GPT-4、LLaMA、Gemini 和 Claude 等大语言模型都基于 Transformer,其他 AI 应用如文本转语音、自动语音识别、图像生成和文本

如今,几乎所有前沿的 AI 产品和模型都采用 Transformer 架构。像 GPT-4、LLaMA、Gemini 和 Claude 等大语言模型都基于 Transformer,其他 AI 应用如文本转语音、自动语音识别、图像生成和文本转视频模型的底层技术也都是 Transformer。y60喜好网-记录每日喜好的科技时尚娱乐生活

随着 AI 热潮持续升温,是时候深入了解 Transformer 了。本文将解释它的工作原理、为什么对可扩展解决方案的发展如此重要,以及为什么它是大语言模型的支柱。y60喜好网-记录每日喜好的科技时尚娱乐生活

Transformer 不只是表面那么简单y60喜好网-记录每日喜好的科技时尚娱乐生活

简而言之,Transformer 是一种专门用于建模数据序列的神经网络架构,非常适合语言翻译、句子补全、自动语音识别等任务。Transformer 之所以成为序列建模任务的主导架构,是因为其底层的注意力机制可以轻松实现并行化,从而在训练和推理时实现大规模扩展。y60喜好网-记录每日喜好的科技时尚娱乐生活

Transformer 最初由 Google 研究人员在 2017 年的论文《Attention Is All You Need》中提出,作为一种专门用于语言翻译的编码器-解码器架构。次年,Google 发布了双向编码器表示 (BERT),这可以被视为最早的大语言模型之一——尽管按今天的标准来看规模较小。y60喜好网-记录每日喜好的科技时尚娱乐生活

自那时起——特别是在 OpenAI 的 GPT 模型问世后——训练更大模型的趋势加速发展,使用更多数据、更多参数和更长的上下文窗口。y60喜好网-记录每日喜好的科技时尚娱乐生活

为推动这一发展,出现了许多创新:更先进的 GPU 硬件和更好的多 GPU 训练软件;量化和专家混合 (MoE) 等降低内存消耗的技术;Shampoo 和 AdamW 等新型训练优化器;FlashAttention 和 KV Caching 等高效计算注意力的技术。这种趋势很可能在可预见的未来继续下去。y60喜好网-记录每日喜好的科技时尚娱乐生活

Transformer 中自注意力机制的重要性y60喜好网-记录每日喜好的科技时尚娱乐生活

根据应用场景的不同,Transformer 模型采用编码器-解码器架构。编码器组件学习数据的向量表示,可用于分类和情感分析等下游任务。解码器组件接收文本或图像的向量或潜在表示,用于生成新文本,适用于句子补全和摘要等任务。因此,许多熟知的最先进模型,如 GPT 系列,都只使用解码器。y60喜好网-记录每日喜好的科技时尚娱乐生活

编码器-解码器模型结合了这两个组件,使其适用于翻译和其他序列到序列的任务。对于编码器和解码器架构而言,核心组件是注意力层,因为它允许模型保留文本中较早出现的词语的上下文。y60喜好网-记录每日喜好的科技时尚娱乐生活

注意力机制有两种:自注意力和交叉注意力。自注意力用于捕捉同一序列中词语之间的关系,而交叉注意力用于捕捉两个不同序列之间词语的关系。交叉注意力在模型中连接编码器和解码器组件,在翻译过程中,例如,它允许英语单词"strawberry"与法语单词"fraise"建立联系。从数学角度看,自注意力和交叉注意力都是矩阵乘法的不同形式,可以通过 GPU 高效完成。y60喜好网-记录每日喜好的科技时尚娱乐生活

由于注意力层的存在,Transformer 可以更好地捕捉相距较远的词语之间的关系,而之前的模型如循环神经网络 (RNN) 和长短期记忆 (LSTM) 模型则会丢失文本前面的词语上下文。y60喜好网-记录每日喜好的科技时尚娱乐生活

模型的未来发展y60喜好网-记录每日喜好的科技时尚娱乐生活

目前,Transformer 是许多需要大语言模型的用例的主导架构,并且受益于最多的研究和开发。虽然这种情况短期内似乎不会改变,但最近一类引起关注的不同模型是状态空间模型 (SSMs),如 Mamba。这种高效算法可以处理非常长的数据序列,而 Transformer 则受限于上下文窗口。y60喜好网-记录每日喜好的科技时尚娱乐生活

对我来说,Transformer 模型最令人兴奋的应用是多模态模型。例如,OpenAI 的 GPT-4 能够处理文本、音频和图像,其他提供商也开始跟进。多模态应用非常多样化,涵盖视频字幕、声音克隆、图像分割等领域。它们还为残障人士提供了使 AI 更易接触的机会。例如,视障人士可以通过多模态应用的语音和音频组件进行交互。y60喜好网-记录每日喜好的科技时尚娱乐生活

这是一个充满机遇的领域,有望发现新的用例。但请记住,至少在可预见的未来,这些应用主要还是基于 Transformer 架构。y60喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
映泰推出 MT-N97 工业计算机:无风扇设计,配英特尔 N97 处理器

映泰推出 MT-N97 工业计算机:无风

11 月

11-19 103阅读
超204万人预约华为Mate 70:纯血鸿蒙+麒麟芯自研完全体来了

超204万人预约华为Mate 70:纯血鸿

11月19日

11-19 136阅读
天玑9400性能之神!iQOO Neo10系列前瞻

天玑9400性能之神!iQOO Neo10系列

今天,iQOO

11-19 109阅读
孙正义黄仁勋互曝往事:差点买下英伟达,错失两千亿美元

孙正义黄仁勋互曝往事:差点买下英

孙正

11-19 110阅读
咖啡界“老二”闭店上百家,星巴克们开始慌了?

咖啡界“老二”闭店上百家,星巴克

星巴

11-19 110阅读
“嫖娼门”王全安:前任个个赛西施,花800元睡站台女,终遭报应

“嫖娼门”王全安:前任个个

11-19 108阅读
林青霞谢娜同框, 竟是为了张杰?

林青霞谢娜同框, 竟是为了

张杰的首部舞台剧《曾经如是》正

11-19 106阅读
张歆艺第一任老公竟不是袁弘,二婚竟能被宠着这样令人羡慕

张歆艺第一任老公竟不是袁

大家都很喜欢袁弘吧?不仅仅是因为

11-19 103阅读
《权利的游戏》二丫结局是什么?她杀死了夜王?

《权利的游戏》二丫结局是

《权利的游戏》二丫结局是什在美

11-19 105阅读
《逆天奇案》寡佬是谁?钟嘉瑜最后和谁在一起了?

《逆天奇案》寡佬是谁?钟嘉

在《逆天奇案》中,寡佬是一名警察,

11-19 101阅读
《暗喻幻想: ReFantazio》发布最新宣传片 “剧情预告片2”

《暗喻幻想: ReFantazio》

《暗喻幻想: ReFantazio》发布最新宣传

11-19 112阅读
三国群英传3秘籍大全_三国群英传3秘籍代码及使用方法一览

三国群英传3秘籍大全_三国

给大家分享三国群英传3秘籍大全,里面包

11-19 112阅读
无畏契约新手攻略_无畏契约攻略图文大全

无畏契约新手攻略_无畏契

拳头公司最新游戏《瓦罗亚特》国服版叫

11-19 128阅读
饥荒通过卡猪人快速回复san值的详细操作方法

饥荒通过卡猪人快速回复sa

饥荒游戏里面玩家经常会面对san值不足

11-19 134阅读
饥荒辣椒酱制作方法及制作材料分享

饥荒辣椒酱制作方法及制作

辣椒酱是饥荒游戏里面的一个特殊食物,不

11-19 138阅读