Transformer模型架构_深度学习模型

Transformer模型架构

深度学习模型

Transformer模型架构是2017年Google在论文Attentions is All you need 中提出的模型，其使用 Self-Attention 结构取代了在 NLP 任务中常用的 RNN 网络结构。相比 RNN 网络结构，其最大的优点是可以并行计算。

发展历程

Transformer模型最早是在2017年由谷歌大脑团队Ashish Vaswani和多伦多大学

产品特点

Transformer模型架构使用 Self-Attention 结构取代了在 NLP 任务中常用的RNN网络结构。相比 RNN 网络结构，其最大的优点是可以并行计算。Transformer模型是一个神经网络，它通过跟踪序列数据（如本句中的单词）中的关系来学习上下文，从而学习含义。

模型组成

Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分：编码组件和解码组件Transformer 模型（Encoder-Decoder 架构模式）。

其中，编码组件由多层编码器（Encoder）组成（在论文中作者使用了 6 层编码器，在实际使用过程中你可以尝试其他层数）。解码组件也是由相同层数的解码器（Decoder）组成（在论文也使用了 6 层）。

编码器/解码器组成

每个编码器由两个子层组成：

每个编码器的结构都是相同的，但是它们使用不同的权重参数（6个编码器的架构相同，但是参数不同）Encoder编码器组成编码器的输入会先流入 Self-Attention 层。它可以让编码器在对特定词进行编码时使用输入句子中的其他词的信息。

然后， Self-Attention层的输出会流入前馈网络。

解码器也有编码器中这两层，但是它们之间还有一个注意力层（即 Encoder-Decoder Attention），其用来帮忙解码器关注输入句子的相关部分（类似于 seq2seq 模型中的注意力）

编码器：self-attention层 + 前馈网络FFN（Position-wise Feed Forward Network）

解码器：self-attention层 + Encoder-Decoder Attention + 前馈网络FFN（Position-wise Feed Forward Network）

应用

OpenAI流行的ChatGPT文本生成工具使用Transformer架构进行预测、摘要、问答等，因为它们允许模型专注于输入文本中最相关的部分。在该工具的各种版本（例如GPT-2，GPT-3）中看到的“GPT”代表“生成预训练Transformer”。ChatGPT等基于文本的生成式AI工具受益于Transformer模型，因为它们可以更容易地基于大型复杂数据集预测文本序列中的下一个单词。

Transformers正在取代卷积和递归神经网络（CNN和RNN），这是以前最流行的深度学习模型。

参考资料

“AI”科普丨Transformer架构图解最强教程！.中国人工智能学会.2024-05-16

What is a Transformer Model? | IBM.IBM.2024-03-04

What Is a Transformer Model?.nvidia.2024-03-04

最新修订时间：2025-02-05 10:25

条目作者

小编

资深百科编辑

概述

发展历程

产品特点

模型组成

参考资料