注意力是你所需要的外文翻译资料-外文翻译网

英语原文共 15 页，剩余内容已隐藏，支付完成后下载完整资料

Attention Is All You Need

AshishVaswani NoamShazeer NikiParmar

JakobUszkoreit LlionJones AidanN.Gomez

ŁukaszKaiser IlliaPolosukhin

摘要

主流序列转导模型基于复杂的循环神经网络或卷积神经网络，这些神经网络包含一个编码器和一个解码器。性能最好的模型还通过attention机制将编码器和解码器连接起来。我们提出一种新的简单的网络架构Transformer，仅基于attention机制并完全避免循环和卷积。对两个机器翻译任务的实验表明，这些模型在质量上更加优越、并行性更好并且需要的训练时间显著减少。我们的模型在WMT 2014英语-德语翻译任务上达到28.4 BLEU，超过现有最佳结果（包括整合模型）2个BLEU。在WMT 2014英语-法语翻译任务中，我们的模型建立了单模型新的最先进的BLEU分数41.8，它在8个GPU上训练了3.5天，这个时间只是目前文献中记载的最好的模型训练成本的一小部分。通过在解析大量训练数据和有限训练数据的两种情况下将其应用到English constituency，我们表明Transformer可以很好地推广到其他任务。

1.简介

在序列建模和转换问题中，如语言建模和机器翻译中，循环神经网络，长短期记忆[13]和门控循环[7]神经网络，已经被确立为最先进的方法。之后，许多努力一直在推动循环语言模型和编码器-解码器架构的界限。

通过在计算期间将位置与步骤对齐，它们根据之前的隐藏状态ht-1和输入产生位置t的隐藏状态序列ht。这种固有的顺序特性阻碍样本训练的并行化，这在更长的序列长度上变得至关重要，因为有限的内存限制样本的批次大小。最近的工作通过因子分解[21]和条件计算[32]在计算效率方面取得重大进展，后者还同时提高了模型性能。但是，顺序计算的基本约束仍然存在。

注意机制已成为序列建模和转导模型不可或缺的部分，从而可以无需考虑它们在输入或输出序列中的距离[2,19]对依赖项进行建模。除少数情况外[27]，这种attention机制都与循环网络一起使用。

在这项工作中，我们提出了Transformer，这种模型架构避免循环并完全依赖于attention机制来绘制输入和输出之间的全局依赖关系。在8个P100 GPU上进行了长达12个小时的培训之后，Transformer可以显着提高并行度，并且可以在翻译质量上达到最新的水平。

2 背景

减少顺序计算的目标也构成扩展的神经网络GPU [16]、ByteNet [18]和ConvS2S [9]的基础，它们都使用卷积神经网络作为基本构建模块、并行计算所有输入和输出位置的隐藏表示。在这些模型中，关联任意两个输入和输出位置的信号所需的操作次数会随着位置之间的距离而增加，ConvS2S是线性增加，而ByteNet是对数增加。这使得学习远程位置[12]之间的依赖性变得更加困难。在Transformer中，这种操作减少到固定的次数，尽管由于对用attention权重化的位置取平均降低了效果，但是我使用Multi-Head Attention进行抵消，具体描述见 3.2。

Self-attention，有时称为intra-attention，是一种关联单个序列的不同位置以计算序列的表示的attention机制。Self-attention已成功用于各种任务，包括阅读理解、摘要概括、文本蕴涵和学习与任务无关的句子表征[4, 27, 28, 22]。

端到端的记忆网络基于循环attention机制，而不是序列对齐的循环，并且已被证明在简单语言的问答和语言建模任务中表现良好[34]。

据我们所知，Transformer是第一个完全依靠self-attention来计算输入和输出表示而不使用序列对齐RNN或卷积的转导模型。在下面的章节中，我们将描述Transformer、引出self-attention并讨论它相对[17, 18]和[9]几个模型的优势。

3 模型架构

大部分竞争神经序列转导模型都有一个编码器-解码器结构[5, 2, 35]。这里，编码器映射一个用符号表示的输入序列(x1,...,xn) 到一个连续的表示z = (z1,...,zn)。根据z，解码器生成符号的一个输出序列(y1,...,ym) ，一次一个元素。在每一步中，模型都是自回归的[10]，当生成下一个时，使用先前生成的符号作为附加输入。

Transformer遵循这种整体架构，编码器和解码器都使用self-attention堆叠和逐点、完全连接的层，分别显示在图1的左边和右边。

图1： Transformer — 模型架构。

3.1 编码器和解码器堆栈

编码器：编码器由N = 6 个完全相同的层堆叠而成。每一层都有两个子层。第一个子层是一个multi-head self-attention机制，第二个子层是一个简单的、位置完全连接的前馈网络。我们对每个子层再采用一个残差连接[11] ，接着进行层标准化[1]。也就是说，每个子层的输出是LayerNorm(x Sublayer(x))，其中Sublayer(x) 是由子层本身实现的函数。为了方便这些残差连接，模型中的所有子层以及嵌入层产生的输出维度都为dmodel = 512。

解码器：解码器同样由N = 6 个完全相同的层堆叠而成。除了每个编码器层中的两个子层之外，解码器还插入第三个子层，该层对编码器堆栈的输出执行multi-head attention。与编码器类似，我们在每个子层再采用残差连接，然后进行层标准化。我们还修改解码器堆栈中的self-attention子层，以防止位置关注到后面的位置。这种掩码结合将输出嵌入偏移一个位置，确保对位置的预测 i 只能依赖小于i 的已知输出。

3.2 Attention

Attention函数可以描述为将query和一组key-value对映射到输出，其中query、key、value和输出都是向量。输出为value的加权和，其中分配给每个value的权重通过query与相应key的兼容函数来计算。

图2：（左）Scaled Dot-Product Attention。（右）Multi-Head Attention，由多个并行运行的attention层组成。

3.2.1 Scaled Dot-Product Attention

我们称我们特殊的attention为“'Scaled Dot-Product Attention”（图 2）。输入由query、d_k维的key和d_v维的value组成。我们计算query和所有key的点积、用相除，然后应用一个softmax函数以获得值的权重。

在实践中，我们同时计算一组query的attention函数，并将它们组合成一个矩阵Q。 key和value也一起打包成矩阵 K 和 V 。我们计算输出矩阵为：

两个最常用的attention函数是加法attention[2]和点积（乘法）attention。除了缩放因子之外，点积attention与我们的算法相同。加法attention使用具有单个隐藏层的前馈网络计算兼容性函数。虽然两者在理论上的复杂性相似，但在实践中点积attention的速度更快、更节省空间，因为它可以使用高度优化的矩阵乘法代码来实现。

当d_k的值比较小的时候，这两个机制的性能相差相近，当d_k比较大时，加法attention比不带缩放的点积attention性能好[3]。我们怀疑，对于很大的d_k值，点积大幅度增长，将softmax函数推向具有极小梯度的区域4。为了抵消这种影响，我们缩小点积倍。

3.2.2 Multi-Head Attention

我们发现将query、key和value分别用不同的、学到的线性映射h倍到d_k、d_k和d_v维效果更好，而不是用d model维的query、key和value执行单个attention函数。基于每个映射版本的query、key和value，我们并行执行attention函数，产生d_v 维输出值。将它们连接并再次映射，产生最终值，如图所示 2。

Multi-head attention允许模型的不同表示子空间联合关注不同位置的信息。如果只有一个attention head，它的平均值会削弱这个信息。

其中，映射为参数矩阵W_i^Q isin; ℝ^d^modeltimes;^d_k, W_i^K isin; ℝ^d^modeltimes;^d_k, W_i^Visin; ℝ^d^modeltimes;^d_v及W ^O isin; ℝ^hd_v^times;^d^model。

在这项工作中，我们采用h = 8 个并行attention层或head。对每个head，我们使用d_k =d_v =dmodel ∕ h = 64。由于每个head的大小减小，总的计算成本与具有全部维度的单个head attention相似。

3.2.3 Attention在我们模型中的应用

Transformer使用以3种方式使用multi-head attention：

在“编码器—解码器attention”层，query来自上面的解码器层，key和value来自编码器的输出。这允许解码器中的每个位置能关注到输入序列中的所有位置。这模仿序列到序列模型中典型的编码器—解码器的attention机制，例如[38, 2, 9]。

编码器包含self-attention层。在self-attention层中，所有的key、value和query来自同一个地方，在这里是编码器中前一层的输出。编码器中的每个位置都可以关注编码器上一层的所有位置。

类似地，解码器中的self-attention层允许解码器中的每个位置都关注解码器中直到并包括该位置的所有位置。我们需要防止解码器中的向左信息流来保持自回归属性。通过屏蔽softmax的输入中所有不合法连接的值（设置为-infin;），我们在scaled dot-product attention中实现。见图 2.

3.3 基于位置的前馈网络

除了attention子层之外，我们的编码器和解码器中的每个层都包含一个完全连接的前馈网络，该前馈网络单独且相同地应用于每个位置。它由两个线性变换组成，之间有一个ReLU激活。

FFN(x) = max(0,xW1 b1)W2 b2 (2)

(2)

尽管线性变换在不同位置上是相同的，但它们层与层之间使用不同的参数。它的另一种描述方式是两个内核大小为1的卷积。输入和输出的维度为dmodel = 512，内部层的维度为d_ff = 2048。

3.4 嵌入和Softmax

与其他序列转导模型类似，我们使用学习到的嵌入将输入词符和输出词符转换为维度为dmodel的向量。我们还使用普通的线性变换和softmax函数将解码器输出转换为预测的下一个词符的概率。在我们的模型中，两个嵌入层之间和pre-softmax线性变换共享相同的权重矩阵，类似于[ 剩余内容已隐藏，支付完成后下载完整资料

资料编号：[235358]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

注意力是你所需要的外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章