通过强化学习来学习文本分类的结构化表示外文翻译资料-外文翻译网

英语原文共 8 页，剩余内容已隐藏，支付完成后下载完整资料

通过强化学习来学习文本分类的结构化表示

Tianyang Zhang，Minlie Huang，Li Zhao

（清华大学计算机科学与技术系清华信息科学与技术系国家实验室中国北京100084）

（微软亚洲研究院）

摘要表征学习是自然语言处理中的一个基本问题。本文研究如何学习文本分类的结构化表示。与大多数不使用结构或依赖预先指定结构的现有表示模型不同，我们提出了一种强化学习（RL）方法，通过自动发现优化结构来学习句子表示。我们演示了两种构建结构化表示的尝试：信息蒸馏LSTM（ID-LSTM）和层次结构LSTM（HS-LSTM）。ID-LSTM只选择重要的任务相关单词，HS-LSTM在一个句子中发现短语结构。两种表示模型中的结构发现被表述为一个顺序决策问题：当前的结构发现决策影响下面的决策，这可以通过策略梯度RL来解决。结果表明我们的方法可以通过识别重要词或任务相关结构而无需显式结构注释来学习任务友好型表示，从而获得有竞争力的表现。

1 简介

表征学习是人工智能中的一个基本问题，对于自然语言处理（NLP）尤为重要（Bengio，Courville和Vincent 2013; Le和Mikolov，2014）。作为NLP最常见的任务之一，文本分类在很大程度上依赖于学习表示，并广泛应用于情感分析（Socher等2013），问题分类（Kim 2014）和语言推理（Bowman等2015）。

文本分类的主流表示模型大致可以分为四类。Bag-of-words表示模型忽略单词的顺序，包括深度平均网络（Iyyer等，2015; Joulin等，2017）和自动编码器（Liu等，2015）。诸如卷积神经网络（Kim 2014; Kalchbrenner，Grefenstette和Blunsom 2014; Lei，Barzilay和Jaakkola 2015）和递归神经网络（Hochreiter and Schmidhuber 1997; Chung等2014）的序列表示模型考虑了词序，但没有使用任何结构。结构化表示模型，如树型LSTM（Zhu，Sobihani和Guo 2015; Tai，Socher和Manning 2015）和递归自动编码器（Socher等2013; 2011; Qian等2015）使用预先指定的解析树构建结构化表示。基于注意的方法（Yang等 2016; Zhou，Wan，and Xiao 2016; Lin等 2017）使用注意机制通过对输入词或句子进行差分评分来建立表示。

但是，在现有的结构化表示模型中，结构既可以作为输入提供，也可以使用显式树库注释的监督进行预测。关于自动优化结构学习表示的研究很少。 Yogatama等人（2017）提出仅从下游任务组成监督下的句子表示二叉树结构，但这样的结构非常复杂和过深，导致分类性能不理想。在（Chung，Ahn和Bengio 2017）中，提出了一个层次表示模型来捕获具有潜变量的序列中的潜在结构。结构是以隐含的方式发现的。

在本文中，我们提出了一种强化学习（RL）方法，通过识别与任务相关的结构而不需要显式的结构注释来构建结构化的句子表示。本文中的结构发现被制定为一个顺序决策问题：结构发现的当前决策（或行动）影响下面的决策，这可以通过政策梯度法自然解决（Sutton et al.2000）。延迟奖励用于指导结构发现政策的学习。奖励是根据基于结构化表示的文本分类器的预测来计算的。该表示仅在完成所有顺序决策时可用。

在我们的RL方法中，我们设计了两种结构化的表示模型：信息蒸馏LSTM（ID-LSTM），用于选择重要的任务相关词语来构建句子表示;以及层次结构化LSTM（HS-LSTM），使用一个二级LSTM结构发现短语结构并构建句子表示。表示模型与政策网络和分类网络无缝集成。策略网络定义了用于结构发现的策略，并且分类网络在结构化句子表示之上进行预测并且促进策略网络的奖励计算。

总而言之，我们的贡献如下：

bull; 我们提出了一种强化学习方法，它发现了与任务相关的结构来为文本分类问题构建结构化的句子表示。我们提出两种结构化表示模型：信息蒸馏LSTM（ID-LSTM）和分层结构LSTM（HS-LSTM）。

bull; 即使没有明确的结构注释，我们的方法也可以有效识别与任务相关的结构。此外，它的性能优于或与使用预先指定的解析结构的强基线相当。

2 方法

2.1 概述

图1：整个过程的插图。策略网络（PNet）在每个状态采样一个动作。结构化表示模型向PNet提供状态表示，并在对所有操作进行采样时将最终句子表示输出到分类网络（CNet）。 CNet执行文本分类并向PNet提供奖励。

本文的目标是通过发现重要的任务相关结构来学习文本分类的结构化表示。我们认为可以通过优化的结构化表示来改进文本分类。

整个过程如图1所示。该模型由三部分组成：策略网络（PNet），结构化表示模型和分类网络（CNet）。 PNet采用随机政策并在每个状态采取行动。它保持采样直到句子结束，并为该句子产生一个动作序列。然后结构化表示模型将这些行为转化为结构化表示。我们设计了两种表示模型，信息蒸馏LSTM（IDLSTM）和分层结构LSTM（HS-LSTM）。 CNet基于结构化表示进行分类，并向PNet提供奖励计算。由于奖励可以在最终表示可用时计算（完全由动作序列决定），这个过程可以通过策略梯度法自然解决（Sutton等2000）。

显然，这三个组件是交织在一起的。PNet的状态表示是从表示模型中导出的，CNet依赖于从表示模型获得的最终结构化表示进行预测，PNet从CNet的预测中获得奖励以指导策略的学习。

2.2 策略网络（PNet）

策略网络采用随机策略，并使用延迟奖励来指导政策学习。它用每个状态的概率对一个动作进行采样，每个状态的表示从表示模型中获得。为了获得基于CNet预测的延迟奖励，我们对整个句子进行动作抽样。一旦所有动作被确定，表示模型将获得句子的结构化表示，并且它将被CNet用来计算P（y|X）。用P（y|X）计算的回报用于策略学习。

我们简要介绍一下状态，动作和策略，奖励和目标函数如下：

状态状态编码当前输入和以前的上下文，并且在两个表示模型中具有不同的定义。状态st的详细定义将在下面的章节中介绍。

动作和策略 我们在两个设置中采用二元操作，但含义不同。在ID-LSTM中，动作空间是{Retain，Delete}，其中一个单词可以从最终句子表示中删除或保留。在HSLSTM中，动作空间是{Inside，End}，表示一个单词在短语的内部或末尾。 显然，每个动作都是表征模型中结构选择的直接指标。

我们采用随机策略。表示在t状态下的动作，策略的定义如下：

(1)

这里的表示选择的概率，表示sigmoid函数和表示PNet的参数。

在训练期间，根据方程式(1)中的概率对动作进行采样.在测试期间，为了获得更好的预测，将选择具有最大概率（即，）的动作。

奖励一旦所有动作都由策略网络采样，一个句子的结构化表示由我们的表示模型确定，并且表示将被传递给CNet以获得P（y|X），其中y是类别标签。奖励将根据预测分布（P（y|X））进行计算，并且还考虑了结构选择的趋势，这将在后面详述。这是一个典型的延迟奖励，因为直到最终的代表制成为止，我们才能获得奖励。

目标函数 我们使用REINFORCE算法（Williams 1992）和策略梯度方法（Sutton等 2000）优化PNet的参数，目的是最大化期望的奖励，如下所示

请注意，此奖励仅计算一个样本，例如的。由于我们在步骤t 1的状态完全由步骤t的状态和动作决定，所以概率和等于1。

通过应用似然比技巧，我们使用以下渐变更新策略网络：

(2)

2.3 结构化表示模型

信息蒸馏LSTM (ID-LSTM) 信息蒸馏LSTM（ID-LSTM）的主要思想是通过蒸馏最重要的单词并去除句子中不相关的单词来构建句子表示。通过这种方式，预计可以学习更多与任务相关的分类表示法。例如，在情感分类中，#39;to#39;，#39;the#39;和#39;a#39;等词可能很少有助于这项任务。通过提炼一个句子中最重要的单词，最终的表示可以被纯化和浓缩以进行分类。

ID-LSTM将从PNet获得的动作转换为句子的结构化表示。形式上，给定一个句子，有一个相应的动作序列 aL从PNet获得。在此设置中，词位置处的每个动作从{Retain，Delete}中选择，其中保留表示该词保留在句子中，并且删除表示该词被删除并且对最终句子表示没有贡献。正常情况下，

(3)

这里的表示序列LSTM的函数（包括所有门函数和更新函数），是存储器单元，是位置t处的隐藏状态。请注意，如果一个字被删除，当前位置的存储单元和隐藏状态将从先前的位置复制。

状态：策略网络的状态定义如下：

(4)

这里的表示向量拼接，表示当前的单词输入。为了丰富状态表示，包含了内存状态（）。

为了进行分类，将ID-LSTM的最后隐藏状态作为分类网络（CNet）的输入：

, (5)

其中,是CNet的参数，d是隐藏状态的维数，是类别标签，K是类别数量。

回报：为了计算延迟回报，我们使用CNet的输出概率的对数，即，其中是输入X的黄金标签。另外，为了鼓励模型删除更多的无用单词，我们通过计算删除单词数与句子长度的比例来包含一个附加术语：

, (6)

其中Lrsquo;表示删除单词的数量（其中相应的动作是删除）。是平衡这两个术语的超参数。

分层结构化LSTM (HS-LSTM) 分层模型已被广泛用于文档级分类（Tang，Qin和Liu，2015; Ghosh等，2016）和语言建模（Chung，Ahn和Bengio，2017）。受这些研究的启发，我们提出了一种分层结构LSTM（HS-LSTM），它可以通过发现句子中的层次结构来构建结构化表示。我们认为，通过识别句子中的子结构可以获得更好的句子表达。这个过程是通过在{Inside，End}中对每个单词位置采样一个动作来实现的，其中Inside表示一个单词在一个短语内，End表示一个短语的结束。 HS-LSTM将行为转换为句子的分层结构表示。确切地说，本文中的单词短语应该被解释为网络结构或片段。

在HS-LSTM中，有一个两级结构：连接一个单词序列以形成一个短语的单词级LSTM和连接短语以形成句子表示的短语级LSTM。单词级LSTM的转换取决于的操作。如果处的动作为结束，则位置t处的单词是短语的开始，单词级别LSTM以零初始化状态开始。否则，动作是Inside，单词级LSTM将继续其先前的状态。该过程正式描述如下：

(7)

其中表示单词级LSTM的转换函数，是存储单元，是位置t处的隐藏状态。

短语级LSTM的转换取决于在当前位置的动作，这表明短语是否完全构造（见方程8）。动作当处于结束时，一个短语在位置t结束，并且单词级LSTM的隐藏状态将被馈送到短语级LSTM中。否则，动作是Inside，并且短语级别LSTM在此步骤被固定，并且变量从前面的位置被复制。从形式上看，

(8)

其中表示短语级LSTM的转换函数。请注意，短语级LSTM的输入是，这是单词级LSTM的隐藏状态。

		结构选择
Inside	Inside	处仍是一个短语
Inside	End	是前一个短语的结尾
End	Inside	是一个新短语的开端
End	End	是一个单词短语

表1：HS-LSTM根据动作和的行为。

如表1所概括，HS-LSTM的行为依赖

全文共17325字，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[11127]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

通过强化学习来学习文本分类的结构化表示外文翻译资料

通过强化学习来学习文本分类的结构化表示

1 简介

2 方法

2.1 概述

2.2 策略网络（PNet）

2.3 结构化表示模型

您可能感兴趣的文章

登录

注册

找回密码

通过强化学习来学习文本分类的结构化表示

1 简介

2 方法

2.1 概述

2.2 策略网络（PNet）

2.3 结构化表示模型

您可能感兴趣的文章