使用序列到序列模型生成高质量和信息性的对话响应外文翻译资料

 2021-11-23 10:11

英语原文共 11 页

使用序列到序列模型生成高质量和信息性的对话响应

摘要

序列到序列模型已经应用于对话响应生成问题,其中源序列是对话历史和目标序列是响应。不喜欢翻译,对话回应具有天生的创造力。一代人长,信息丰富,连贯,多样化回应仍然是一项艰巨的任务在这工作,我们专注于单回合设置。我们将自我注意力添加到de编码器以更长时间地保持连贯性回应,我们提出一个实际的方法,称为glimpse模型,为缩放到大型数据集。介绍随机波束搜索算法让我们分段重新排名我们在这一代人的早期注入多样性处理。我们对组合数据进行了培训一组超过2.3B的对话消息从网上挖掘出来的。在人类评估研究中,我们的方法产生的时间更长整体反应,比例较高评定为可接受且长度极佳与具有明确长度促进的基线序列到序列模型相比,增加。产生退避策略总体而言,在完整的长度范围内有更好的反

1 介绍

构建能够进行通用会话的计算机系统是一个具有挑战性的问题。然而,这是构建可以通过人与人交互的智能代理的必要步骤自然语言,并最终通过图灵测试。序列到序 列(seq2seq)模型已被证明非常受欢迎,因 为它可以作为一种纯粹的数据驱动方法用于学习映射到可变长度序列和从可变长度序列 进行映射,在许多领域都具有最先进的结果, 包括机器翻译(Cho等人。, 2014; Sutskever 等人。, 2014; 吴等人。, 2016).神经对话模型是对话建模领域的最新发展,有望培养计算机以端到端的方式进行交谈( Vinyals和Le,2015; 尚等人。, 2015; Sordoni等人。, 2015; 温等人。, 2016).尽管结果很有希望,但这种方法仍存在许多挑战。特别是,这些模型产生缺乏多样性的简短通用响应(Sordoni等人。,2015; 李等人。, 2015).即使明确鼓励更长的反应(例如通过长度标准化),它们往往是不连贯的(“太阳在太阳的中心。”),多余的(“ 我喜欢蛋糕和蛋糕”), 或矛盾(“我不拥有枪,但我拥有枪。“)。

在本文中,我们提供了两种方法来解决这些问题,只需对标准seq2seq模型进行最少的修改。首先,我们提供一瞥模型,一次只训练目标侧的固定长度段,允许我们将训练扩展到更大的数据集。其次,我们引入了基于段的随机解码技术,该技术在生成的响应中更早地注入分集。总之,我们发现,与基线seq2seq模型相比,这两种方法可以产生更长的响应和更高的评级,并且将明确的长度和多样性促进启发式集成到生成过程中(参见表1 使用我们的模型生成的示例)。在节中2,我们对这两种技术进行了高级概述。然后我们讨论每个在章节中更详细的技术3 和4.最后,我们将在章节中报告对拟议技术的小规模和大规模实验评估5.

2 概述和动机

翻译和对话对话的主要区别在于,在前者中, 在目标序列y中生成的高级语义内容完全由源序列给出,即,在给定源x的情况下,存在低条件熵。 目标分布P ( yx ) 。 因此,在seq2seq方法中,解码器网络只需要跟踪它在输出中的位置,并且可以通过注意机制从源 中的相关部分转换要生成的内容(Bahdanau 等。, 2014).相反,在对话响应生成中,提示转向可能很短且一般(例如,“你今晚有什么计划”),而适当的响应可能很长并且信息量大。

标准的seq2seq模型很难产生长响应,因为解码器必须跟踪其固定长度隐藏状态向量中的所有输出,这导致输出不连贯甚至相互矛盾。为了解决这个问题,我们建议将目标端注意力集成到解码器网络中,以便它可以跟踪到目前为止输出的内容。这释放了隐藏状态下的容量,用于对生成相干较长响应期间所需的较高级语义进行建模。在2009年小型Open-Subtitles数据集中,我们能够利用这个想法实现小的困惑收益(蒂德曼, 2009).但是,我们发现在扩展到更大的数据集时,它会占用大量内存。

作为权衡,我们提出了一种技术(称为“瞥见模型”),该技术分别在编码器的源侧注意和编码器和解码器的源和目标侧注意之间进行插值。我们的解决方案简单地从目标侧训练解码器进行固定长度的瞥见,同时在编码器上一瞥之前同时具有源序列和目标序列的一部分,从而在编码器上共享注意机制。这可以作为一种简单的数据预处理技术实现, 具有未修改的标准seq2seq实现,并允许我们将训练扩展到非常大的数据集,而不会遇到任何内存问题。见图1 对于图形概述,

我们用长度为3的瞥见模型来说明这个想法。鉴于这种训练有素的模型,下一个挑战是如何使用模型生成长期,连贯和多样化的响 应。如在前一部分和其他工作中所观察到的, 使用波束搜索的标准最大后验(MAP)解码通常产生短的,无信息的和高频响应。产生更长输出的一种方法是采用长度促进启发式(例如长度归一化(吴等人。, 2016))在解码期间。我们发现这增加了输出的长度,但通常以牺牲一致性为代价。在生成的响应中明确创建变体的另一种方法是使用促进多样性的启发式方法重新排列来自模型的N-bestMAP解码的响应列表(李等人。, 2015)或后向RNN(温等人。, 2015).我们发现这适用于较短的响应,但不适用于长响应,主要有两个原因:首先,该方法依赖于MAP解码来生成N个最佳列表,并且如上所述,MAP解码更喜欢简短的通用响应。其次,在生成整个序列之前延迟重新搜索波束搜索为时已晚,因为即使波束数量很高,波束搜索解码也倾向于 产生每个给定提示具有低分集的波束。相反, 我们的解决方案是打破较短段的重新排列, 并逐段重新排序,从而在解码过程中更早地注入分集,其中对生成的波束的最终多样性 产生最大影响。

为了进一步改善生成的响应的变化,我们用采样替换波束搜索过程的确定性MAP解码。如果模型成功捕获给定目标的响应分布,则可以期望简单的贪心采样以产生合理的响应。然而, 由于模型欠拟合,所学习的分布通常不够尖锐, 导致逐步采样以沿途累积误差,表现为非相干输出。

提示:

基线响应(A)与我们

的方法(B)

你今晚有什么计划

答:我不知道自己想要做什么。我不知道我想要什么(Bad,Mediocre,Bad)

B:我打算做其中的一些,但我不知道该选择什么。我需要找一个营地,我没有太多时间来制定计划。(优秀,良

好,平庸)

我想读一部好的科幻小说。有一段时间没有读过科幻小说。

A:如果你喜欢科幻,你应该看看Patrick Rothfuss的风之名(优秀,优秀,优秀)

B:如果你想知道什么是科幻小说,请阅读Neil Gaiman的第一本书。这是一部科幻科幻小说。这真的很好,我推荐给

大家。它有一个很好的前提。(可接受,优秀,可接受)

有什么大周末计划吗?

A:我有周末的计划,但我不知道我能不能做到(坏,平庸,坏)

B:周六我真的没什么可做的。但我打算去商场看电影并去看演出。(好,好,坏)

由于空气压力,有时飞行会弄乱我的耳朵。

特别是如果我感冒了什么,飞行让我搞砸了。

答:我不知道为什么,但是当我还是个孩子的时候,我常常在我年轻的时候这样做。(好,坏,坏)

B:我不知道为什么,但我感觉完全一样。我不知道为什么,但我的大脑对空气如此敏感,以至于让我的鼻子抽搐。

(很棒,平庸,很好)

是啊。我有这个朋友,我们很无聊只是在这里闲逛

有时,所以我们去的地方很少。几个月前我们去了西雅

图。

A:你喜欢做什么样的事情?(优秀,优秀,优秀)

B:听起来很棒。我有很多朋友去西雅图,所以我想知道你是否可以分享任何地点?(优秀,优秀,优秀)

你见过自杀小队吗?

A:我没有,但我会检查出来。(好,好,好)

B:我曾经在剧院看过它,它很棒。非常 我不知道,有点黑暗。我喜欢心理效果以及它在电影中描绘角色的方

式。(优秀,优秀,优秀)

实际上我也喜欢雪,除了今天。这一切都是泥泞的

它遍布人行道,而且很糟糕。

A:我讨厌雪。我恨雪。我恨雪。我恨雪。我恨雪。我恨雪。我恨雪。我讨厌

雪。(可接受,良好,良好)

B:我和你在同一条船上。我喜欢它在下雪的时候,我不喜欢整天铲它。:(所以这是一个完美的借口,不起床,去其他

地方。(优秀,良好,可接受)

你希望将来看到什么?

答:我希望能够及时回到我出生的时候。我想成为(平庸,坏,平庸)

B:我想看一部实际的电影,其中角色有能力隐藏他们实际上在电影中的事实。(好,可接受,可接受)

奇点可能会带来什么危险?

答:我认为这不是什么大不了的事。(可接受,平庸,可接受)

B:如果从外星人的角度来看,你不能说没有其他办法可以解决这个问题。(可接受,平庸,可接受)

我觉得你有点疯狂。

答:我不认为你知道那个词是什么意思。(可接受,良好,良好)

B:我是,实际上。我不认为我疯了。我当然是。(可接受,平庸,可接受)

表1:从基线(A)产生的一些示例响应与我们的模型(B)相比,人类评级在括号中。这些是为了质量而选择的。有关无偏差样本,请参阅附录。

实用的方法,称为瞥见模型,它可以很好地扩展,并且易于在标准的序列到序列模型之上实现。Seq2seq 型号备受关注( Bahdanau 等。,2014)将每符号条件概率参数化为:

1 我们引入了逐段重新排名的随机波束搜索过程P yi|y[0:iminus;1];x = DecoderRNN (yiminus;1,himinus;1,注意力(himinus;1,x))(1) 这改善了生成的响应的多样性。

2 我们通过人体评估进行大规模实验,表明所提出的技术在强基线上有所改进。

3 我们发布了我们的评估中使用的无上下文对话提示集合,作为未来开放域对话响应研究的基准。

3 关注目标的Seq2Seq模型

我们讨论序列到序列问题设置中的会话响应生成。在此设置中, 有一个源序列x =( x1 , x2,...,xm )和一个目标序列y =(y0,y1, y2,...,yn )。我们假设y0 始终是序列开始标记,yn 是序列结束标记。在典型的序列到序列模型中,编码器从源序列x获得其输入,并且解码器模拟给定x的目标序列y的条件语言模型P(yx)。为1 le; i le; N,其中DecoderRNN()是一个重新将解码器符号序列映射到固定长度矢量的当前神经网络,Attention()是一个函数,它产生与预测y最相关的编码器符号x(#39;fo#39;) 的固定大小矢量摘要i ,鉴于前期网络h的先前状态iminus;1 (#39;con#39;)。完整的条件概率如下从产品规则来看:

我们建议通过增加注意机制来实现目标方面的关注,以包括已生成的目标序列的一部分,i.e 我们在注意函数的参数中包含y[0:iminus;2]:注意(himinus;1 ,y[0:iminus;2],x)。我们在TensorFlow 中实现了这一点(阿巴迪等人。,2015)在编码器和解码器上使用3个LSTM层, 每层 1024 个单元。我们在 OpenSubtitles2009数据集上进行了实验,并从目标方面的注意力中获得了一个小的困惑:24.6而不是。但是,OpenSubtitles是一个小数据集,

(a)香草序列到序列模型。 (b) 长度为3的目标瞥见模型

图1:左侧注意香草seq2seq,右侧是我们建议的目标模型。符号“gt;”和“lt;”分别是序列开始和序列结束。

并且其大多数响应序列短于10个令牌。这可能会阻止我们获得更大的收益,因为我们的方法旨在帮助更长的输出。为了训练更大的

Reddit数据集,我们在GNMT模型之上实现了 这个方法(吴等人。, 2016).不幸的是,我们 遇到了频繁的内存不足问题,因为8层GNMT模型已经非常耗费内存,并且增加了目标端的注意力使其更加如此。理想情况下,我们希望保留模型的容量以便训练丰富的响应模型, 因此需要更有效的方法。

为此,我们提出了具有固定长度解码器的目标瞥见模型。目标瞥见模型被实现为标准的序列到序列模型,其中解码器具有固定长度K.在训练期间,我们将目标序列分成具有固定长度K 的非重叠的连续段(瞥见),开始从最开始。 然后,我们在解码器上一次一个地扫描这些瞥 见,同时将所有目标侧符号放在编码器上的一 瞥之前。例如,如果序列y被分成两个瞥见y1 和y2,每个长度为K(y2 可能比K短),那么我们将用两个例子训练模型,(xy)1)和(x,y1,y2)

原文和译文剩余内容已隐藏,您需要先支付 20元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。