学习非常短文本的语义相似性外文翻译资料

 2022-03-27 07:03

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


学习非常短文本的语义相似性

摘要:在Twitter和Facebook等社交媒体上使用数据要求信息检索算法能够将非常短的文本片段相互关联。基于词重叠的传统文本相似性方法,如TF-IDF余弦相似性,在这种情况下大多不能产生好的结果,因为词重叠很少或不存在。最近,分布式文字表示或单词分布已被证明可以成功地让单词在语义层次上匹配。为了将短文本片段(作为单独单词的集合)配对,需要一个适当的分布式语句表示,在现有的文献中,通常是通过将单个的单词表示巧妙地结合在一起。因此,我们在文本匹配方面调查几个表示法用于进行词组的组合。本文研究了几种简单的方法,以及对不同长度的片段的TF-IDF相似度。我们的主要贡献是朝着混合方法迈出的一步,该方法结合了密集分布式表示的优点和基于TF-IDF的方法的优点,以自动减少信息量较少的词的影响。我们的新方法在实验中表现优于现有的方法,可以得出结论,词分布和TF-IDF信息的组合会产生更好的语义内容模型用于处理短文本。

在社交媒体上,数十亿条短信每天都公开发布:自己的研究表明,几乎每条推文都包含一到三十个字。为了利用这个极短文本片段流,我们需要适当的信息检索算法。 TF-IDF是传统和非常受欢迎的代表,用于比较新闻文章等文本。它依赖单词重叠找到相似之处,但在非常短的文本中,单词重叠很少,TF-IDF经常失败。出于这个原因,我们需要句子表示,它不仅仅掌握单词内容。

  1. 引言

我们的研究表明:在社交媒体上,数十亿条信息每天都公开发布,几乎每条推文都包含一到三十个词。为了利用这些短文本,我们需要适当的信息检索算法。 TF-IDF是一种有代表性的传统和非常受欢迎用于比较文本的方法,例如用于新闻这种文本中。它依赖单词重叠找到相似之处,但在非常短的文本中,单词重叠很少,TF-IDF得不到很好的效果。出于这个原因,我们需要句子表示文本而不仅仅是用单词。

2013年,米科洛夫等人。发表了三篇关于分布式词分布的论文,以捕捉词语之间的语义相似性,这导致了Google的word2vec软件产生。自那时以来,科学家们广泛使用这种分布来改进自然语言处理中的最新算法,如词性标注,句子完整性,标签预测等。然而,对于如何将词的分布情况表示结合到单独的句子用于有效地表示文本的的语义信息缺乏研究。许多作者选择通过平均或最大化文本中的词分布或通过多层感知器,聚类,或修剪文本至固定长度。

Le和Mikolov的段落向量算法(Paragraph Vector Algorithm)也被称为paragraph2vec,是一种可以有效寻找长文本的向量表示的方法。该算法尝试通过类似于word2vec的过程为单独的单词和段落找到分布情况。然而,这些段落的收集事先是已知的。这意味着为一个新的或者未知的段落寻找一个向量表示需要额外的训练。因此paragraph2vec不适用于社交媒体中消息流。因此基于词分布来导出最优的句子表示的方法需要进一步的研究。通过调查和比较几种单词组合方法在短文本匹配任务中的表现,我们得出了一种新颖的技术,即我们将TF-IDF和词分布进行结合。在本文中,我们展示了在含有频繁出现的单词的文本如何将单词分布组合成一个新的矢量表示。我们的方法是朝着混合方法迈出的第一步,该方法将短文本片段的单词分布和TF-IDF信息合并为一个分布式表示,以捕获片段的大部分语义信息。

  1. 实验步骤与结果分析

为了评估测量短文本片段之间语义相似度的技术,我们需要一个参考集合,其中包含语义上相关的片段对以及不相关的对。我们将前者表示为一对,将后者表示为非对。每一对都由两个文本组成,这些文本构成了一系列的单词。对于任意一对,我们引入记号和中的两个文本被表示为序列和。序列的元素是的第一个文本中的词的向量,表示为:

将()中包含的词表示组合成()的向量表示分别被写为,并且分别作为写入()。

在本文中,我们力求对主要在社交媒体上发现的非常短的文本片段的句子进行初步的推动,但现在我们将使用英语维基百科文章进行我们的实验。这些当然是与文本媒体存在差异,也存在一些缺点,我们将在后面讨论,但维基百科文章具有良好结构的好处,这使我们可以更容易地提取相关文本。在我们的实验中,我们使用2015年3月4日的维基百科的信息,通过删除标记和标点来清洗文本数据。我们将所有文本转换为小写,并用单个字符#39;0#39;替换数字。在我们的环境设置中,我们要求所有的文本组合都由相同数量的单词组成,即序列的长度。

我们总共提取了五百万组和五百万组非文字,这些文本分别包含十个,二十个和三十个单词。

为了将单词表示为矢量,我们训练整个维基百科语料库上的单词分布。我们通过Google的word2vec软件执行此操作,使用带负样本的跳字词,五个词的上下文窗口和400个维度。我们还使用相同的Wikipedia语料库为每个词计算频率。

如果两个文本片段的相应向量表示根据一定的距离度量彼此靠近,则两个文本片段在语义上相似。因此,文本片段之间的语义相似性与词嵌入之间的语义相似性有关,其中相关单词之间的余弦距离与不相关单词相比较小。这也是为什么我们不使用释义数据集(例如Microsoft Research释义语料库或SemEval2015 Twitter释义数据集)来执行我们的实验的原因。毕竟,这些数据集中语义相关性的概念往往太狭窄:如果一个句子是关于星球大战而另一个关于阿纳金天行者的话,它们在语义上是相关的,尽管它们可能不是彼此的解释。

为了验证我们自己的1000万组维基百科数据集是否是进行相似性实验的有效候选者,我们将测试不同的技术,试图尽可能增强相似组与非相似组之间的区分能力,也就是说,导致配对之间的距离小或非配对之间的距离更大。我们从简单的TF-IDF到纯粹的单词分布组合的技术开始,之后我们研究TF-IDF和单词分布方式的基本混合。

图1:使用TH-IDF产生的余弦相似度函数的柱状图

对于每组,我们为()和()创建TF-IDF表示,并计算()和()之间的余弦相似度。图1显示了采用直方图显示一组成对的词组和非对的词组的余弦相似度的函数。我们看到,有很多组的余弦相似度非常低,这是由于文本片段的长度很短。还有更多组的余弦相似度大于非对的相似度,但非相关文本也可以表现出相对较大的相似度值,这是由于大部分无意义词语的巧合重叠造成的。

至于单词分布,我们创建两个传统的句子表示作为基线。在第一个表示中,我们采用文本中所有单词分布的含义:

其中表示文本序列中第j个单词的word2vec单词向量。第二种表示中,我们针对每个维度所有分布中考虑最大值:

在两个这样的公式之间,我们像以前一样计算余弦相似度。

图2:对于对(暗灰色)和非对(浅灰色),使用词分布的均值,组数量与其余弦相似度的函数的直方图。

图2显示了分布均值的直方图。该图显示了两条曲线的延伸尾部朝向较低的余弦相似度。我们看到非成对曲线的模式比成对曲线的模式更靠左,但仍然彼此接近。我们的假设是,这是由于在无用信息但频繁出现的词语中重叠。然而,这些文字对文本的语义意义影响不大,通过减少这些文字的影响,我们希望能够使文本片段的真实语义更加明显。通过减少这种相似性,我们打算将非对更强地朝着比对更低的相似性移动,从而增加了两者之间的分辨率。

某些包含信息量较少的专业术语在很多句子中也是常见的,并且它们中的大多数在文档中出现的频率也很高。因此,我们实施归一化技术,但是这次我们只使用IDF组件中前30%的单词。在最后的步骤中,我们使用所有的单词,但是我们对每个单词向量与它的IDF值进行权衡,然后我们取平均值。

由于词嵌入包含正数和负数,我们还测试其中的一些符号的影响。在第一个实验中,我们采用文本中所有文字嵌入的最小值,而不是最大值。在第二个实验中,我们测试正面或负面的极值是否是语义相似性的重要指标。因此,我们简单地连接最大唯一性来区分成对和非成对,我们计算两个性能指标:最优分裂误差和Jensen-Shannon(JS)散度。我们使用最优阈值来获得前者,其中错分类型对的数量最小。后者是一种对称度量,它基于众所周知但非对称的KL散度来表示两个概率分布之间的相似性。最优分裂误差越低或JS分歧越高,技术就越能区分成对和非成对。表I显示了10,20和30个单词的结果。

表1

不同词的矢量聚合技术与其余相似性的比较。

表2

20个词不同距离指标的比较。

至于传统技术,最大的方法最适合10和20个单词,但随着单词数量增加到30,TF-IDF表现最好,这是合乎逻辑的,因为单词重叠随着单词数量的增加而增加,这可能是如图1所示。min方法几乎和max方法一样。通过连接最小向量和最大向量,我们可以看到分割误差和JS背离有很大的提高。因此,我们可以得出结论:词嵌入中的符号具有互补的语义信息。通过整合文档频率信息,我们比以前的所有文字长10个字的文字都做得更好。但对于更长的文本,平均方法表现得最好,而最小和最大组合的效果比使用完整文本时效果更差。表现最好的技术是IDF-加权平均法,并且该方法采用具有最高IDF分量的单词向量的30%的平均值,因为它们在不同的词长度上类似地执行。我们也调查使用距离度量的影响。我们测试0到1之间的余弦距离,欧几里得距离,L3-范数,L4范数和布雷 - 柯蒂斯距离,我们使用20个字长的文本和嵌入的平均值。表II显示了结果,再次用分裂误差和JS散度来表示。欧氏距离在我们的测试中表现得最好,所以我们在此后继续使用欧几里德距离。

  1. 学习语义相似性

从数据分析中可以清楚地看到,将来自TF-IDF和word嵌入的知识结合起来可能是有益的。 仅使用所有单词中具有最高IDF分量的部分明显减少分割错误并改善JS分歧。毕竟,低IDF的单词没有明确的语义含义,并且由于这些单词出现在很多句子中,所以非相关句子之间有更多的巧合重叠。从文本表示中删除这些词或者降低其影响从而成功地拉开了对之间和非对之间的平均相似度。

在本节中,我们将探讨如何学习如何以简短的文字优化词汇。通过这种方式,我们打算做的更好,而不仅仅是采用top-IDF或用IDF分量对这些单词进行权衡,以便使配对和非配对之间的平均距离最大化。和以前一样,我们在环境设置上对几个维基百科短文本进行实验,并将其配对为非配对。我们将总数据集划分为150万组的训练集,150万对组合的测试集和200万对组合的验证集. 既然我们描述了正在进行的研究,并展示了灵活混合技术的第一步,我们在本节中只考虑长度为20个字的文本,并将不同长度的片段的研究作为未来的工作。

我们实施以下学习程序。 对于训练集中的每组,我们根据文档频率对文本()和()中的词进行排序,即文档频率最低的词首先到达()和()。 接下来,我们将每个单词和的单词嵌入向量与重要性因子相乘; 这些重要因素是将要学习的全球权重。 最后,我们取这些加权嵌入的均值来获得()的固定长度向量和()的:

我们取平均值,因为它是表I第三部分中表现最好的技术。图3说明了使用重要性因子方法计算句子的矢量表示的整个过程。 我们首先看到句子中的单词按照它们的IDF分量排序; 接下来,他们的400维单词嵌入向量乘以重要性因子,最后取平均值。

为了学习重要性因素,我们定义了一个损失函数作为任意对的函数,使对的向量之间的距离最小,并且使非对的向量之间的距离最大化:

图3:对九个字长的重要因素方法的说明

我们将以下目标作为重要因素的函数进行优化:

为了使这个目标函数最小化,我们使用随机梯度下降,其中批对数为100组,学习率为0.1,动量为0.9,正则化常数lambda;为0.0015。 我们开始所有重要因素等于0.5的优化。由于训练集中有大量的夫妇,我们可以在一次训练后停止优化。到那时,这些因素已经达到最佳状态,并且程序已经看到所有的训练都只有一次,从而减少了过度配合的机会。

图4:重要性因素的量级

图4显示了通过前面描述的优化程序获得的重要性因素的图表。我们清楚地看到,重要性因素稳步下降; 因此文件频率低的文字比文件频率高的文字重要得多,这证实了我们的假设。最后的因素非常接近于零。

图5:平均嵌入和重要性因子方法之间的比较,对于成对(深灰色)和非成对(浅灰色)。

为了将我们的重要性因子方法的性能与早先描述的组合技术进行比较,我们计算了每种技术的验证集上的成对和非成对之间的最佳分割点。 使用这些最佳分割点,然后计算我们测试集上的最终分割错误率。作为距离度量我们使用归一化的欧几里德距离,除了TF-IDF

我们使用了标准的余弦距离。表III显示了我们测试的不同技术的错误率。我们注意到,重要性因

全文共6155字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[15155],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。