Twitter数据情感分析技术综述外文翻译资料

 2022-12-17 02:12

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


Twitter数据情感分析技术综述

Sagar Bhuta Dwarkadas J. Sanghvi College of Engineering Mumbai, India. sagarb311@gmail.com

Uehit Doshi Dwarkadas J. Sanghvi College of Engineering Mumbai, India. uchit.doshi@gmail.com

AvitDoshi Dwarkadas J. Sanghvi College of Engineering Mumbai, India. avit.doshi@gmail.com

Meera Narvekar Dwarkadas J. Sanghvi College of Engineering Mumbai, India. meera.narvekar@djsce.ac.in

摘要:在过去的几年里,社交网站的使用有了快速的增长。通过这样的网站,人们可以很方便地表达他们对各种话题的看法和观点。对这些包含人们观点的数据进行分析是很重要的,这样才能衡量公众对某一特定话题的看法。本文综述了基于词汇的文本情感分析方法和基于学习的文本情感分析方法。为了将这些技术应用于社交网站Twitter获取的数据的情感分析,本文提出了一些需要解决的问题和挑战。

索引术语-情绪分析,监督学习,社交网络。

一、介绍

人们的评论、评论和意见在决定某一特定人群是否对某一产品或服务满意或判断他们对感兴趣的特定事件的反应方面发挥着重要作用。由这些评论或意见组成的数据具有很高的发现知识的潜力。这些数据通过个人博客和Facebook、Twitter等社交网站迅速进入万维网。为了揭示总体情绪,从这些来源检索数据和随后的情绪分析是必不可少的。因此,当前的任务分为四个子任务:(i)提取、(ii)预处理、(iii)分析和(iv)知识发现。我们把注意力集中在微博社交网站Twitter上。在推特上,用户以不超过140个字符的文本形式分享他们的观点。推特的话题可以是电影、国际事件或对新法律的批评。这些推文是决定一个群体情绪的关键,因为这些想法是原创的,直接来自用户的想法。此外,Twitter最近的用户数量也有了巨大的增长。而且,由于需要分析的推中的文本是压缩的,且不超过140个字符,因此对推进行情感分析要比计算大型文档的情感容易得多。本文综述了分析文本情感的一些技术,包括文档情感分析和推文情感分析。这些技术的范围从简单的基于词汇的方法到监督学习方法。基于学习的方法包括贝叶斯分类器、最大熵法和支持向量机。本文还讨论了一种混合技术——标签传播,它利用了上述方法的组合,并结合了一个用于标签分发的Twitter关注者图。除了情绪分析技术,本文还强调了Twitter数据的情绪分析需要克服的一些问题和挑战。这些问题一般包括不同分类器的优缺点,对Twitter约定和语言使用的适应性,以及网络结构属性与获取人群情绪之间的关系。

二、文献综述

情绪分析领域的研究人员已经做了大量的研究。本文讨论了情绪分类的几种方法。

A、基于词汇方法

基于词汇的文本情感分类方法得到了广泛的应用。这类分类器试图根据文本中出现的积极和消极词汇的数量对数据进行分类,并且不需要任何训练数据集。这些表达意见的词被称为“意见词”,而词汇则被称为“意见词汇”。“意见发现者”是一个简单的基于主观性的词汇,以前曾被用于情绪分析,以衡量消费者信心[20]。虽然结果是有误差的,但高错误率可以被大量的数据所抵消。情绪值X,在一天(t)内可以计算为积极词汇(pos)的数量与消极词汇(neg)的比例。

上面是一个计算函数,可以用来对文本进行分类。如果计算函数不正确,可以使用前面句子的极性作为平局判断,也可以使用标记数据中的信息。

这种方法的主要问题是没有处理上下文相关单词的机制。例如,“long”这个词既可以表达积极的意见,也可以表达消极的意见,两者都取决于使用它的语境。例如,“the phone has a long battery life”,与“the phone takes too long to restart”这句话相比,就有一种相反的感觉。这个问题是通过基于整体词典的方法来解决的[14]。不同于只关注所讨论的句子,其他评论和评论中的信息和证据也被使用连词规则加以利用。例如,让我们再次考虑“相机的电池寿命很长”这句话。既然形容词“long”既可以表达积极的意见,也可以表达消极的意见,如前所述,我们可以调查其他包括“long”这个词的评论。比如说,另一位评论者说:“这款相机很棒,电池续航时间很长。”从逻辑上讲,形容词“long”只能在这篇评论中表达积极的观点。“这款手机很棒,电池续航时间很短”的说法是不太可能的。此外,这种方法的另一个障碍是可能在一个句子中处理多个实体,每个实体的观点可能不同。

对于句子中的每个实体,我们可以计算一个方向函数。语义指向是否定词的极性和强弱,是文本中主观性和观点的一种衡量标准[23]。肯定词的语义倾向得分为 1,否定词的语义倾向得分为-1。然后使用以下函数对所有分数进行求和:

其中,wi为意见词,V为所有意见词(包括习语)的集合,即词典,S为包含实体e的句子。e. d(wi, e)为实体e与句子S . wi中意见词wi之间的距离。单词wi的语义取向也是如此。公式中的乘法逆矩阵用于对远离实体e的意见词给予较低的权重。

B、贝叶斯分类方法

贝叶斯分类器是一种利用贝叶斯定理的简单概率分类器。该模型可以与一个决策规则相结合,一个常见的规则是,选择最可能的假设,即最大后验模型或地图决策规则。根据这条规则,文件d可以分为:

c*=argmaxc P(cld).

分类器由贝叶斯公式导出,贝叶斯规则如下:

其中P(c)和P(d)为类和文档的先验概率。P(d)在选择c*时没有任何作用。

让(fl,hellip;hellip;fm)是可出现在文档中的m个特征的预定义集合;例子包括单词“still”或词组“really stinks”。设nj (d)为文档d中出现fi的次数,则每个文档d由文档向量d表示:= (nl(d), n2(d),hellip;nm(d)。由于P(d)保持不变,所以一般集中在分子上。假设特征是条件独立的,分类器为:

为了避免零概率,可以使用add-l平滑模型。因此,没有出现在文档中的单词可以被赋予非零的概率。

朴素贝叶斯分类有两种一阶概率模型,它们都假设特征是相互独立的。一个是伯努利模型另一个是多项式模型。伯努利模型是一个不依赖于单词和二进制单词特征的贝叶斯网络,而多项式模型是一个单词计数为整数的单字母语言模型。多项式模型用于计算文档中单词出现的频率。因为,讨论的话题是情感分类而不是话题分类,一个单词的出现就足够了。因此,使用多项式版本的二值化版本,它只考虑单词的存在,而不考虑单词的频率。另一方面,伯努利模型根据词汇表的存在与否为每个词汇表项生成一个布尔指示符。因此,伯努利模型还考虑了文档中没有出现的单词。研究发现,多元伯努利模型在词汇量较小的情况下表现良好,但多项式模型在词汇量较大的情况下通常表现得更好,在任何词汇量下,多元伯努利模型的误差平均比多元伯努利模型减少27%[5]。

1)一元贝叶斯模型

对于一元朴素贝叶斯,一个属于类的项的概率被给出为该项在具有相同类的消息中的经验计数。在多项式模型中,概率为:

其中Tctk是该术语与类关联的次数,“v”是该类所看到的术语总数。与上面的模型相反,伯努利多元模型处理包含该类的术语的文档数量除以该类的文档总数。多项式模型的二值化变化将每个文档中的单词数剪辑为一个。

研究了利用贝努利模型的Xsup2;特征选择方法,结果表明,利用最具鉴别性的特征可以显著提高分类器[11]的性能。l特征选择方法将一个类与输入特征关联起来。假设F有两个值{0,1}, C有两个值{0,1}。特征与类之间的关联可以计算为:

这个方程是用一个列联矩阵推导出来的。N表示类和特性关联的次数。分数越高,关联越强。因此,使用Xsup2;最大值进行分类。

2)二元贝叶斯分类器

二元朴素贝叶斯分类器根据类中单词、成对出现的次数来计算文档属于该类的概率。

但是由于训练集变得稀疏,可以使用线性插值和后退模型。线性插值对一元和二元概率进行加权,计算文档的总体概率。

从图1的图中可以得出一些推论:

图一:分级器性能[10]

·与其他类模块相比,正-负分类器的分类性能更好。

·采用线性插值模型的二元朴素贝叶斯分类器对正-负分类效果最好。

·当加入Xsup2;特征选择方法时,分类器的精度显著提高。

·与预期的一样,由于数据集的稀疏性,经验二元图模型的性能较差。

·此外,还引入了一种权值归一化补体朴素贝叶斯分类器来解决采样偏置问题,该分类器的[11]性能较差。其精度较差的原因是类数较少,数据集较小。

C、最大熵

最大熵技术是一种概率分布估计技术。它用于各种自然语言处理任务,其中之一就是文本分类。最大熵的基本原理是,如果对数据所知不多,则分布应尽可能均匀,即具有最大熵。约束允许分布具有最小的不均匀性。它们来自标记的训练数据,并表示为特征的期望值。通过改进的迭代缩放算法[16]可以求出最大熵公式的解。

例如,让我们考虑一下检索到的包含单词“jobs”的推特的情绪分析,以度量消费者信心。如果我们被告知平均有50%的推文有正面情绪评分,我们会说负面和中性情绪评分的推文数量将分别为25%。创建这样一个模型很容易,但是随着约束数量的增加,任务变得更加复杂。

当使用最大熵时,第一步是识别模型中包含的特征。然后计算特征的期望值,作为模型的约束条件。因此,最大熵允许我们将分布限制为与模型分布中某个特征的期望值相同。可以看出,该分布始终是指数形式的[3]。

其中f(c,d)为特征,Ai为待估计参数,Z(d)为归一化函数。

特性类函数可以表示为二进制函数,只有当推中包含特定特性时才会触发该函数。因此,最大熵可以成功地包含包含双图的特征。例如,特征函数只在词组lsquo;still hate出现时触发,然后假设推是负面的。

最大熵法的优点之一是它不受独立假设的影响。例如,在短语“bon voyage”中,这两个词几乎总是同时出现。因此,最大熵将使分类权重降低一半,而不是将此类事件的证据计算两次。因此,词组和短语可以很容易地添加为特性。

但由于约束条件是通过标注的训练数据来估计的,因此存在数据稀疏的可能性,因此该方法可能存在过拟合问题。在这种情况下,必须使用先验。为了对先验进行积分,采用指数模型的最大后验估计。研究发现,为每个特性引入一个先验参数可以显著提高[21]的性能。

D、支持向量机

支持向量机是高利润分类器。支持向量机用于情绪分类的主要思想是找到一个超平面来划分文档,或者在我们的例子中,根据情绪来划分推文,类与类之间的边界尽可能高。

支持向量机基于结构风险最小化原则。目标是找到一个假设h,其真实误差最小。真正的误差可以定义为h在对不可见数据或随机选择的测试样本进行分类时出错的概率。

如果将超平面表示为h,推文表示为t,表示推文根据推文情绪必须分类为Cj -E {l, -I} 的类,则解为:

这里,ai可以通过求解对偶优化问题得到。那些人工智能大于零的推文,是那些有助于找到超平面的推文,因此被称为支持向量。

特征选择是机器学习技术中的一项重要任务。为了避免过度使用,文本分类必须考虑许多特性拟合和提高一般精度。支持向量机具有处理大量维数高的特征空间的潜力。支持向量机的学习能力与特征空间的维数无关。支持向量机衡量的是用来分离文档的假设的复杂性,而不是特征的数量。只要文本分类问题是线性可分的,特征空间中的特征个数就不是问题之一。

为了处理大量的特征,传统的文本分类方法假设其中一些特征是不相关的。但是即使是根据特征选择方法排列的最低的特征也包含相当多的信息[8]。认为这些特性无关紧要往往会导致信息丢失。由于支持向量机不需要我们做这样的假设,信息损失可以减少。

结果表明,在传统的文本分类方法中,K-NN的分类效果最好,支持向量机是一种较好的独立于参数[8]的分类方法。还有一种基于SVM的自动复习分类器SVMlight,。该程序已广泛应用;在后续涉及支持向量机的研究中。

SVM虽然优于传统的情绪分类方法,但它是一种黑箱分类方法。很难研究分类的本质,也很难确定哪些单词对[8]分类更重要。这是使用SVM作为文档分类方法的少数缺点之一。

E、标签传播算法

我们已经看到了基于词汇和基于机器学习的文本情感分析方法。但是由于Twitter数据包含大量的简洁性和非正式性,将标准的监督学习技术应用于Twitter数据的情绪分类并不容易。

尽管机器学习方法已经显著提高了准确性,但几乎所有监督学习方法的主要缺点之一是,它们都需要标记输入作为训练数据,并且很难适应语言使用的变化。社交网站语言的使用与正常使用有很大的不同,因此在这些方法中加入额外的功能对于提高准确性至关重要。

利用标签传播方法,利用Twitter Follower模块,我们可以利用用户之间的关系,使用推特的用户和带有推

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[20542],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。