特征挖掘与情感联合模型的产品评论评级分析外文翻译资料

 2022-06-05 21:53:51

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


特征挖掘与情感联合模型的产品评论评级分析

Jorge Carrillo de Albornoz, Laura Plaza,

Pablo Gervacute;as, and Alberto Dacute;ıaz

Universidad Complutense de Madrid,

Departamento de Ingenieracute;ıa del Software e Inteligencia Artificial,

Madrid, Spain

{jcalbornoz,lplazam,albertodiaz}@fdi.ucm.es,

pgervas@sip.ucm.es

【摘要】顾客评论中的信息对公司和消费者都很有意义。这些信息通常以非结构化的自由文本形式提供,以便自动提取和评估用户对产品的意见是一项具有挑战性的任务。而且,这种观点在很大程度上取决于表达用户判断和印象的产品特征。遵循这个想法,我们的目标是根据用户对评估中评估的不同产品功能的意见来预测产品评论的总体评分。为此,该系统首先在评估某种类型的产品时识别与消费者相关的特征,以及这些特征的相对重要性或显着性。系统然后从评论中提取用户对不同产品特征的意见并量化这些意见。不同产品特征的显着性以及量化用户关于它们的意见的值被用于构建特征强​​度矢量,其代表审查并且将成为机器学习模型的输入,该机器学习模型将审查分类到不同的评估类别。我们的方法经过了来自booking.com的1000多家酒店评论的评估。结果与其他系统针对类似评估所取得的结果相比更为有利。

【关键词】自动产品评级,特征挖掘,极性检测,情感分析。

1. 介绍和背景

在过去的十年中,产品评论论坛已经司空见惯,越来越多的网站为客户提供平台,宣传他们对产品和服务的个人评价和意见。 产品评论中的信息对公司和消费者都很有意义。 公司和组织花费大量资金来发现客户的观点和看法,因为这些信息有助于利用他们的营销组合来满足消费者的需求。 个人在购买产品或雇用服务时对其他人的意见感兴趣。事实上,根据对ComScore的调查,在线客户生成的评论对购买决策有重大影响,因此消费者愿意支付至少20%的优质或5星评级服务的费用接受良好或四星评级的服务。

这种情况已经引发了许多NLP挑战,通常称为Sentiment Analysis,例如主观性检测,极性识别和评级推断。主观性检测的目的是发现主观或中性的术语,短语或句子,它经常用作极性和评级分类的前一步骤[1,2,3]。极性识别尝试将文本分类为正面或负面[4,5,6]。评分推断任务更进一步,并试图识别不同程度的积极性和消极性,例如,强阴性,弱阴性,公平,弱阳性和强阳性[6,7,8,9]。

专注于产品评论分类,在过去的十年中提出了各种方法。他们大多只考虑意见的极性(即负面与正面),并依赖机器学习(ML)技术对语言特征频率向量进行训练。庞等人。例如,在正负项频率上训练的三个ML算法之间进行比较,并得出结论:基于单元的SVM分类器可以有效地用于电影评论的极性分类。 Martineau和Finin [10]在同一语料库上使用类似的方法,使用Delta TF-IDF函数对词进行评分,然后将评论分为正片和负片。布鲁克[7]提出了一项更加雄心勃勃的任务,其目标是利用包括强化,否定,情态和话语结构在内的一系列语言特征,分别将不同类型产品的评论分为三类和五类评级。然而,这些方法都没有考虑影响意见极性的其他因素,尤其是这种极性的强度,例如审稿意见所表达的方面或特点以及它们之间的关系。我们假设人类有一个关于某个产品或服务的相关概念模型,这些模型明显影响了他们观点的极性和强度。例如,在评估一家酒店时,评论者似乎主要关注其酒店的位置,清洁度,等等。而其他方面,如附近的商店和餐馆或床的大小,则不那么重要。因此,我们认为,要成功理解用户对产品的看法,有必要结合特征挖掘和情感分析策略。

这种说法并不新奇,其他人已经注意到了[11,12,13]。 Carenini和同事[11]提出了一个总结评估论证的系统,该评估论点依赖于被评估实体的特征检测。 他们使用[14]中介绍的关联规则挖掘方法获得第一个特征列表。 由于功能的数量可能无法管理(每个产品大约有100-200个功能),因此它们使用一组特定的用户定义功能(UDF)来减少此列表。 Tivov和McDonald [12]提出了一个统计模型,该模型能够发现话题或评级方面,并从支持这些评级的评论中提取文本证据。他们通过TripAdvisor.com评估他们的酒店评论语料库。这种方法有两个主要的局限性:首先,它需要预先定义的一组方面来提取,这也需要伴随着用户评分(例如食物:2;装饰:1;服务:3;价值: 2)。这些信息通常在大多数评论集中都不可用,用户通常会给出一个独特的分数来表示他们对产品的总体评分,同时还有一段自由文本来描述他们对一个或多个产品方面的看法。其次,他们的系统使用表达方式来描述产品方面,比如对于服务方面的“很好的接待”或“有帮助的人”。我们认为,在前面的表达中“伟大的”和“有帮助的”这些词不应被认为代表方面服务的酒店,但可能会影响其他方面(例如“大房间”或“有帮助的班车服务”)。 Kim和Hovy [13]提出了一个系统,通过查找持有者和意见主题,从在线评论中自动提取利弊。但是,他们没有量化这些利弊的强弱,也没有预测评论的整体评分。

在本文中,我们专注于衡量意见的极性和强度,特别是在产品评论中表达的意见。我们提出了一种模型,可以根据用户对不同产品功能的意见来预测评论的评分。该模型分4个阶段工作。首先,它确定了评估某种产品时对消费者重要的特征。其次,它在评论中定位了用户对不同产品特征的意见。第三,它计算每句话中表达意见的极性和强度。最后,它基于与其关联的句子的极性计算每个特征的单个分数,并且构建代表评论的特征强度矢量,并且将是机器学习算法的输入,该算法预测评论的评分。

我们的方法从三个方面改进了以前的工作。首先,它不使用任何有关与用户相关的产品功能的知识,而是使用无监督的模型从一组评论中自动发现它们。这使系统可以直接移植到新型产品和服务中。其次,这组发现的特征对用户而言足够小且有意义,但是每个特征都由许多能够准确描述它的概念定义,而与所使用的词汇无关。第三,系统估计整个用户意见中每个产品特征的权重,以预测更精确的评级。

2. 数据收集:HotelReview语料库

我们从booking.com收集了25家不同酒店的25条评论。 每项评论都包含以下信息:

①酒店所在的城市,评论者的国籍,撰写评论的日期以及来自7个类别(如单人旅行者,年轻夫妇和团体)的评论者类型。

②0-10分描述评论者的整体观点。 该评分不是由评论者给出的,而是由booking.com自动从评论者分配给5个方面的评分自动计算出来的:酒店员工,服务/设施,房间的清洁度,舒适度,物有所值和地点。不幸的是 ,这些分解得分在评论中不可用。

③简要的自由文本分别描述了评论者在酒店逗留期间喜欢和不喜欢的内容。

我们注意到,分配给评论的总体分数与描述用户对酒店的意见的文本通常没有任何关系,因此两个评分几乎相同的评论可能会反映非常不同的意见。 例如,以下两个评论被赋予了评分“6.5”,但是第二个评论显然比第一个更为负面:

①良好的位置。 漂亮的屋顶餐厅 - (我以前住过baglioni 5次以上)。 也许重塑/重新装修大堂。

②由于道路交通造成的噪音。 房间非常小。 停车尴尬。 淋浴屏被打破,床头灯没有灯泡。

为了克服这个缺点,我们要求两个注释者根据文本在集合[优秀,良好,一般,差,非常差]和第二个类别[良好,一般,差]中分配第一类别描述它。 为了多意评论带来的分类分歧,所有带有冲突评论文本都被删除了。 最后,我们随机选择了1000条评论。 对于三类分类,评论的最终分布分别为5类分类中的每个类200个和349个,292个和359个。 表1显示了酒店评论的一个例子。

lt;HotelReview idDoc=“D 8” hotelID=“H 2” hotelLocation=“Paris” reviewerCat-egory=“Young couple” reviewerNationality=“Belgium” date=“February 10, 2010” score=“9.3” 5 classes intensity=“Good”gt; 3 classes intensity=“Good”gt;

lt;PositiveOpiniongt;我喜欢这里的地理位置,早餐很不错,还有下午茶时间等等,那真的很不错。 周末停车免费(在大街上,而且很安全)。 我们到了房间,这是非常浓的香烟味儿,所以我们要求换房间,并换了一个很好的房间。 我会绝对推荐这家酒店。 但是,这并不是一个四星级的酒店...lt;/PositiveOpiniongt;

lt;NegativeOpiniongt;除了一个晚上的接待员(一个男人),其他服务员是很好的,他根本没有帮助,我问他方向,他说如果你不了解巴黎,我什么都做不了。 无论如何,其他人都很好。lt;/NegativeOpiniongt;

lt;/HotelReviewgt;

表1.来自HotelReview语料库的酒店评论示例

3. 自动产品评论评级

在本节中,我们提出了一种新颖的产品评论方法。 该方法基于识别产品消费者关心的特征,提取评论者评论的产品特征,并且对每个产品特征的评论加权以评估评论者关于产品的总体情绪。

3.1 检测显着的产品功能

此步骤的目标是在评估某种类型的产品时识别与消费者相关的功能,以及这些功能的相对重要性或显着性。为此,我们对[15]中提出的摘要方法进行了修改,我们在这里解释了完整性。

给定一系列相同类型产品的评论,我们首先对描述用户意见的文本应用浅层预处理,包括POS标记和删除停用词和高频词。接下来,我们使用lesk算法[16]将文本翻译成WordNet概念,根据其上下文消除每个术语的含义。在那之后,名词的WordNet概念用它们的上位词来扩展,建立一个图表,其中顶点表示文本中不同的概念,而边缘表示是 - 它们之间的关系。我们的实验结果表明,该图中动词的使用包含了负面影响评级预测步骤的非常一般的信息。关于形容词和副词,我们不考虑这些格式类别的词汇来表示产品特征,而是表达用户对它们的看法。

接下来我们用一个语义相似性关系来展开图,从而添加一个新的边,它将相似度超过某个阈值的每一对叶顶点连接起来。为了计算这种相似性,已经测试了不同的措施。最后,每个边在[0,1]中被分配一个权重。该权重计算为边缘链接的概念层次结构中的相对位置之间的比率。

顶点根据其显着性或威望来排名。顶点的显着性vi被计算为连接到它的边的权重的总和乘以评论集中由vi表示的概念的频率。前n个顶点被分组为Hub Vertex Sets(HVS)[17],它们代表意义上强相关的概念集合。然后在图上运行基于度数的聚类方法以获得非预定义数量的聚类,其中属于HVS的概念表示centrroids。有效的假设是,这些集群中的每一个都代表了不同的产品特征。图1a显示了使用Jiang和Conrath [18]相似性度量和0.25相似性阈值构建图表,从booking.com的1500组酒店评论中生成的18个特征聚类中每个特征聚类的最高显着概念或质心。在图1b中,显示了属于特征簇“房间”的所有概念。

3.2 提取关于每个产品特征的用户意见

一旦系统知道消费者关心的产品特征或方面,下一步就是从评论中提取表达的意见。

图1.(a)图1.(b)

图1.(a)每种产品特征的最高显着性概念。 (b)属于特征室的概念。较大的字母表示较高的出现率。

这些功能。 因此,我们需要在评论中找到与每个产品功能相关的所有文字提及。 为此,我们以与上一步相同的方式将评论映射到WordNet概念,并使用三种启发式方法将评论中的句子与他们引用的产品功能相关联:

  1. 最常见特征(MCF):该句子与其具有更多WordNet概念相同的特征相关联。
  2. 所有共同特征(ACF):由于句子可能包含与不同特征相关的信息,因此我们将该句子与每个特征相关联,并且有一些共同的概念。
  3. 最显着特征(MSF):对于每个特征和句子,我们通过添加句子中也存在于特征群集中的概念的显着性来计算得分。 然后,该句子与最高分数特征相关联。

必须注意的是,一个句子可能只包含未包含在任何特征组中的概念,因此它不能与其中的任何一个相关联。 为了避免丢失这些句子中的信息,我们创建了一个更进一步的集群(其他特征),并将这些句子与它关联起来。

3.3 量化用户意见

我们接下来的目标是量化评论员对不同产品功能表达的意见。为此,我们预测与每个特征相关的句子的极性。由于用户不太可能将评论中的每个句子注释为正面或负面,因此我们使用Carrillo de Albornoz等人提供的极性识别系统。 [9]。这种方法的主要思想是在一个带有情感意义的句子中提取WordNet概念,从一个有效词典中为他们分配一组类别中的情感,并将这些信息用作逻辑回归模型的输入来预测句子的极性和极性的概率。正如作者指出的,这种方法的要点是:(1)使用WordNet和词义消歧算法,它允许系统使用概念而不是术语,(2)使用情感类别代替的术语作为分类属性,(3)使用否定和量词来反转,增加或消除这些情绪的强度。该系统已被证明优于以往旨在解决相同任务的系统。

例如,当系统运行的句子是“在房间里,加热系统没有问题,所以即使在外面很冷,在酒店里足够温暖”,句子被分类为积极的 概率为0.963。

3.4 预测评论评级

一旦提取了所有相关的产品特征,并且量化了每个特征的用户意见,系统应汇总

全文共13466字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[11296],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版