基于在线评论的产品排名的信息融合过程与方法综述外文翻译资料

 2022-08-14 02:08

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


基于在线评论的产品排名的信息融合过程与方法综述

Zhi-Ping Fan , Guang-Ming Li , Yang Liu

摘要:在过去的几年里,越来越多的消费者在网上购物时会阅读在线评论。为了支持消费者的购买决策,许多学者关注基于在线评论的产品排名,并提出了各种方法和技术。通常,基于在线评论的产品排名信息融合过程包括三个阶段:产品特征提取、情感分析和产品排名。

本文回顾了国内外各阶段信息融合过程和方法的研究现状。在此基础上,本文简要回顾了国内外基于在线评论的信息融合研究现状。最后,总结了本文的主要结论,并指出了未来的研究方向。

关键词:在线评论 产品排名 特征提取 情感分析 信息融合

  1. 介绍

近年来,像亚马逊、京东等众多电子商务平台纷纷推出了产品或服务的在线评论系统。这些平台允许消费者通过在线评论来分享和获取更多的产品信息。随着电子商务平台上大量在线评论的出现,在线评论已经成为消费者购买产品或服务时的重要信息来源。例如,根据消费者市场报告,消费者阅读在线评论的比例在2010年到2016年间从71%增加到91%。与此同时,网络评论的数量也在迅速增长。例如,亚马逊的Kindle Fire平板电脑已经收到超过10万条用户评论。据推测,当消费者考虑购买产品或服务时,他们会阅读相关产品或服务的在线评论,以做出最佳购买决策。例如,一个消费者想要选择一家酒店时他会阅读在线评论以此来选择一个合适的住宿。然而,由于每个产品都有大量的在线评论,消费者很难在有限的时间内阅读所有的在线评论,也很难从在线评论中获得有用的信息来对替代产品进行排名或选择所需的产品。因此,为了支持消费者的购物决策,有必要重视基于在线评审的数据挖掘、信息融合和产品排名方法与技术的研究,这也是近年来许多学者研究的重要课题。到目前为止,我们可以看到一些有价值的研究成果。目前,从已有的研究成果来看,很多基于在线评论的产品排名方法都涉及到信息过滤过程。这个过程可以分为三个阶段。首先,数据挖掘技术用于从在线评论中提取产品特征。其次,运用情感分析方法,识别出网络评论对每个产品特征的情感取向和情感强度。最后,产品排名结果由在线评论的情绪分析结果确定。需要注意的是,信息融合是一个多层次、多方面的过程,它可以将不同来源的数据合理地融合成一个连贯的表示。信息融合的方法和技术开始是应用于军事领域。然后,随着科学技术的发展,它们被应用到许多其他领域。基于在线评审分析和产品排名进行信息融合,或者对基于在线评审的产品排名进行有针对性的信息融合方法和技术研究,都是值得特别关注的,也是信息融合研究领域的新挑战。

本文旨在综述基于在线评审的产品排名信息融合的一些过程和方法,以便相关研究人员在进行基于在线评审的产品排名方法和相关研究时,对信息融合过程有更详细的了解。首先,我们描述了基于在线评论的产品排名中所存在的问题,然后展示相应的信息融合框架。然后,分别介绍了基于在线评论的产品特征提取、情感分析和产品排名信息融合的过程和方法。最后,我们简要综述了基于在线评论的信息融合在其他领域的研究。

本文的其余部分安排如下。第二节描述了基于在线评论的产品排名问题,并展示了解决该问题的信息融合框架。第三节综述了基于在线评论的产品特征信息融合的过程和方法。第四节综述了基于在线评论的情感分析信息融合的过程和方法。第五节基于在线评论的情感分析,综述了产品排名信息融合的过程和方法。第六节综述了基于在线评论的信息融合在其他领域的研究进展。第七部分总结了本文的主要结论,并对未来的研究进行了展望。

  1. 问题描述与信息融合框架

在本节中,我们首先给出基于在线评论的产品排名问题描述。然后,我们提出了一个用于解决这个问题的信息融合框架。

    1. 问题描述

一般情况下,消费者在网上购买产品时,会先阅读一些网上对一些替代产品的评论,了解这些产品的特点,从而在替代产品中找到最满意的产品。然而,在线评论属于文本数据,具有模糊性和随机性,并且每个产品的在线评论数量很大。这使得消费者从在线评论中获取产品特征变得更加困难。此外,消费者需要根据自己的喜好考虑产品的不同特点。这样,消费者需要进一步融合许多在线评论的产品特征信息,然后从替代产品中选择最符合自己偏好的产品。因此,为了支持消费者的购买决策,需要一个决策分析工具来帮助消费者提取产品特征并进行相应的情感分析。在此基础上,通过信息融合得到产品的排序结果。

    1. 信息融合框架

为了解决基于在线评论的产品排名问题,需要几个信息融合过程。 图1显示了相应的信息融合框架,该框架由三部分组成。第一部分是在线评论的产品特征提取。第二部分是网络评论的情感分析。第三部分是替代产品排名(即基于在线评论情感分析的信息融合)。在第一部分中,首先通过爬虫软件获得文本数据形式的在线评论。然后,对在线评论进行预处理。此外,根据预处理的结果对每个评论进行词性(POS)标记。最后,提取与产品特征相关的单词。第二部分,首先通过基于词汇的情感分析方法或基于机器学习的情感分析方法来识别情感词的情感取向和情感强度。然后,通过计算情感词的整体情感得分,得到情感分析结果。第三部分是在第一部分和第二部分工作的基础上,通过信息融合确定备选产品排序的最终结果。

图1 基于在线评论的产品排名信息融合框架

  1. 在线评论的产品特征提取

当消费者在网上购买产品时,他们经常在网上阅读有关产品的评论,以了解产品的特性。每个产品都有多个特性,消费者对每个产品的每个特性都有不同的偏好。因此,基于在线评论的产品特征提取需要考虑消费者的偏好。所以,有必要解决基于在线评论的产品特征提取问题。由于在线评论数量庞大,存在大量无效信息,消费者获取产品特征的效率会降低,从而导致信息过载问题。为了解决这个问题,我们开发了一些社会分析工具来帮助消费者从在线评论中自动提取产品特性。许多学者从不同角度给出了产品特征提取的含义。例如,Yan等人指出产品特征提取是在线评审分析的基础和重要步骤,开发在线评审产品特征提取的自动识别方法和技术是十分必要的。Chang等人]认为利用特征提取方法可以提取到由于信息过载导致的隐藏信息的真实价值。Quan和Ren认为,产品特征提取是基于在线评论的情感分析的重要基础和瓶颈。同时,他们把产品特征提取看作是特定领域的实体识别问题。需要指出的是,与特征提取相似的概念是主题挖掘。关于话题挖掘的研究大多集中在推特的话题挖掘上。例如,Carvalho等人。[39]研究了如何从众多推文中挖掘推特主题,以帮助用户快速找到感兴趣的主题。一些学者也开始关注网络评论的主题挖掘研究。例如,Xu等人研究了如何使用主题挖掘模型从在线评论中识别隐含特征。然而,一些主题挖掘方法只能用来发现一些粗糙的特征,而特征提取方法可以用来发现更准确的特征。

在接下来的章节中,我们将从两个方面综述相关文献:产品特征提取的过程和产品特征提取的方法。

    1. 产品特征提取过程

产品特征提取过程如图2所示。首先,使用网络爬虫软件从相关网站抓取在线评论。维基百科提供了网络爬虫的详细定义。然后,对在线评论进行预处理。在线评论的预处理主要分为两个步骤。第一步是分词和词性标注。第二步是删除停止单词。分词是将在线评论中的每个句子分解成几个单词的过程。词性标注(POS)是在分词结果中对每个词的正确词性进行标注的过程。例如,通过分词和词性标注,将一篇评论文章“cloth i s very beautiful”分别分段标注为“cloth/n,is/v,very/d,beautiful/a”,其中“/n”,“/v”,“/d”和“/a”代表“名词”,“动词”,“副词”和“形容词”。 删除停止词是指删除在线评论中频繁出现且没有实际意义的词。最后,提取产品特征。

图2 产品特征提取过程

    1. 产品特征提取方法

产品特征提取方法主要分为两类:基于统计的方法和基于规则的方法。

基于统计的方法在特征提取中得到了广泛的应用,主要包括关联规则挖掘(ARM)、

隐马尔可夫模型(HMM)、条件随机场(CRF)、最大熵模型(ME)、潜在狄利克雷分配模型(LDA)等。Hu和Liu使用关联挖掘来提取频率特征。他们也针对关联挖掘无法提取频繁特征的局限性,提出了一种利用意见词寻找不频繁特征的方法。Kangale等人。在构建基于特征的审查摘要时,选择使用ARM查找产品的频繁特征。Bi等人使用LDA从在线评论中提取产品/服务的属性。Wong和Lam提出了一种基于HMM的产品特征提取方法,并通过提取拍卖网站在线评论的产品特征验证了该方法的有效性。Wong和Lam利用CRF模型将拍卖网站的特征提取问题转化为图标记问题。与HMM和ME相比,CRF被认为是最有效的特征提取方法,但它仍然存在只捕获特征词和意见词的局部相关性的局限性。基于此,Yang等人提出了一种局部上下文搜索和全局上下文搜索相结合的特征提取方法,并根据特征得分和频率对备选产品进行排序。需要指出的是,基于统计的方法得到了广泛的应用,现有的研究大多采用这些方法。然而,基于统计的方法往往依赖于难以构建的语料库。目前,大多数语料库的词源都是新闻,这与消费者在线评论中的词源有很大的不同。因此,这些缺点在一定程度上限制了统计方法的发展。

需要指出的是,现有的基于规则的特征提取方法研究较少。与基于统计的方法相比,基于规则的方法在产品特征提取效率方面具有优势。一个突出的优点是这种方法不依赖于语料库。但是,基于规则的方法仍然有局限性。首先,在以前的研究中,这种方法被用来提取主观特性(即评论人能够清晰表达意见的特点)而忽略了客观特性(即与观点无关的特征)。事实上,客观特征在一定程度上也能反映网络评论的情感取向,有时也具有较高的可信度。此外,这种方法忽略了产品特征和意见词之间的间接依赖关系,从而导致记忆丧失。例如,双重传播法作为一种最新的传播方法,只关注产品特征与意见词之间的直接关系。此外,该方法在提取主观特征的同时,也忽略了客观特征。

  1. 网络评论的情感分析

在获得产品特征后,往往需要通过情感分析来识别每个产品的在线评论对每个产品特征的情感取向。因此,在对在线评论进行情绪分析的基础上,通过信息融合确定备选产品的排名结果。

情感分析起源于20世纪90年代末,是通过挖掘和分析文本中的情感内容,帮助决策者获取敏感信息的一种分析方法。庞[54]较早地研究了情绪分析方法,提出了一种基于整体情绪的情绪分类方法。接着,一些学者对情感分析的方法和技巧进行了深入的研究。目前,情绪分析已经成为数据挖掘和机器学习领域的研究热点之一[55,56]。从已有文献可以看出,情绪分析主要分为基于词汇的情绪分析和基于机器学习的情绪分析两大类。基于词汇的情感分析适用于句子的情感分析,而基于机器学习的情感分析适用于文档级的情感分析[21]。在下面的部分中,我们将概述这两种类型的情感分析。

    1. 基于词汇的情感分析

基于词典的情感分析过程如图3所示[57]。首先,根据研究问题的需要,构造了一组情感词作为种子表。然后,运用统计方法和语义方法,找出句子中的意见词。再将意见词与种子表中的感伤词进行比较,根据不同词、不同极性、不同程度等不同因素加权求和,计算出整句感伤词得分。最后,根据情感得分得到句子的积极、消极或中性情感取向。根据情感词集构造的不同方法,基于词典的情感分析可以进一步分为基于词典的情感分析和基于语料库的情感分析两大类。基于词典的情感分析采用基于词典的情感词集构造方法,基于语料库的情感分析采用基于语料库的情感词集构造方法。

图3 基于词汇的情感分析过程。

Hu和Liu[45]早先使用了基于词典的情感分析方法,基于词典的情感词集构造过程如图4所示。首先,手动选择一小组情感词作为种子列表。然后种子表中情感词的同义词和反义词可以在现有的情感词典中找到,如WordNet或HowNet。最后,新发现的同义词和反义词被添加到种子列表中,并进行新一轮的搜索。当找不到新词时,搜索将停止,当前种子列表将用作情感词的最终集合。目前,基于词典的情感分析已被学者广泛应用。Liu等人。[21]提出了一种基于知网情感词典的产品特征词典构建方法。Moreo[41]提出了一种基于词汇的评论导向的新闻情感分析器(LCN-SA)来提取网络评论的情感导向,并建立了基于实体间关系的层次模型。丁等人。[42]提出了一种基于词典的情感分析方法,可以处理上下文相关的意见词。Hu和Liu[45]通过WordNet中形容词的同义词和反义词构造了一组情感词,以分析网络评论中抽取的情感词的情感。Xu等人。[59]提出了一种基于词典的情感分析技术,用于捕捉竞争性产品顾客的情感取向。Zhang等人。[60]用不同的方法处理否定中性句和程度副词。他们还确定了每个产品特征的用户评论方向,以便发现产品的弱点。刘[61]提出了一种句子层次的情感分析方法。需要指出的是,基于词典的情感词集易于构造,这是因为有很多情感词典可以直接扩展种子列表,如HowNet情感词典和WordNet情感词典。因此,现有的情感分析研究大多采用基于词典的情感分析方法。但是,基于词典的情感分析方法或技术存在

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[235537],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。