基于在线用户评论挖掘的软件特征细化优先级排序外文翻译资料-外文翻译网

英语原文共 5 页

信息和软件技术108 (2019) 30-34

基于在线用户评论挖掘的软件特征细化优先级排序

关键词: 在线软件评论特征提取主题模型功能细化发布计划

背景:在线软件评论为用户提供了丰富的软件应用反馈。用户评论和评级在一系列软件工程任务中具有影响力，例如软件维护和发布计划。

目标:我们的研究旨在从通过挖掘在线评论来提高用户评级的角度，帮助管理者对下一版本中需要改进的特性进行优先排序。

方法:我们首先从用户评论中提取软件特征，并通过线性判别分析确定它们在每次评论中的概率分布。然后通过线性回归估计每个特征的基本真实等级，假设软件功能等级是所有特征等级的凸组合，通过它们在评论中的分布概率加权。最后，我们将特征细化优先化形式化为一个优化问题，在开发预算的约束下，使用户组对软件功能的评价最大化。

结果:该方法可以半监督地使用主题模型从用户评论中联合提取特征，并确定每个特征在每个用户对软件功能的评价中的权重。所有特征的估计地面真实等级揭示了审查者组如何评估这些特征。最后，我们提供了一个说明性的例子来展示我们框架的关键思想。

结论:我们提出的框架适用于各种软件产品，具有大量用户评论和半自动功能，无需太多人工努力和干预。该框架的可解释性有助于管理人员更好地理解用户对软件功能的反馈，并为即将发布的版本制定功能细化计划。

作者：电子邮件地址:jianzhang.zhang2017@gmail.com(张俊杰)、wang.yinglin@shufe.edu.cn(王永成)、xietiansh@gmail.com(谢天成)。

https://doi.org/10.1016/j.infsof.2018.12.002

2018年5月30日收到；2018年11月30日收到修订版；2018年12月4日接受，2018年12月6日在线提供

J.张、王永和谢天华

信息和软件技术108 (2019) 30-34

1.介绍

随着在线软件审查网站和应用商店的兴起，软件工程研究人员和从业人员可以访问大量关于软件产品的技术、商业和用户信息。这些不断增长的有价值的信息不仅对软件开发过程产生影响，还已经成为软件存储库的一种新形式。用户评论作为一种可读和明确的用户反馈，体现了他们在支持的SE活动中的优势。与传统的反馈收集渠道不同，用户评论中充斥着用户驱动的反馈，如错误报告和功能请求。

满足实际用户需求持续需要增量发布规划流程，包括在技术和努力约束下的后续发布中的功能交付和优先级排序。数据驱动的需求工程也要求管理者利用用户识别需求并确定其优先级的反馈。尽管包含有价值的反馈和需求，但是用户评论数量众多且嘈杂，这导致了有效利用它们进行特征细化的挑战。

本文旨在通过半自动分析用户评论为特征细化提供量化建议。具体来说，我们首先使用主题模型从用户的重新视图中提取软件特征，并定量地衡量评审者对评审中每个特征的关注程度。然后，基于之前的输出，我们提出了一个线性回归模型来估计由整个评审者组(即某个软件产品的所有评审者)给出的每个特征的基本真实评级。最后，在开发预算的约束下，通过最大化用户组对软件功能的评价，使用优化模型来形式化特征细化优先级问题。我们的框架如图1所示：

图1 我们的框架概述。

1.我们提出了一个通用的半自动框架来帮助基于从大量用户评论中挖掘出的用户评级的特征细化优先级排序。

2.一种可解释和定量的方法被用来估计每个特征的基本真实等级，帮助分析用户对软件功能的反馈。

3.为了帮助管理者在制定下一版本发布计划时更好地满足用户的功能需求，提出了一种在预算约束下最大化用户评分的优化模型。

2.结构

2.1 .特征抽出

在对软件产品进行评级时，评审者通常会从多个维度对其进行评估，例如功能和质量。功能方面主要涉及软件特征，这是我们的提取目标。从会计软件产品的软件建议中选择的示例审查如下所示，并将作为剩余文章中的运行示例。

功能评级:4/5

优点:易于使用。满足我业务需求的简单帐户软件。可以在任何设备上使用。非常好的产品特性，如参与和报告。

缺点:报告没那么容易理解，尤其是当你对性能图表还不熟悉的时候。

无监督潜在狄利克雷分配(LDA)用于从用户评论中提取特征，因为它已成功地用于东南社区中的特征相关信息提取任务，并提供主题文档分发(即本工作中的特征评论分发)，作为我们的特征基本真实评级估计模块的输入。类似于哈曼等人在[1]中的特征定义，我们将软件特征定义为用户不可缺少的基本功能模块，这些功能模块可以通过评论中的一两个词来获取，例如会计软件类别中的税务和信用卡。在剩余的论文中，我们将LDA主题摘要作为一个软件特性来处理。

由于LDA推理过程在软件评论这样的短文本中存在单词共现的稀疏性，因此评论的单词包不适合直接输入LDA。因此，我们采用评论的跳过双图搭配作为LDA的输入，这与古兹曼和马莱杰·[6]中的过程相似。跳过双图搭配指的是在同一篇评论中同时出现的词对，这两个词之间的距离不超过给定的窗口大小。

为了应对语言歧义和噪声，我们执行以下预处理步骤:词性标注、词条化、停用词移除和特征指示词过滤。最后一步只保留动词、名词和形容词，因为它们通常在软件评论[6]中用作特征标识符。

经过预处理后，由特征指示词生成的跳过双图搭配被输入到LDA。窗口大小为3的预处理样本评论及其对应的跳过双图搭配如下:

审核:{客户业务设备尼斯发票报告报告标准世界绩效图表}

跳过双语法搭配:{帐户_业务，帐户_设备，帐户_尼斯，hellip;，世界_性能，世界_图表，性能_图表}

为了提高特征提取性能，我们过滤掉非特征主题并合并代表相同软件特征的主题。最后，规范化每个文档上的主题概率分布。在我们的上下文中，每个文档中的主题及其分布分别对应于评审中提到的软件特性及其在每个评审中的分布。每个评审中的特征概率分布用于定量测量相应评审者在评定软件功能时对其施加的每个特征的权重。

2.2 .特征地面真实等级估计

如运行示例所示，功能评级和评审由评审者给出。通过对所有评审者的功能评分进行平均，软件的总体功能评分可以大致近似。然而，一般的功能评级不足以深入了解审查者如何对特定特性进行分组评级。在这里，我们提出了一个模型来探索评审组如何评估每个特性。我们澄清了一个特征的基本真实评级分数ri用于衡量评论者群体对该特征的评级。由于对特征值[7]的确切定义没有普遍一致的意见，我们使用特征地面真值评级作为评价者群体感知价值的指标。

特性的基本真实性评级会影响所有评审者对软件功能的评级，尽管它们隐含在评审中。此外，来自不同审查者的软件功能评级是不同的，即不同的审查者在评级软件功能时会对同一功能给予不同的强调。因此，我们做出以下假设，即对应于每个评审的功能性测试由确定性部分和一些随机部分组成。确定性部分被假定为每个特征的基本真实等级的凸组合，由该特征在该视图中被提及的概率加权。随机部分包括认知偏差和舍入误差等。将随机部分汇总到误差项中，我们可以通过以下线性回归模型输入每个特征的基本真实等级:

其中Rj表示评审者j给出的功能评级，ri去除特征fi的基本真实评级。m和n分别是提取的特征和评论的数量。Cj是重新观看者j在评价软件功能时对特征I的权重，它可以用第j次评论的特征fi分布概率来表示给定Rj，当所有特征权重之和为1时，特征地面真值等级之间存在替代效应。

考虑到Rj是已知的，并且可以从LDA训练产生的特征概率分布矩阵中获得Wij，我们可以采用一些回归方法来估计每个ri。

2.3 .特征细化优先级

目标:审查者组对软件功能的评级被定义为审查者组对所有提取特征的评级的加权平均值，即所有特征的基本真实评级。

对于每个功能fi，其在下一版本中的目标评级要么保持不变，要么提高到更高的水平。由于评论是有限的和离散的，它可能不包含所有特征的当前地面真实等级。所有的表示特征的fi不会被细化。让Vi和???分别表示用户组和审阅者j在对软件功能进行评级时对功能fi的权重。Vi是通过平均所有单个审阅者对特征fi施加的权重来计算的最后，我们最大化。约束:优化所有功能的总成本不能超过下一版本的可用功能优化预算。每个功能fi都有一系列估计成本配置项，这些成本配置项是在下一版本中将当前的额定ri提高到目标额定值s所需要的。对于任何sle;ri，cis应该没有意义，我们可以使用0来填充占位符。所有功能改进的总成本应满足预算限制。

解决方案:为解决上述0-1整数优化问题，的tar-get评级集、开发成本cis和总开发芽-get C应由经理和技术专家根据开发专业知识和业务计划等多种因素共同确定。尽管cis除了特征fi额定电流ri之外，还依赖于多个因素，但相对于ri，边际成本增加。

3.示例

3.1 .特征提取结果

在预处理评论之后，我们使用折叠的吉布斯LDA进行特征提取。主题k的数量被设置为50，这是基于手动评估主题一致性和需求相关性来选择的，k在步长为5的情况下从10变化到100。具体来说，我们为每个主题选择前10个主题二元图，通过分析这些二元图是否共享同一主题来评估主题一致性，并通过将这些二元图与产品特征描述进行比较来评估需求相关性。我们总结了前10个主题，以再现每个主题。上述实验配置不是固定的，应该在不同的环境中进行微调。经过后处理，16个非特征主题被过滤掉，剩下的34个特征相关主题被合并成28个主题。表1显示了三个顶部IC示例。

对于每次审查，我们可以根据特征审查分布来衡量审查者对每个特征的重视程度。图2显示了样本审查中的特征分布。与结果相一致，审核内容主要包括三个特征:报表、发票和访问。功能报告和发票被明确提及两次。

图2。样本审查中的特征分布。

表1：

会计软件类别评审的三个样本主题。

发票支付客户支持(非功能)

account _ invoice _ payment answer _ question customer _ invoice account _ payment question _ support invoice _ report payment _ track customer _ question create _ invoice customer _ payment question _ service estimate _ invoice payment _ receive ask _ question

表2：

说明性软件的特征地面真实等级评估结果。

特征估计

报告4.2信用卡4.0

轨道4.4搜索4.0

费用4.7接入4.2

收据5.0财务4.7

工资单4.2发票4.1

在线4.3订单3.9

项目4.2检查4.5

接口4.4集成3.9

版本3.6银行4.5

app 4.4库存2.9

更新4.1自定义4.4

交易3.8数据3.8

付款4.3电子邮件3.8

账户4.3税收4.6

分别在评审中进行一次。访问功能通过文本片段“可在任何设备上使用”间接传达。

3.2 .特征地面真实等级评估结果

通过特征在评论中的分布，使用普通最小二乘法来估计(1)中每个特征的基本真实等级ri。表2显示了对每个功能的评价，经理可以从这些评价中了解每个功能在市场中的表现。

在提取的特征中，收据、税收和费用具有相对较高的评级，表明审查者群体对这些特征评价很高。这些高度评价的特性可能是软件的功能优势。相比之下，库存、版本和交易的评级较低，在发布计划中应给予更多关注。

特征细化优先级解决方案：

我们选择在前一个模块中提取的前7个加权特征来说明第2.3节中定义的优化问题的解决方法。每个特征的权重定义在(4)中Vi。对于sim-plicity，我们假设这7个特性构成了说明性软件的当前版本。作为一个演示案例，我们对开发工作和总预算做了一些假设。由于7项功能中的最低额定电流为4.2，我们将目标额定电流设置为 = {4.2、4.4、4.6、4.8、5.0}。表3显示了开发工作、目标评级设置、总预算和优化结果，其中下一版本的总实施预算设置为? = 50。“努力达到评级”区域提供了将功能fi从当前评级ri提高到目标评级s的开发成本配置项

通过求解优化问题，可以得到最优的特征细化方案。实施最佳功能细化计划需要50英镑的总成本，分配给每个功能的成本以粗体下划线值显示。例如，工资单功能应该重新定义，以将其评级从4.2提高到4.4，而跟踪功能将不会在下一版本中修改。经过改进后，整个软件的功能评级预计将从4.3提高到4.6。

最近，基于用户评论挖掘的发布计划引起了东南社区的关注。Maalej等人，[2]概述了数据驱动需求工程的趋势和未来方向。Ciurum-lea等人([8)定义了应用评论分类的分类法，并建议修改源代码以解决用户评论中指定的问题。纳耶比和鲁赫·[7]根据特征值和特征一致性为即将发布的版本选择了最佳应用特性集。他们后来的工作[9]提出了非对称发布计划(ARP)来模拟非对称特征评估，并将A

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

基于在线用户评论挖掘的软件特征细化优先级排序外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章