中文实时评论在线视频剪辑的情感内容分析外文翻译资料-外文翻译网

中文实时评论在线视频剪辑的情感内容分析

摘要：近年来，由于更好地了解视频中的情感内容分析可以帮助很多人应用包括视频检索和分类，人们对于在线视频情感内容分析的兴趣与日俱增。在研究视频中，情感计算需要修整和评估地面实况数据。现场评论（也称为“弹幕”，“弹幕”或“子弹评论”）近年来非常流行，但很少有研究人员关注在线视频情感分析中的评论信息。在本文中，我们构建了一个在线视频剪辑数据集，即DaLC（带有实时评论的数据集），用于情感内容分析和相关应用。与仅包含视频剪辑的现有数据集相比，DaLC不仅包括204个优质的在线视频摘录，还包括具有大量内容多样性的实时评论。在本文中，我们首先介绍一个多维情感描述符，它可以容纳视频剪辑中多个甚至是矛盾情绪的存在，并用作数据集的标注模型。此外，我们通过中文实时评论提取在线视频情感内容分析的有效功能。此外，为了突出在线视频情感分析的实时评论的重要性，我们进一步使用不同的方法对DaLC数据集进行了几个情绪预测实验。实验结果表明，实时评论功能显著提高了在线视频情感分析的有效性。

索引项指数条款—视频数据集、情感分类、情感计算、实时评论。

第一节：介绍

随着视频共享服务的普及，近年来在线视频的规模和类型迅速增加。相应地，情感视频内容分析引起了越来越多的研究关注，其目的是提取情感内容以预测将被引发的用户情绪。视频情感内容分析可应用于大量应用，包括视频摘要，视频推荐，视频标记和高亮提取。然而，人类情感感知是高度主观的，情感建模和识别需要大量可靠的地面实况数据用于训练和测试。不幸的是，“情绪”的主观性质使得难以收集一致且大量的情感注释，这些注释可以用作地面实况数据。虽然有很多关于视频情感内容分析的研究工作，但一个缺点是大多数研究都假设视频片段有一个主要情绪。这可能无法反映现实，因为视频可以同时引发多种甚至是矛盾的情绪。同时，近年来，在线视频网站的用户数量迅速增加。大量的在线视频用户已经产生了大量的在线视频评论。现场评论（也称为“弹幕”，“弹幕”或“子弹评论”）近年来非常流行。评论内容直接显示在视频上。当视频包含许多评论时，它们会像许多项目符号一样在屏幕上飞行。目前，中国最着名的现场评论视频网站是Bilibili。实时评论数据包括与具有指示时间的信息的视频内容相对应的文本，因此实时评论数据可以在他们正在观看视频时更准确和具体地反映用户的即时情绪。这种情绪信息可以在选择视频时为其他用户提供参考。随着主要主流视频网站中“现场评论”功能的推广，现场评论中的意见和情感表达将变得更加普遍和具有参考性。但是，据我们所知，没有包含实时评论信息的视频情感分析数据集。

在本文中，为了克服现有情感视频数据集的局限性并促进情感在线视频内容分析的研究，我们发布了一个内容丰富多样的高质量视频摘录的数据集以及实时评论（弹幕）。名为DaLC的已发布的数据集，包含204个视频摘录和相应的实时评论。我们首先介绍一个多维情感描述符，用作数据集的标注模型。它可以在视频剪辑中容纳多种甚至是矛盾的情绪。然后，我们重点介绍DaLC数据集的内容多样性及其详细构成，并描述注释数据库的过程。此外，要强调实时评论的重要性，并使用DaLC数据集为未来工作建立基线，我们还提供了实验结果，用不同的方法预测情绪，包括我们自己设计的中性网络回归模型。数据集包含204个视频剪辑及其相应的实时评论和注释，可以通过我们的电子邮件自由获取。我们希望这样一个数据集能够促进该领域的研究，并使各种情感计算研究社区受益。因此，本文的主要贡献在于四个方面：

bull;本文介绍了一种多维情感描述符，它可以容纳视频片段中存在多种甚至是矛盾的情绪。

bull;本文提出了几种确保数据集准确建立的方法。本作品中发布了在线视频摘录数据集以及相应的实时评论。

bull;在这项工作中提取了几个有效的在线视频情感内容分析与实时评论功能。

bull;为了突出实时评论的重要性，我们在数据集上进行了七种不同的回归方法，包括我们自己设计的神经网络。

所有实验代码，功能和DaLC数据集均可在https://github.com/sparkingarthur/DaLC上获得。本文的其余部分安排如下。第二节介绍了现有情感视频分析数据集的相关工作。在第三节中，我们提出了我们的多维情感描述符，并描述了注释数据集的过程。第四节显示了我们对拟议数据集的实验结果，随后是第五节中的结论和未来工作。

第二节：相关工作

由于大多数视频情感内容分析研究需要情感诱导的视频数据集，因此创建用于情感标记和分析的数据集是该领域的关键要求。然而，大多数当前的工作构建私有数据集来验证方法，并且只有有限数量的视频剪辑公共数据集根据它们在观众中引起的情绪进行注释，如表1所示。根据“显式”（也称为“直接”）视频情感分析和“隐含”视频情感分析，数据集可分为两类。显式视频情感分析通常利用视频本身的特征，并且隐式视频情感分析中使用的大多数特征是观看者的生理信号。对于直接视频情感内容分析，Baveye等[8]提出了LIRIS-ACCEDE，它由从160部电影中提取的9800个视频片段组成。每个视频片段的长度在8-12秒之间，所有视频片段的总持续时间为26小时57分8秒。每个视频剪辑都标有“价觉醒”情绪强度值。FilmStim数据集是另一个数据集，包括70个电影摘录，由364名参与者使用由Schaefera等人创建的24种情绪分类标准进行注释。MediaEval 2010影响任务语料库是为无聊感检测而构建的。它包括126个长度为2到5分钟的视频，这些视频是从名为My Name is Bill的旅行系列中选出的。由Carvalho等人建立的情感电影数据集（EMDB）。由52个非听觉电影片段组成，长度为40秒，113名参与者以9分制评分每个电影摘录的效价，唤醒和支配地位。对于隐式视频情感分析，DEAP是由Koelstra等人构建的公开数据集。它由120个一分钟长的音乐视频剪辑组成。每个剪辑由超过14名志愿者根据诱导性觉醒，效价以及优势进行评级，并且在40个一分钟长的音乐视频片段中记录来自32名参与者的生理信号。MAHNOB-HCI是Soleymani等人发布的另一个“隐含”数据集。它由从商业制作的电影和视频网站中提取的20个简短的情感摘录组成。

表I：视频情感分析的主要数据集

名称	大小	特征
LIRIS-ACCEDE	9,800摘录从8到12秒长	唤醒和化合价尺寸
FilmStim	70部电影节选从1到7分钟长	24分类标准
MediaEval 2010	126个视频介于两者之间五分钟	为无聊而建造侦查
EMDB	52非听觉电影剪辑40秒长	诱导的全球评级唤醒、价、支配尺寸
DEAP	120分钟一分钟音乐视频	生理记录40分之一的人脸视频音乐录像带
MAHNOB-HCI	20部电影片段从35到17秒长	情感关键词，唤醒，价、优势和可预测性与面部视频和周边设备生理记录

一般来说，据我们所知，现场评论信息对于视频情感分析并未引起太多关注。根据“显式”视频情感分析和“隐含”视频情感分析，所有公共数据集可分为两类。在所有公共数据集中，LIRIS-ACCEDE数据集包含最多数量的视频剪辑和最长的总持续时间。机器学习方法需要大量样本，并且只能用于分析LIRIS-ACCEDE数据集上的视频情绪。但是，现有的数据集（包括LIRIS-ACCEDE）都不包含在线视频的实时评论信息。

第三节：数据集描述

A.视频剪辑的情感描述符

如上所述，尽管在过去十年中对视频情感内容分析的研究取得了丰硕而鼓舞人心的成果，但现有的视频情感内容分析工作缺乏表示多重甚至矛盾情绪存在的方法。根据H. Gunes的观点，视频可能会给评论者带来许多情绪。而且，一些情绪甚至可能是矛盾的。可以引发矛盾情绪的单词的一个例子是“苦乐参半”，通过这种方式，个体体验到温暖，愉悦以及抑郁和苦涩的组合。一些现有的工作使用分类模型。但是，分类模型只能将视频引发的情绪归类为离散情绪类别之一。以前的一些工作使用维度模型将视频的情感映射到三维空间中的一个点，称为Valence-arousal-dominance（VAD）或更简单的VAD版本，称为Valence-arousal（VA）空间。在VAD / VA模型中，效价表示愉悦程度，唤醒表示情绪的激活程度，而支配表示VAD中情绪的控制和主导性质。在某种程度上，VAD / VA模型可以反映多种情绪的影响。例如，VA空间中的点（1.0,0.5）大致代表具有强烈幸福和中等兴奋的情绪。然而，由于VAD / VA空间维度非常低，因此在VAD / VA空间中可能无法很好地表现出矛盾或复杂的情绪。例如，“苦乐参半”的情感将被映射到V轴的零点，这代表“不快乐而不悲伤”，与“无聊”的情感没有区别。

为了解决上述问题，我们使用多维情感描述符来描述我们数据集的视频剪辑的情感。提出的情感描述符基于罗素的环形情绪模型的修订版。原始罗素的环形情绪模型本质上是一个分类模型，定义了八个不同的类别，包括唤醒、兴奋、愉悦、满足、困倦、抑郁、痛苦和悲痛。它不能容纳多种情绪，因为视频剪辑的情绪仅表示为原始模型中的上述八种状态之一。为了解决这个问题，对于提出的描述符，视频剪辑的情感被表示为包含八个元素的向量，每个元素指示罗素模型中情绪的强度。强度等级范围从“0”（表示零强度）到“2”（表示最大强度）。因此，我们可以通过使用八维向量来适应多种甚至是矛盾情绪的存在。例如，图1示出了典型的矢量，其中雷达图表使用所提出的多维情感描述符来表示“苦甜”的情绪。从图1中我们可以看出，所提出的描述符的另一个优点是可以容易地解释模型的输出，因为每个维度对应于特定情绪。例如，“苦甜”的矢量沿着两个相反情绪“痛苦”和“愉悦”的维度具有最高值，而沿其他维度具有相对较低的值。这个简单的例子表明，使用这个高维描述符可以很好地描述矛盾的情绪。l所提出的描述符的另一个优点是可以容易地解释模型的输出，因为每个维度对应于特定情绪。例如，“苦甜”的矢量沿着两个相反情绪“痛苦”和“愉悦”的维度具有最高值，而沿其他维度具有相对较低的值。这个简单的例子表明，使用这个高维描述符可以很好地描述矛盾的情绪。l所提出的描述符的另一个优点是可以容易地解释模型的输出，因为每个维度对应于特定情绪。例如，“苦甜”的矢量沿着两个相反情绪“痛苦”和“愉悦”的维度具有最高值，而沿其他维度具有相对较低的值。这个简单的例子表明，使用这个高维描述符可以很好地描述矛盾的情绪。

B.创建数据集的过程

DaLC的建立包括四个步骤。首先，我们准备了大约50个在线视频以及他们的实时评论。这些视频在动作片、喜剧片、惊悚片、浪漫片、现场表演、卡通片、采访等类型中有所不同。然后将这些视频手动分割成总共1000个视频片段，其中约三分之一的长度为不到1分钟，其余的长度约为1至5分钟。其次，我们从每个剪辑中选择最强烈的5到20秒片段作为样本以及几秒钟内的实时评论。尽管关于情绪的时间粒度没有统一的结论，但心理学家普遍认为情绪的时间粒度在几秒钟之内。因此，我们剪辑的剪辑长度足以产生清晰的情感体验。第三，我们用过少的实时评论过滤掉了样本。此外，我们过滤掉情感中“转折点”的样本，以确保每个视频片段保持情绪的一致性（例如，一个10秒的片段可能在前5秒内具有非常积极的情绪，但非常消极的情绪。最后5秒，这意味着这个剪辑在情感上有一个“转折点”。最后，雇用了10名志愿者，包括3名女性和7名男性，以注释这些过滤的视频剪辑。每个视频剪辑由许多志愿者注释，其中所提出的情绪描述符中具有8种情绪的强度。为了便于注释，8种情绪的强度分为3个等级：0,1和2，分别代表非常弱（或无），弱和强的水平。此外，采取了各种措施来确保注释的准确性图2。在注释之前，将20个具有明显情绪的预标记样品作为测试单位（也称为“黄金单位”）处理，然后与其他未标记的样品混合。从所有测试单元中随机选择六个测试单元作为“第一测试”。志愿者必须完成六个测试单元的注释程序，并在开始正式标签工作之前获得良好的均方误差（MSE）。测试单元的设置可以测试和跟踪志愿者的表现，以确保认真对待视频注释工作，并且可以用它来删除无效注释。如果志愿者在注释任务中的大多数测试单元获得了太差的均方误差，则该志愿者的注释结果将被放弃。应该注意，上述过程将为每个视频剪辑生成多个情感向量。我们需要删除那些与其他情感显着不同的情感向量。这些情绪向量被视为异常值。一些针对不同人的模糊情绪的剪辑也应该被过滤掉。在所有参与者都标记了视频之后，我们根据所有参与者注释的情感值计算每个视频片段的八个注释值的均值方差，其表示如下：

（1）

其中表示一个视频剪辑的八个注释值的均值方差，n表示注释视频剪辑的人数，i表示情绪的指数，j是参与者的索引，表示第一人的情感价值j对情感i，表示视频剪辑中的情感平均值。在我们根据等式（1）计算方差之后，视频剪辑根据从小到大的平均方差进行分类，并且具有太大方差的剪辑（这意味着

英语原文共 8 页

资料编号：[5524]

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

中文实时评论在线视频剪辑的情感内容分析外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章