识别动画中的转折点外文翻译资料

 2022-08-14 03:08

Expert Systems With Application s 123 (2019) 246-255

Contents lists availa ble at ScienceDirect

Expert Systems With Applications

ELSEVIER

journal homepage: www.elsevier.com/locate/eswa

Review

Identifying turning points in animated cartoons

豆]

Chang Liu*, Mark Last, Armin Shmilovici

Department of Software and Information Systems Engineering, Ben-Gu rion University, Beer Shenu;口,Israel

A R T I C L E I N F O A B S T R A C T

Articl e history:

Received 4 October 2018

Revised 31 December 2018

Accepted 2 January 2019

Available online 15 January 2019

Keywords.

Storyrsquo;s turning points Story elements detection Story understand ing

Video analytics

Detecting key story elements such as protagonist, opponent, desire, turning points, battle, and victory, etc. is essential for various narrative work applications including content retrieval and content recommendashy; tion systems. The task of automatically identifying story elements is challenging because of its complexity and su均ectiveness and currently, there are no available algorithms for this task. In this paper, we focus on identifying turning points in a story of a cartoon movie. The proposed methodology extends the novel two-clocks theory, originally validated on scripts of theatre plays, to video stories. The assumption behind the two-clocks theory is that the perception of time is different when some special event happens to a certain agent ( e.g., time flows slower for a patient and quicker for a tourist ). The story timeline is monishy; tored with two clocks: an event clock, which measures the regular time flow of the story; and a weighted clock, which measures the timing of the story events. We have conducted an experiment on 28 episodes of a cartoon series and achieved promising results: 78.6克 precision for turning points identification and 100% precision for key scene detection. The proposed approach is the first step towards development of intelligent systems for automated understanding of stories in narrative works such as cinema movies and

even amateur videos uploaded to the Internet.

。2019 Elsevier Ltd. All rights reserved .

  1. Introduction

With the widely spread of web accessibility and the develshy; opment of video producing technologies, people are exposed to a massive amount of videos. A口10ng them,pi;1any video narrative works (e.g., movies, TV series, cartoons, etc.) are made with shots and scenes presenting the plot of some story. Automated undershy; standing of the stories told by such videos via analyzing the video content and structure can be beneficial for multiple tasks includshy;

ing video retrieval, video recommendation, and video annotation. This kind of analysis can also be utilized for educating students in film production or delivering preferable video content to users. It is natural for a human to perform video story analytics by watchshy; ing the videos. However, the manual approach is time-consuming and not scalable to massive amounts of online videos as it contains repetitive efforts such as assigning annotation tags to the videos ( Gomez-Uribe amp; Hunt, 2016; Soares amp; Viana, 2015 ). Therefore aushy; tomatic copi;1putational 口1ethods are being developed for video conshy; tent and story analytics. Unlike many of these methods, which conshy; centrate on detecting detailed visual elements such as objects and

  • Corresponding author.

E-mail ddresses: liuc@post.bgu.ac.il (C. Liu ). mlast@bgu.ac.il (M. Last ), armin@bgu.ac.il (A. Shmilovici)

https://doi.org/ 10.1016/j.eswa.2019 .01.003

0957-4174/copy; 2019 Elsevier Ltd . All rights reserved.

actions or describing short video clips with simple sentences, we

aim at developing methods to identify the key elements of a story in a video, such as the “hero” ( the protagonist ), the turning points,

the roles of the characters. etc, and to understand how the eleshy; ments advance the story. This paper focuses on detection of one key ele口1ent - the turning points.

According to the widely used three-act Paradigm 叶 ,a concepshy; tual scheme of scriptwriting/story-writing, a good story is comshy; posed of three main acts and each of them plays a different role in the story ( i.e., the set up, confrontation, and resolution ) (Field, 2007 ), as shown in Fig. 1. There are different elements within the three-act structure, such as climaxes, midpoint, beginshy; ning, inciting incident, second thoughts, obstacles, disaster, wrapshy; up and E时,which construct the main framework of a story. With the ultimate goal of understanding stories in videos, we start by identifying important story elements. ln this paper, we build upon an innovative two-clocks theory from Lotker (2016 ) that is aimed at detecting one key event in a narrative work (e.g., a movie script or a theater play) to identify multiple turning points of cartoon stories. This is the first application of the two-clocks theory to

1 The most notable contribution of the lead ing American screenwriter. Sydney Alvin Field . The structure of three-act was proposed in his 日rst book Screenplay: The Foundation s of Screenwriting (Dell Publishing, 1979), and became popular among writers and Hollywood film producers as guideline and quality measurement .

C. Liu, M. Last and A. Shmilovici / Expert Systems With Applications 123 (2019) 246-255 247

Three-Act Structure

Act One

(set up)

Act Two

(c01l岳阳tation)

Act Tl:ttee

(resolution)

剩余内容已隐藏,支付完成后下载完整资料


综述

识别动画中的转折点

Chang Liulowast;, Mark Last, Armin Shmilovici

本古里安大学 软件与信息系统工程系, 比尔谢瓦 以色列

文章信息 摘 要

文章历史:

2018年10月4日收到

2018年12月31日修订

2019年1月2日接受

可供在线2019年1月15日

关键字:

故事的转折点故事元素检测故事理解视频分析

对于诸如内容检索和内容推荐系统之类的各种叙事工作应用,检测主角,对手,欲望,转折点, 战斗和胜利等关键故事元素是必不可少的。由于故事元素的复杂性和主观性,自动识别故事元素 的任务具有挑战性,目前,尚无可用于此任务的算法。在本文中,我们着重于确定卡通电影故事 中的转折点。所提出的方法将最初在戏剧剧本上得到验证的新颖的两点钟理论扩展到了视频故事。两时钟理论背后的假设是,当某些特殊事件发生在某个代理人身上时,对时间的感知是不同的

(例如,时间流向患者的速度较慢,而游客流逝的速度更快)。故事时间线由两个时钟监控:事件时钟,用于测量故事的常规时间流;还有一个加权时钟,用于测量故事事件的时间。我们对动画片系列的28集进行了实验,并取得了可喜的结果:转折点识别的精度为78.6%,关键场景检测的精度为100%。提议的方法是开发智能系统的第一步,该系统可以自动理解叙事作品中的故事, 例如电影电影,甚至是上传到Internet的业余视频。

copy;2019 Elsevier Ltd.保留所有权利。

简介

随着网络可访问性的广泛传播和视频制作技术的发展,人们接触到大量的视频。其中,许多视频叙事作品(例如电影,电视连续剧,动画片等)都是通过镜头和场景来呈现某些故事的情节而制作的。通过分析视频内容和结构来自动理解此类视频讲述的故事,可能对包括视频检索,视频推荐和视频注释在内的多项任务有益。这种分析还可以用于教育电影制作学生或向用户提供更好的视频内容。人们通过观看视频来执行视频故事分析是很自然的。但是,手动方法耗时且无法扩展到大量在线视频, 因为它包含重复的工作, 例如为视频分配注释标签

(Gomez-Uribe&Hunt,2016; Soares&Viana,2015)。因此, 正在开发用于视频内容和故事分析的自动计算方法。与这些方 法中的许多方法不同,后者专注于检测详细的视觉元素,例如 物体和

动作或用简单的句子描述简短的视频剪辑,我们旨在开发一种方法来识别视频中故事的关键元素,例如“英雄”(主角),转折点,角色的角色等,并了解元素如何推动故事发展。本文着重于检测关键要素之一-转折点。

根据广泛使用的三幕剧《天堂》1(一种脚本编写/故事写作的概念方案),一个好的故事由三个主要角色组成,每个角色在故事中扮演的角色不同( 即场景( 对抗, 解决和对抗)

(Field,2007年),如图1所示。三幕式结构中包含不同的元 素,例如高潮,中点,开始,煽动性事件,重新思考,障碍, 灾难,包裹。最后,构成了故事的主要框架。为了理解视频中 的故事的最终目标,我们首先确定重要的故事元素。在本文中, 我们基于Lotker(2016)提出的创新性两时制理论,旨在检测 叙事作品中的一个关键事件(例如电影剧本或戏剧),以识别 卡通故事的多个转折点。这是两时钟理论的首次应用

lowast;通讯作者

电子邮件地址:liuc@post.bgu.ac.il (C. Liu), mlast@bgu.ac.il (M. Last), armin@bgu.ac.il (A. Shmilovici).

1美国著名编剧悉尼·阿尔文·菲尔德(Sydney Alvin Field)最杰出的贡献。在他的第一本书《剧本:编剧的基础》(戴尔出版社,1979年)中提出了三幕式的 结构,并以此为指导方针和质量衡量标准在作家和好莱坞电影制片人中广受欢迎。

https://doi.org/10.1016/j.eswa.2019.01.003

0957-4174 /copy;2019 Elsevier Ltd.保留所有权利。

1. Syd Field的三幕剧《天堂》。

表格1

动画片系列中三集的元素验证:第一季打火石。

元素

第1集

第三集

9话

第27集第1

次高潮

第二次高潮

times;

第三高潮

  • 开始

  • ✓煽动事件✓ ✓

✓ ✓思考times; times; times;

times;障碍物

  • 中点

  • 灾难

times;

times;

times;

times;

危机

times;

times;

总结

times;

times;

  • 结束

视频分析和这一理论通过我们对《摩登原始人》第1季的28幅动画动画片进行的实验证明,能够有效地识别动画片故事的转折点。为了验证所选动画片遵循的是三个故事的相同故事结构,除了包含元素之外, 我们还从该系列中任意选择了四个情节(第1、3、9和27集),并进行了元素识别。表1中的结果表明,分析后的卡通故事通常遵循三幕式结构,缺少一些要素(例如,深思,灾难或总结等),因为卡通故事不像电影那么长或复杂。故事。

在本文中,我们提出了一种原型专家系统,用于检测电影中的关键场景。拟议的系统基于心理学家研究的人类对时间的感知(Block

&Grondin,2014)和电影剧本编写准则(Field,2007)。提出的用 于检测电影中的转折点和关键场景的专家规则基于这两个知识来源。 具体来说,我们将Lotker的两时制理论扩展到视频分析,并演示了动画片第一个赛季《打火石》第1季的评估结果(28集,每集长度 约24分钟)。与洛特克(Lotker,2016)所做的类似(即从莎士比亚 戏剧中检测一个关键场景),我们进行了实验,以识别每个卡通情节 中故事的多个转折点。本文的其余部分安排如下:第2节介绍了了解 视频内容的两个主要趋势以及Lotker的twoclocks理论。第3节着重说

明以下方面的差异:

在我们的方法论和原始Lotker方法之间进行调整,并提供实验设计; 第4节介绍并讨论了评估结果;第5节概述了自动理解视频故事的进一 步步骤。

相关作品

视频理解中的大多数作品都基于计算机视觉算法。这些算法在基本的视频理解任务上表现良好,例如识别视频片段中的动作(Peng& Schmid, 2016; Saha, Singh, Sapienza, Torr& Cuzzolin, 2016; Sigurdsson,Divvala,Farhadi,&Gupta,2016; Singh, Saha和Cuzzolin,2016)并为视频生成字幕( Kaufman,Levi,Hassner和Wolf, 2016 ; Rohrbach等, 2017 ; Torabi, Pal, Larochelle和Courville,2015; Venugopalan等,2015)。这些算法大多数都专注于分析短视频片段(长度小于30 s),这使其非常适合探索视频中的详细(或低级)信息,例如“喝酒”或“步行”,但理解力很差这些视 频中的高级别活动(“参加聚会”或“回家”)。这很可能是由于使用了 低级功能,例如视频帧中的光流(Varol,Laptev和Schmid,2017), VGG 功 能 ( Sigurdsson 等人, 2016 ) 或 原 始 视 频 RGB 帧

(Venugopalan)。等人,2015年)。除了这些低级的视觉功能外, 一些作品还结合了音频功能(例如,频谱图)来实现视频理解

(Evangelopoulos等人,2013; Lee,Abu-ElHaija,Varadarajan和Natsev,2018)。这些视觉和音频功能不足以识别高级活动,而高级活动则需要更多抽象的信息,例如情感或意图。此外,缺少质量标记 的数据。通常,在剪辑动作样本或剪辑字幕样本的配对数据上使用带 有神经网络的监督学习技术分别识别动作或生成字幕。但是,为了理 解高级事件,需要复杂的信息,例如情绪(喜欢或厌恶)或意图(停 留或离开),这很难标记。最新的计算机视觉算法和故事分析之间的 巨大鸿沟似乎很难弥合,因此,需要新颖的方法来理解视频故事。作 为计算机视觉算法的补充,视频中多种形式的功能(即文本,视觉和 听觉) 可用于电影摘要( Evangelopoulos 等, 2013 ) , 推荐

(Bougiatiotis和Giannakopoulos) ,2018)和场景检测(Baraldi, Grana,&Cucchiara,2017; Zhu&Liu,2009)。在文字特征方面

通常,通常使用典型的方法,例如字数统计(Baraldi等,2017),单词袋,主题建模(Bougiatiotis&Giannakopoulos,2018)和文本显着性(Evangelopoulos等,2013),然后将它们与从其他模块中提取的功能融合在一起。为了提高融合过程的质量,已经做了很多努力。尽管附加信息可以提高性能,但附加功能与故事发展之间的联系仍然很薄弱。在我们的工作中,我们从不同的角度分析了视频故事理解的问题,这是从提取代表故事结构的知识的角度出发,从而朝着可以理解人类故事的专家系统迈出了一步。

根据约翰·特鲁比(John Truby)的22个脚本编写步骤2,英雄与对手之间的互动驱动了一个好故事(Truby,2008)。只要故事中有人参与,参与的人物之间就会有一个社交网络。就视频叙事作品(例如电影)而言,电影角色网络的思想比基于计算机视觉的算法更接近人类的直觉。Weng,Chu和Wu(2007)首次尝试根据电影角色在电影场景中出现的频率为电影建立电影角色网络,并基于角色网络检测电影的子故事。后来,Tran和他的团队发表了一系列有关构建电影角色网络的作品(基于出现时间和角色的共现,命名为CoCharNet)(Tran, Hwang , Lee 和Jung , 2016 年; Tran 和Jung , 2015 年) ) 以及CoCharNet在电影摘要中的应用( Tran, Hwang, Lee和Jung, 2017 年)。最近,他们解决了故事分析中的几个问题,包括检测转折点

(Lee&Jung,2018)。他们提出了情感人物网络的想法,其中

不仅会模拟角色的出现时间,而且

方法

    1. 两钟理论

根据Lotker(2016)的定义,这两个时钟为:(1)事件时钟-计 算字符语音(行),(2)加权时钟-计算每个语音中

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[235367],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。