英语原文共 6 页

一种用于图像幻灯片生成的联觉方法

摘要:本文提出了一种新颖的图像自动幻灯片播放系统，探索了图像与音乐之间的一种新媒介。它可以作为一种新的图像选择和幻灯片合成准则。基于音乐可视化艺术中“听颜色，看声音”的理念，将图像特征和音频属性同等重要，以实现更好的同步。我们将视觉和听觉特征之间的审美能量距离最小化。给定一组图像，通过将图像特征与输入音频属性关联来选择子集。然后，通过视听距离将所选图像与音乐子剪辑同步。针对常见的显示设备，介绍了一种感应式图像显示方法。

关键字：计算机多媒体美学，音乐视觉化，视觉设计，显示生成，音乐伴奏，照片展示，音乐幻灯片

1.简介

随着个人图片收藏的爆炸式增长，一个有趣的问题出现了，如何选择合适的图片，并以一种更愉快的方式展示他们。这些图片幻灯片通常与音乐作品搭配使用，因为这是建立情绪最直接的方式之一。快乐的音乐可以增强视觉场景的快乐感，即使画面的语境是中性的。悲伤的音乐恰恰相反，因此，为了使幻灯片更有趣，引入了背景音乐。许多媒体编辑包都具有此功能。例如，iMovie通过引入缩放和平移来显示静态图像，并添加帧与帧之间的转换。Muvee[2]为图像幻灯片制作提供了一个自动解决方案。

图像和声音之间的联系是直接和直观的，正如联觉理论所述。“听色见声”是音乐视觉化的核心理念。所讨论的视觉音乐的特征包括:1)处理音乐的构成和运动图像;2)图像和声音同等重要;3)以通感为基础，建立紧密的音乐意象关系。视觉音乐的艺术家们不把背景音乐当作非必要的，或者是视频的一个补充部分，他们认为声音和视觉对象是同等重要的。我们的灵感来自于“视觉耳朵”的强大功能，并试图通过更高级别的视听同步来扩展照片幻灯片的维度。因此，幻灯片组合问题可以表述为

问题：给定一个图像数据集Omega;。为一块user-decided音乐M,自动选择一个图像序列Lambda;sub;Omega;,这样在Lambda;visual-audio距离图像及其corre-sponding音乐 subclips达到最低。

Zettl提出通过色彩和声音的审美能量进行匹配，即对人类的相对审美影响。本文提出了一种基于图像与音乐审美能量关联的图像幻灯方案。它可以作为一种新的图像选择准则。我们没有进行独立的图像特征分析，而是平衡了音乐和图像的重要性，匹配了背景音乐和所选图像的审美影响。给定音乐的特征决定了所选图像的整体情感。我们的贡献包括:1)新的视听关联模型;2)基于视觉音乐的图像幻灯系统。

2.预备工作

图像选择和图像合成被直接重设为照片幻灯片合成。常用的图像分析方法有低层特征解释、内容解释和注释。图像合成考虑最终输出幻灯片中所选图像的排序和布局。使用时间戳和注释来生成故事。基于主题和高光人脸提取图像。它们测量主题相似性，并根据主题距离对图像进行聚类。基于情感的幻灯片生成考虑印象派图像，很少包含彼此之间的语义关系。与亲和图绘画情感相关的是基于情感的图像聚类。情绪联想也在考虑之中。从图像中提取亮度和饱和度信息，从音乐中计算平均能量差、强度和低能量帧数。他们利用这些功能来训练系统，并建立了照片音乐协会。给定数据集中的初始图像，根据相似性选择音乐和图像并显示出来。在Tomacute;asetal的工作中考虑了图像聚类和排序的照片创建时间。照片按创建时间排序，按颜色相似度聚类。图像根据其簇重要性按顺序显示。

在这些幻灯片框架中，图像属性在选择和合成方面具有更高的优先级。音乐被当作伴奏，大多数情况下只考虑节拍同步。音乐可视化研究的是如何将色彩艺术与音乐艺术相类比。麦克唐奈给出了一个完整的介绍视觉音乐。Dionysios和他的小组给基于音阶的音乐色度分配了12种颜色，其中白色的情感影响最低，而黑色的情感影响最高。音色/音色、色相/音色、形状/音色与亮度/响度、色调/色彩之间存在视听映射关系。

在我们目前的工作中，图像分析和音频分析是通过视听映射同步的。我们想要在所选的家庭照片和给定的背景音乐之间寻求更好的兼容性，而不是仅仅基于图像特征来选择图像子集。我们试图建立自然图像和音乐之间的联系。视听匹配是建立在审美能量关联的基础上的。为了产生一个令人印象深刻的照片幻灯片，已经引入了人工相机的机制。

3.颜色和声音匹配

颜色对我们的感知和情感有特殊的影响，这与音乐对人类的影响非常相似。人们普遍接受丰富多彩的情感描述:蓝色意味着心碎，红色意味着愤怒，绿色意味着嫉妒。颜色影响人类的感知和情感，就像音乐一样。我们用音乐术语来描述颜色，用颜色来命名音阶。人类把色彩和音乐结合起来似乎是很自然的事。

A.意象的审美能量

审美能量是色彩对人的相对审美影响。一般来说，色调、饱和度、亮度和对比度是影响颜色能量的重要因素。该模型对审美能量进行了定量评价。在四种颜色特征中，色相和饱和度决定色度特性，而亮度和对比度是灰度信息。

色调(H)。根据色彩理论，暖色是充满活力和生动的颜色，而冷色使人平静，给人以舒适的印象。无色的颜色(白色、黑色和灰色)被认为是中性的。一个RYB色轮是一个有用的工具分割暖色和冷色。

饱和度(S)是我们评价色彩审美能量时最重要的属性。我们知道，色彩饱和度越高，它的审美能量就越高。更重要的是，对比前景和背景在色彩审美能量评价中也起着重要的作用。为了排除不太重要的低饱和像素的影响，考虑了具有彩色信息的像素。

亮度(B)和对比度(C)是灰度属性，因此我们将彩色图像转换为CIELAB颜色空间，并考虑L*层。设L(m,n)为像素(m,n)处的L*值，亮度能量系数B定义为整幅图像的均方根，对比度亮度系数C为标准差。

上述4个属性与色彩审美能量直接相关，其属性系数归一化为1。我们引入了一个额外的美学能量属性，颜色能量E，它是其他四个属性的加权组合。饱和度是最重要的属性，因此赋予它最高的权重值。色调与情绪感知直接相关，因此赋予第二大权重值。在我们的实现中，相应的权重因子设置为0.3、0.4、0.15、0.15。

B.听觉的审美能量

声音是由基本元素构成的。这些元素表现出影响我们对声音感知的特征。我们使用MIRtoolbox来提取相应的音频特性。

音高P是指声音的高低，高音高的音乐作品被认为更令人兴奋。普遍接受的音高标准称为A素数，即440赫兹。人类能探测到的最低声频是20Hz。研究表明，可以判断为音乐性的音调的最高频率限制是4000-5000Hz。因此，在我们的方案中，我们将音乐音高的边界设置为30 - 4000Hz，中性状态为440Hz。

Dynamics D描述音乐的声音有多大或有多柔和。low-energy是用来描述动态d的，它表示能量随时间的分布。对于给定的音频剪辑，如果大部分帧包含高能量，则会导致低能量率的低能量率，而对于这样的音乐剪辑，动态能量是高的。反之，低能量率越高，动力学能量越低。

Tempo T1是一个音频剪辑的速度，通过每分钟的节拍(BPM)来评估。快节奏表示兴奋，慢节奏表示控制血脑屏障。普通标志定义的音乐节奏范围从40bpm到200bpm。大多数节拍检测器还假定节拍大约在70bpm - 160bpm[22]之间。因此，在我们的模型中，节奏被设置在60bpm到180bpm之间，120bpm为中性能量状态。

攻击A是声音达到一定响度的速度。这种声音在快速攻击下很快达到顶峰。它暗示着兴奋和敏锐。否则，变化是柔和的，美感是柔和的。表示被A攻击时检测到的攻击时间，攻击能量由A = - log10A给出。

音色T2。我们使用ADSR(攻击、衰减、维持和释放)来模拟声音的音色。每种仪器都有自己的包络线，可以用四个阶段来描述。在目前的工作中，没有必要对音色进行精确的分类，T2只是由4个属性的线性组合给出。

C . Color-Sound匹配

给定图像数据集Omega;和音频剪辑,我们怎样才能选择一个映像子集匹配音乐剪辑并创建一个可视视频幻灯片吗。Zettl指出，为了合成一个有意义的视听结构，单独处理图像和音乐是不可接受的。这两者应该结合起来，这样我们才能“看到声音”和“听到图像事件”。建立了可视视频特征和音频之间的相关性。但是他们承认，即使我们有相关图，也不是所有的特征都是可提取的。在我们目前的阶段工作中，我们遵循它们的特征连接框架，构建基于美学能量的解决方案。在前面的讨论中，我们已经建立了图像和音频的审美能量描述模型。美学能量值范围从0到1(对于色调和音高，间隔为[-1,1]，0为中性点)。根据检测到的onsets将音频剪辑分割为子剪辑。

4.图片幻灯片构图

A音图象映射

频剪辑被onsets分割为子剪辑，与[6]中相同。每个子片段的最小持续时间与全球音乐节奏成正比。从每个子剪辑中提取美学能量特征。我们希望为每个子剪辑分配一个图像，以获得最小的视听总距离Dav。

设K为子剪辑的个数。ϕ(·)是一个映射方案,ϕ(i) = j j图像映射到第i个音频subclip。图像和音频之间的最佳映射应该最小化音频图像距离函数Dav，这在第3节中已经讨论过。在这里，我们进一步限制相邻图像的色调应接近视觉愉悦。由冷图像到暖图像的突变破坏了视觉的连续性。

我们构造一个图G = (V, E)。节点集V = {vi | 1le;le;|Omega;|}=Omega;图像数据集,和边缘ek = (vi, vj)代表该计划显示两帧vi和vj随后。边缘ek的权值为w1(ek) = w1((vi, vj)) = (H(vi) - H(vj))2，即两个连接图像之间的颜色距离。附加约束条件，使得节点vi在qth停止处的权重由w2(vi, q)给出，w2(vi, q)定义为图像vi与qth音乐子剪辑之间的视音频距离。我们想找到k -stop的最小流量路径。为了更清楚，我们可以向V添加伪源节点和目标节点(vS和vD)。路径从源节点vS开始，在目标节点vD结束。连接两个节点和其余节点的边的权值设为0。现在目标路径的实际长度是K 2。

为了解决这一约束最短路径问题，我们使用了一种类似于[24]中讨论的k - LDM方案的快速次优算法首先，启动路径P = (vS, vD)其次，将节点v1 i1插入到最小化w2(vi, 1)的路径中，更新路径P = (vS, v1 i1, vD)。第三，插入最小化w1((v1 i1, vj)) w2(vj, 1)的节点(vS, v1 i1)，得到一条新的路径P1 = (vS, vj, v1 i1, vS)。同时，在(v1 i1, vD)和(v1 i1, vj)之间插入节点，使w1((v1 i1, vj))和w2(vj, 2)最小化，得到一条新的路径P2 = (vS, v1 i1, vj, vD)。重新计算p1和P2的总权重。选择较小的节点，并将路径中的节点重新标记为P = (vS, v1 i1, v2 i2, vD)。继续这个过程。每次在路径中插入两个相邻节点之间的局部最优节点，更新总权值并选择权值最小的节点。重复这个过程，直到路径的长度扩展到K 2。结果给出了目标图像序列,和第六的位置节点给ϕ的映射。

B图像显示

让所选图像相匹配的音频subclips集Lambda;。进一步分析了这些图像的显著性映射SRoI, SRoI用于表示给定图像的视觉兴趣。在我们目前的方案中，我们使用了中的显著性检测方案。

为了将图像序列转换为视频，我们引入了图像序列的三维时间。让t表示音频subclip的持续时间,而omega;是缩放因子。根据美学理论,攻击时间和变焦速度呈正相关,即审美的能量攻击与变焦速度Delta;omega;=lambda;/负相关。与此同时,平均变化速度Delta;omega;omega;的变化速度的初始值在时间tomega;0 1。

因此,当我们确定了系数lambda;,最初的缩放因子omega;0也决定。在实现中，由于攻击美学能量值范围从0到1，其中0.5为中性点状态，所以我们将中性点子剪辑的缩放因子设置为0.75。为了确定初始窗口的位置，我们使用了中描述的方案。捕获最显著性的窗口被认为是最优的初始窗口。对应的显著性表示为SRoI(k)，其中k为子剪辑索引。现在我们需要决定显示模式。在中讨论了两种不同的显示方法:归纳方法和演绎方法。前者从局部细节展示对象，最后向观众提供一个整体的概览。后者则相反。对于小屏幕设备，演绎投影法更为合适。然而，如果所有的图像都以相同的方式显示，也就是近距离拍摄然后缩小，那就太无聊了。相反，我们希望在相邻子剪辑之间进行一些更改。

SRoI (k)被认为是subclip k的权衡因素。如果RoI高等特点,更重要的是,这部分需要强调一个更强大的显示方案,即归纳方法,所以chi;(k)更可能是1。为了得到方程3所定义的最佳缩放模式，我们只需要求解一个非齐次马尔可夫系统。

5.实验结果

我们在233幅图像的数据集上进行了实验。图像之间没有语义关系，事件在情感上是中性的。选择16个不同仪器的音频片段进行测试。它们有三种类型的情感:安慰型、中性型和激情型。我们进行了三组实验来评估我们的结果。邀请20名参与者进行用户研究。他们被要求从几个方面给给定的视频打分。得分范围从1到5，有5个最好的和1个最差的。所有的实验结果可以在http://www.youtube.com/playlist?list=PL8E4945492AB4D42A

A.方案比较

第一个实验组包含两组视频。本部分旨在评估不同幻灯片格式的结果。每组有3个视频片段，第一个片段是随机生成的。从数据集中随机选择一定数量的图像。它们与相应的音频剪辑一起显示。所有图像的持续时间是相同的，不考虑同步。第二个剪辑由Muvee Reveal生成。将数据集中的50张图像全部作为输入，并将速度设置为normal。图像由Muvee随机重新排列。对于第一个音频剪辑，Muvee删除了7幅图像，另一组删除了29幅图像。

用户被要求对不同幻灯片的总体浏览乐趣进行评分。我们的输出在数量上比其他两个更好(得分3.95和4.1)。除了视听同步和显示问题外，适当的时长可能是影响观看乐趣的另一个问

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

一种用于图像幻灯片生成的联觉方法外文翻译资料

一种用于图像幻灯片生成的联觉方法

1.简介

2.预备工作

3.颜色和声音匹配

4.图片幻灯片构图

5.实验结果

您可能感兴趣的文章

登录

一种用于图像幻灯片生成的联觉方法

1.简介

2.预备工作

3.颜色和声音匹配

4.图片幻灯片构图

5.实验结果

您可能感兴趣的文章