视频到视频的合成问题外文翻译资料-外文翻译网

英语原文共 14 页

视频到视频的合成问题

摘要

我们研究视频到视频合成的问题，它从输入源视频（例如，语义分割掩模序列）到输出逼真视频，其精确地描绘了源视频的内容。尽管图像到图像的转换问题是个热门话题，与之对应的视频到视频的转换问题却很少在文献中被研究。在不对时间动态建模的情况下，将现有图像合成方法直接应用于输入视频通常导致具有低视觉质量的时间上不连贯的视频。在本文中，我们提出了在生成对抗性学习框架下的视频到视频合成方法。通过精心设计的发生器和鉴别器，再加上一个时空的梯形物镜，我们可以在多种输入格式上实现高分辨率，逼真，时间相干的视频效果，包括分割蒙版，草图和姿势。多个基准测试的实验表明，与强基线相比，我们的方法具有优势。特别是，我们的模型能够合成长达30秒的街景2K分辨率视频，这显着提升了视频合成的最新技术水平。最后，我们将我们的方法应用于未来的视频预测，优于几个竞争系统。我们的网站提供代码，型号和更多结果。

1、简介

建模和重建视觉世界动态的能力对于构建智能代理至关重要。除了纯粹的科学兴趣之外，学习综合连续视觉体验在计算机视觉，机器人和计算机图形学中具有广泛的应用。例如，在基于模型的强化学习[2,24]中，视频合成模型可用于近似于世界的视觉动态，而无需使用经验数据。使用学习的视频合成模型，可以生成逼真的视频而无需明确指定场景几何，材质，光照和动态，这在使用标准图形渲染引擎时会很麻烦但是很必要。

视频合成问题以各种形式存在，包括未来视频预测和无条件视频合成。在本文中，我们研究了一种新形式：视频到视频合成。我们的核心是学习可以将输入视频转换为输出视频的映射功能。据我们所知，视频到视频合成的通用解决方案并未通过前期工作进行探索，尽管图像到图像翻译问题的图像是一个热门的研究课题。我们的方法受到以前应用特定视频合成方法的启发。

我们将视频到视频合成问题视为分布匹配问题，其目标是训练模型，使得给定输入视频的合成视频的条件分布类似于真实视频的条件分布。为此，我们学习了条件生成对抗模型[20]，给出了成对的输入和输出视频，通过精心设计的生成器和鉴别器，以及新的时空学习目标，我们的方法可以学习合成高分辨率，真实感，暂时连贯的视频。此外，我们将方法扩展到多模态视频合成。在相同的输入上进行调节，我们的模型可以制作具有不同外观的视频。

图1：从Cityscapes上的输入分割地图视频生成逼真的视频。左上角：输入。右上角：pix2pixHD。左下：COVST。右下：vid2vid（我们的）。单击图像以在浏览器中播放视频剪辑。

我们在几个数据集上进行了大量的实验，这些数据集涉及将一系列分割掩模转换为逼真视频的任务。定量和定性结果都表明，我们的合成镜头看起来比来自强基线的镜头更真实。例如，参见图1。我们进一步证明，所提出的方法可以生成逼真的2K分辨率视频，长达30秒。我们的方法还授予用户灵活的高级控制超视频生成结果。例如，用户可以在树视图视频中轻松地用树替换所有建筑物。此外，我们的方法还提供了另外一些参考文献，以便从面部交换到人体运动转移等许多应用程序。最后，我们将我们的方法扩展到未来预测，并表明我们的方法可以胜过现有系统。请访问我们的网站了解代码，型号和更多结果。

2、相关工作

生成性对抗网络（GAN）。我们在GAN上建立模型。在GAN训练期间，发生器和鉴别器发挥零和游戏。生成器旨在产生逼真的合成数据，使得鉴别器不能区分真实数据和合成数据。除了噪声分布，各种形式的数据可用作生成器的输入，包括图像，分类标签和文本描述。这种条件模型称为条件GAN，并允许灵敏地控制模型的输出。我们的方法属于使用GAN的条件视频生成类别。然而，我们的方法不是预测未来视频对当前观察帧的调节，而是在可操作的语义表示上合成照片级真实视频，例如分割蒙版，草图和姿势。

图像到图像的转换算法将图像从另一个域中的相应图像发布到相应的图像。对于这个问题存在大量工作。我们的方法是视频对应方式。除了确保每个视频帧看起来都是逼真的之外，视频合成模型还必须产生时间上相干的帧，这是一项具有挑战性的任务，特别是对于长时间的视频。

无条件的视频合成。最近的工作扩展了无条件视频合成的GAN框架，该框架学习了用于将随机向量转换为视频的生成器.VGAN使用时空卷积网络。TGAN将潜在代码投射到一组潜在图像代码，并使用图像生成器将这些潜在图像代码转换为帧。MoCoGAN将潜在空间解开为运动和内容子空间，并使用递归神经网络生成一系列运动代码。由于无条件设置，这些方法通常会生成低分辨率和短长度的视频。

未来的视频预测。对观察到的帧进行调节，训练视频预测模型以预测未来帧。这些模型中的许多模型都是用图像重建的方法进行训练的，这些模型经常会产生很多问题。此外，即使进行对抗性训练，他们也无法生成长时间的视频。视频到视频合成问题实质上是不同的，因为它不试图预测物体运动或相机运动。相反，我们的方法以现有视频为条件，可以在不同的域中生成高分辨率和长视频。

视频到视频合成。虽然视频超分辨率，视频消光和混合以及视频修复可视为视频到视频合成问题的特殊情况，但现有方法依赖于问题特定约束和设计。因此，这些方法不能容易地应用于其他应用。视频样式转移，将参考绘画的风格转换为自然场景视频，也是相关的。在第4节中，我们展示了我们的方法优于强大的基线，该基线将最近的视频样式转换与最先进的图像到图像转换方法相结合。

3、视频到视频合成

令sT1equiv;{s1，s2，...，sT}是源视频帧的序列。例如，它可以是一系列语义分段掩码或边缘映射。令xT1equiv;{x1，x2，...，xT}为对应的实际视频帧的序列。视频到视频合成的目标是学习一种映射函数，它可以将sT 1转换为输出视频帧序列，~xT1equiv;{~x1，~x2，...，~xT}，这样就可以了给定sT 1的~xT 1的分布与给定sT 1的xT 1的条件分布相同。

通过匹配条件视频分布，模型学习生成逼真的，时间上相干的输出序列，就像它们被摄像机捕获一样。

我们为这种条件视频分发匹配任务提出了条件GAN框架。设G是将输入源序列映射到相应输出帧序列的生成器：xT 1 = G（sT 1）。我们通过以下公式解决由minimax优化问题给出的训练生成器

其中D是鉴别器。我们注意到，作为求解（2），我们将p（~xT 1 | sT 1）和p（xT 1 | sT 1）之间的Jensen-Shannon散度最小化，如Goodfellow等人所示。解决（2）中的极小极大优化问题是众所周知的，具有挑战性的任务。如文献[14,21,30,37,49,51,55,73,80]所示，仔细设计网络架构和目标函数对于实现良好性能至关重要。我们遵循相同的精神，提出新的网络设计和视频到视频合成的时空目标，详情如下。

顺序发电机。为了简化视频到视频合成问题，我们做了马尔可夫假设，我们将条件分布p（~xT 1 | sT 1）分解为由下式给出的乘积形式：

换句话说，我们假设视频帧可以顺序生成，并且t-thframe_xt的生成仅取决于三个因素：1）当前源帧st，2）过去L源帧st-1 t-L，以及3）过去L 生成帧~xt-1 t-L。我们训练前馈网络F，使用〜xt = F（~xt-1 t-L，st t-L）对条件分布p（~xt | ~xt-1 t-L，st t-L）进行建模。通过以递归的方式应用函数F来实现最终输出~xT 1。我们认为小L（例如，L = 1）导致应变不稳定，而大L增加训练时间和GPU内存但质量改善最小。在我们的实验中，我们设置L = 2。

视频信号在连续帧中包含大量冗余信息。如果已知连续帧之间的光学流，我们可以通过扭曲当前帧来估计下一帧。除了遮挡区域外，这种估计在很大程度上是正确的。基于这种观察，我们将F建模为

☉是元素明智产品操作者1是所有的图像。第一部分对应于从前一帧扭曲的像素，而第二部分对新像素产生幻觉。公式4中其他项的定义如下。

bull; ~wt-1 = W（~xt-1 t-L，st t-L）是从〜xt-1到xt的估计光学流动，W是光学流动预测网络。我们使用输入源图像st t-L和先前合成的图像〜xt-1 t-L来估计光学流动。通过~wt-1（~xt-1），我们基于~wt-1扭曲〜xt-1。

bull; ~ht = H（~xt-1 t-L，st t-L）是幻觉图像，由发生器H直接合成。

bull;~mt = M（〜xt-1 t-L，st t-L）是在0和1之间具有连续值的遮挡掩模。M表示掩模预测网络。我们的遮挡遮罩是软的而不是二进制的，以更好地处理“放大”场景。例如，当物体靠近我们的相机时，如果我们仅扭曲前一帧，则物体将随着时间变得模糊。为了提高对象的分辨率，我们需要合成新的纹理细节。通过使用软掩模，我们可以通过逐渐混合扭曲像素和新合成像素来添加细节。

我们对M，W和H使用剩余网络。为了生成高分辨率视频，我们采用类似于Wang等人的方法的粗到发生器设计。由于使用多个鉴别器可以减轻GAN训练期间的模式崩溃问题，我们还设计了两种类型的鉴别器，如下所述。

条件图像鉴别器DI。DI的目的是确保每个输出帧类似于给定相同源图像的真实图像。这个条件鉴别器应该为真对（xt，st）输出1，对于假对（〜xt，st）输出0。条件视频鉴别器DV。DV的目的是确保连续输出帧类似于给定相同光流的真实视频的时间动态。当DI条件在源图像上时，DV条件在流上。令wt-2 t-K为K个连续实像xt-1 t-K的K -1光流。该条件鉴别器DV应输出1作为真对（xt-1 t-K，wt-2 t-K），0对于假对（~xt-1 t-K，wt-2 t-K）输出。

条件视频鉴别器DV。 DV的目的是确保连续输出帧类似于给定相同光流的真实视频的时间动态。当DI条件在源图像上时，DV条件在流上。令wt-2 t-K为K个连续实像xt-1 t-K的K -1光流。该条件鉴别器DV应输出1作为真对（xt-1 t-K，wt-2 t-K），0对于假对（~xt-1 t-K，wt-2 t-K）输出。

我们引入了两个采样运算符来促进讨论。首先，让phi;I为随机图像采样算子，使得phi;I（xT 1，sT 1）=（xi，si）其中i是从1到T均匀采样的整数。换句话说，phi;I从中随机采样一对图像（xT 1，sT 1）。其次，我们将phi;V定义为随机检索K个连续帧的采样算子。具体地，phi;V（wT-1 1，xT 1，sT 1）=（wi-2 i-K，xi-1 i-K，si-1 i-K）其中i是从K 1到K 1均匀采样的整数 T 1.该运算符检索K个连续帧和相应的K -1光学流图像。通过phi;I和phi;V，我们准备提出我们的学习目标函数。

学习目标函数。我们通过求解训练顺序视频合成功能F.

由DV定义的K个连续帧上的GAN损失，并且LO是流量估计损失。基于网格搜索，在整个实验中将权重lambda;W设置为10。除了公式5中的损耗项，我们使用鉴别器特征匹配损失[40,73]和VGG特征匹配损失[16,34,73]，因为它们提高了收敛速度和训练稳定性[73]。有关详细信息，请参阅附录。

我们使用运算符phi;I进一步定义了图像条件GAN lossLI

类似地，视频GAN损失LV由下式给出

回想一下，我们通过递归地应用F来合成视频~xT1。流失损失LW包括两个术语。第一个是地面实况和估计流量之间的端点误差，第二个是当流动将前一帧扭曲到下一帧时的翘曲损失。设wt是从xt到xt 1的基本事实。流量损失率由下式给出

前景背景。当使用语义分割掩模作为源视频时，我们可以基于语义将图像划分为前景和背景区域。例如，建筑物和道路属于背景，而汽车和行人则被视为前景。我们在发电机设计中利用这种强大的前景 - 背景优先级来进一步改善所提出模型的综合性能。特别是，我们将图像幻觉网络H分解为前景模型~hF，t = HF（st t-L）和背景模型~hB，t = HB（~xt-1 t-L，st t-L）。我们注意到背景运动通常可以建模为全局变换，其中光流可以非常准确地估计。结果，可以通过翘曲精确地生成背景区域，并且背景眩晕网络HB仅在合成的区域中进行合成。另一方面，前景物体通常具有大的运动并且仅占据图像的一小部分，这使得光学流动估计变得困难。网络HF必须从头开始合成大部分前景内容。使用此前景 - 背景先验，然后给出F

其中mB，t是从地面实况分割掩模st导出的背景掩模。这种先验可以大幅提高视觉质量，同时还可以减少轻微瑕疵伪影的成本。在表2中，我们的用户研究表明，大多数人更喜欢使用前景 - 背景建模的结果。

多模态合成。合成网络F是单峰映射函数。给定输入源视频，它只能生成一个输出视频。为了实现多模态合成，我们对源视频采用了特征嵌入方案，该视频由实例级语义分段掩码组成。具体而言，在训练时，我们训练图像编码器E将地面真实真实图像xt编码为d维特征图（在我们的实验中d = 3）。然后，我们将实例平均池应用于地图，以便同一对象内的所有像素共享相同的特征向量。然后，我们将实例平均特征映射zt和输入语义分段掩码都提供给生成器.F。一旦训练完成，我

资料编号：[5105]

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

视频到视频的合成问题外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章