用于视频动作识别的双流融合卷积网络外文翻译资料-外文翻译网

英语原文共 9 页，剩余内容已隐藏，支付完成后下载完整资料

用于视频动作识别的双流融合卷积网络

摘要：近年来，卷积神经网络对视频中人类行为识别的应用提出了不同的解决方案，用于整合外观和运动信息。为了更好地利用时空信息，我们研究了许多在空间和时间上融合卷积塔的方法。我们得出以下结论：（1）不是在softmax层进行融合，而是在一个卷积层上融合空间和时间网络，即不会损失性能，而且在参数上有大量的节省；（2）最好在最后一个卷积层而不是之前的层上（spatially）融合，而在类预测层上的融合可以提高准确性；（3）将抽象的卷积特征在时空上池化，进一步提高了性能。在这些研究的基础上，我们提出了一种新的卷积神经网络结构，用于视频片段的时空融合，并对其在标准基础上的性能进行评估，该结构取得了最先进的成果。

1 介绍

视频中的动作识别是一项非常活跃的研究领域，而最先进的方法仍然远离人类的表现。与计算机视觉的其他领域一样，最近的工作主要集中在将卷积神经网络应用到这项任务上，并在许多方面取得进展：学习局部时空过滤器【11,28,30】，结合了光流片段【22】，并对更长的时间序列进行建模【6,17】。

然而卷积神经网络在行动识别领域中，还没有像在其他领域那样取得显著进展，例如，图像分类【12,23,27】、人脸识别【21】和人类姿势估计【29】。事实上，在诸如UCF-101和HMDB51【13】，这样的标准基准测试中，当前最先进的方法是一种由卷积神经网络和手工特征Fisher Vector编码【20】（如稠密轨迹【33】的HOF【14】）结合的方法。

图1. 双流卷积神经网络模型前三个卷积层的示例输出【22】。这两个网络分别以良好的时间尺度捕获空间（外观）和时间信息。在这项工作中，我们研究了在空间和时间上融合两个网络的几种方法。

这种缺乏成功的部分原因可能是当前用于训练的数据集要么太小，要么太多噪音（我们在相关工作中回到这一点）。与图像分类相比，视频中的动作分类在运动和视点上有更多的挑战，因此可能需要比ImageNet（每类1000个）更多的训练例子，但是UCF-101每类只有100个例子。另一个重要的原因是，当前的“卷积神经网络”架构不能充分利用时序信息，因此它们的性能常常被空间（外观）识别所主导。

从图1可以看出，一些动作可以从静止的图像中识别出来（在这个例子中是箭术）。然而，对于另一些来说，单独的帧可能是模糊的，而运动线索是必要的。举个例子，你可以考虑一下，从跑步区分走，从大笑中区分打哈欠，或者在游泳中区分蛙泳。双流架构【22】包含了运动信息，通过分别为静态图像的外观和堆叠的光流独立的训练ConvNets。事实上，这项研究表明光流信息本身就足以区分UCF101中的大部分行为。

然而，双流架构（或任何以前的方法）不能在视频中利用两个非常重要的线索来实现动作识别：（1）识别移动的位置，即注册外观识别（空间线索）与光流识别（时间线索）;（2）这些线索是如何随着时间演变的。

我们的目标是通过开发一种架构来修正这一问题，这种体系结构能够在特征抽象的几个层次上融合空间和时间线索，以及空间和时间的集成。特别地，Sec. 3调查了融合的三个方面：（1）在sec3.1 如何融合两个网络（空间和时间）考虑空间注册？（2）在sec3.2中在哪融合两个网络的？最后，在sec3.3（3）如何在时序上融合网络？在每一项调查中，我们都选择了最佳的结果（sec4），然后，将这些结果组合在一起，提出了一个新的架构（Sec.3.4），用于两个流网络的时空融合，从而达到了sec4.6的最先进的性能。

我们使用MatConvNet toolbox【31】实现了我们的方法，并在

https://github.com/feichtenhofer/twostreamfusion中公开了我们的代码。

2 相关工作

最近的几项关于在时间序列中使用卷积神经网络的研究已经研究了如何超越仅仅使用帧的外观信息，以及利用时间信息的问题。一个自然的扩展是堆叠连续的视频帧，并将2D的卷积神经扩展到时间【10】，这样第一层就可以学习时空特征。【11】研究几种时间采样的方法，包括早期的融合（让第一层过滤器在帧中进行操作，如【10】），慢速融合（随着层的增加而连续增加时间的接收域）和后期融合（在时间较远的帧上运行合并两个独立网络的全连接层）。他们的架构对时间模型并不是特别敏感，他们通过纯粹的空间网络达到了类似的性能水平，这表明他们的模型并没有从时间信息中获得很多。

最近提出的C3D方法【30】在有限的时间支持下，在16个连续的帧上学习3D的卷积神经网络，所有的过滤器的核都是3x3x3。通过让所有的过滤器在空间和时间上运行，它们的性能比【11】更好。然而，他们的网络比【10,11】的网络要深得多，其结构类似于【23】中非常深的网络。另一种学习时空关系的方法是在【26】中提出的，作者将三维卷积分解成二维空间和一维时间卷积。具体地说，它们的时间卷积是一个随时间而来的二维卷积，特征通道上也是，并且只在网络的较高层次上执行。

【17】比较了几个时序特征的池化架构，以便在更长的时间周期内组合信息。他们得出的结论是，卷积层的时间池比slow, local, or late pooling，以及时间的卷积更好。他们还研究了有序的序列建模方法，将卷积神经网络的特征输入到一个具有长短期记忆（LSTM）单元的循环网络中。然而，使用LSTMs并没有对卷积特征的时间池进行改进。

与我们最密切相关的工作，也是我们在这里扩展的，是【22】中提出的 two-stream ConvNet架构。该方法首先利用RGB和光流帧将视频分解成空间和时间分量。这些组件被输入到不同的深度卷积神经网络结构中，以学习在场景中关于外表和运动的空间以及时间信息。每流都是自己进行视频识别和最终的分类，softmax分数在后期融合中结合。作者比较了几种使光流帧对齐的技术，并得出结论：L=10水平和垂直光流场的简单叠加效果最好。他们还在UCF101和HMDB51上使用多任务学习，以增加训练数据的数量，并提高两者的性能。到目前为止，这种方法是将深度学习应用于动作识别的最有效方法，特别是在有限的训练数据方面。这种双流方法最近被应用于几个动作识别方法【4, 6, 7, 17, 25, 32, 35】。

与我们的工作相关的是双线性方法【15】，它通过在图像的每个位置外积来关联两个卷积层的输出。产生的双线性特征在所有位置被池化，形成一个无序的描述符。请注意，这与手工制作的SIFT特征的二阶池【2】密切相关。

在数据集方面，【11】引入了具有大量视频（asymp;1M）和类（487）。然而，这些视频是自动收集的，因此并不是没有标签的噪音。另一个大型数据集是THUMOS数据集 [8]，具有超过4500万帧。然而，其中只有一小部分实际上包含了被标记的动作并且对于监督特性学习是很有用的。由于标签的噪声，学习时空的卷积神经网络在很大程度上依赖于更小的，但时序一致的数据集，例如UCF101【24】或HMDB51【13】，其中包含了简短的动作视频。这有助于学习，但也有可能严重过拟合训练数据。

3 方法

我们在【22】的双流架构上建立了基础。这个架构有两个主要缺点：（1）不能在空间和时间特征之间学习像素级的对应关系(因为融合只是分类的分数上)，（2）有限时间规模，因为空间卷积操作只在单帧上，时序卷积操作只在堆叠的L个时序相邻的光流帧上（例如L=10）。在视频中，【22】的实现通过在规则的空间采样上使用时间池，在一定程度上解决了后一个问题，但这并不允许对行为的时间演变进行建模。

3.1 空间融合

在本节中，我们考虑了用于融合两个流网络的不同架构。然而，当空间融合任何两个网络时，也会出现同样的问题，因此不与这个特定的应用绑定。

需要说明的是，我们的目的是将两个网络（在一个特定的卷积层）融合在一起，这样在相同像素位置的通道响应就会被放在对应的位置。为了激励这一点，不妨考虑一下刷牙和梳头之间的区别。如果一只手在某个空间位置周期性地移动，那么时间网络就能识别这个动作，而空间网络可以识别位置（牙齿或毛发）和它们的组合，然后辨别动作。

当两个网络在融合层上有相同的空间分辨率时，就很容易实现这种空间通信，只需通过一个网络上的重叠（叠加）层（我们在下面明确这一点）。然而，还有一个问题是，一个网络中的通道对应于另一个网络的哪个通道。

假设在空间网络中不同的通道负责不同的面部区域（嘴、毛发等），而时序网络中的一个通道负责这类的周期性运动场。然后，在通道被堆起来之后，后续层中的过滤器必须学习这些合适的通道之间的对应关系（例如，在卷积过滤器中加权），以便最好地区分这些操作。

为了使这个更具体，我们现在讨论了在两个网络之间融合层的许多方法，并且每个网络都描述了在通信之后的后果。

一个融合函数在时间t融合两个特征图、，来产生一个输出图这里 W，H，D分别是特征图宽，高和通道数。

当应用于前馈的卷积神经网络结构时，它由卷积、全连通、池和非线性层组成，可以应用于网络的不同节点，例如早期融合、后期融合或多层融合。可以使用各种不同的融合函数。我们在本文中研究了下面的内容，为了简单起见，我们假设H=H=H，W=W=W，D=D=D，并删除t下标。

Sum fusion. 计算在相同空间位置i，j和特征通道d上两个特征图的总和：

由于通道的编号是任意的，sum fusion简单地定义了网络之间的任意通信。当然，随后的学习可以利用这种任意的通信来达到最佳效果，优化每个网络的过滤器，使这种通信变得有用。

Max fusion. 类似的采用两个特征图的最大值：

这里所有的变量定义如 (1). 和sum fusion类似，网络通道上的对应是任意的。

Concatenation fusion. 堆叠两个特征图，在通道d上在相同的空间位置 i,j:

连接并没有定义通信，但是将其留给后续的层来定义（通过学习适当的过滤器来对层进行加权），正如我们接下来要说明的那样。

Conv fusion. 首先在通道d的相同的空间位置i,j堆叠两个特征图如上面的（3），随后将堆叠的数据与一组过滤器进行卷积

输出通道的数量是D，而过滤器的尺寸是1x1x2D。在这里，过滤器f用于将维度减少2倍，并且能够在相同的空间（像素）位置上对两个特征图x_a、x_b进行加权组合。当在网络中作为可训练的过滤器内核时，f能够学习两个特征映射的对应关系，从而最小化一个关联的损失函数。例如，如果f被学习为两个permuted identity矩阵1 isin; R^1times;1times;Dtimes;D的连接，那么一个网络的第i个通道只与另一个通道的第i通道（通过求和）结合在一起。

请注意，如果在连接后没有维度减少卷积层，那么即将到来的层的输入通道的数量是2D的。

Bilinear fusion. 计算两个特征图在每个像素位置的矩阵外积，然后求和:

由此产生的特征捕获了相应空间位置的乘法交互。这个特性的主要缺点是它的高维度。为了使双线性特性在实践中可用，它通常应用于ReLU5，全连接的层被移除【15】，而power- and L2-normalisation应用于线性SVMs的有效分类。

双线性融合的优点是一个网络的每个通道都与其他网络的每个通道相结合（作为一个产品）。然而，缺点是所有的空间信息在这一点被边缘化了。

Discussion: 这些操作说明了一系列可能的融合方法。其他的可以考虑，例如：采用通道的像素级的乘法（而不是它们的和或最大），或者（分解的）外积，而不需要在位置之间进行池化【18】。

注入融合层可以对双流网络中的参数和层数产生重大影响，特别是如果只保留了被融合的网络，而且其他网络塔被截断，如图2所示（左）。表1显示了两种VGG-M-2048（在【22】中使用）模型其中包含5个卷积层，然后是三个完全连接的层的不同融合方法对层数和参数的影响。在ReLU5之后（在最后的卷积层之后）的最大Sum和Conv-fusion，在结构中去掉了近一半的参数，因为在融合之后只使用了一个全连接的层。Conv融合有更多的参数（97.58 M），与sum和max fusion（97.31 M）相比，由于额外的过滤器用于通道的融合和维度的减少。连接融合中涉及到更多的参数，在融合后不涉及维数的减少，因此在第一个全连接的层中，参数的数量会增加一倍。相比之下，在softmax层的sum-fusion需要两个塔的参数的所有层（16）和所有参数（181.4M）。

图2. 可以放置融合层的两个示例。左例显示了在第四个conv层之后的融合。从融合的角度来看，仅使用单个网络塔。右图显示了在两层（在conv5之后和在fc8之后）的融合，其中两个网络塔都保留在其中，一个作为混合时空网络，一个作为纯空间网络。

表1. UCF101（第1部分）上不同空间融合策略（第3.1节）的性能比较。 softmax层的求和融合对应于平均两个网络预测，因此包括两个8层VGG-M模型的参数。使用Conv或Sum融合在ReLU5上执行融合不会显着降低分类准确性。而且，这仅需要softmax融合网络中一半的参数。串联的性能较低，并且在FC6层中需要两倍的参数（是Conv或Sum融合）。由于不涉及FC层，因此只有双线性组合的参数要少得多。但是，它必须采用SVM才能实现可比性。

剩余内容已隐藏，支付完成后下载完整资料</p

资料编号：[239097]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

用于视频动作识别的双流融合卷积网络外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章