英语原文共 9 页，剩余内容已隐藏，支付完成后下载完整资料

基于视频的卷积神经网络目标检测

深度卷积神经网络(CNNs)在图像分类、目标检测和语义划分等不同的视觉任务中有着令人印象深刻的表现。得益于强大的深度网络(例如GoogleNet)和检测框架(例如区域和CNN特征(RCNN))，对于目标检测，特别是在静态图像领域，其性能显著提高。最近引入来自于视频目标检测的ImageNet 将目标检测任务引入到视频领域。在视频领域中，每个帧中目标的位置都需要用窗口进行标注。在这项工作中，我们介绍了一个基于静态图像目标检测和一般目标跟踪的VID（视频目标检测）的任务框架。它们在VID（视频目标检测）任务中的关系和贡献被彻底地研究和评估。此外，还提出了一个时域卷积网络，将时间信息整合到系统的检测结果中，并显示其对任务的有效性。

1 介绍

深度学习已被广泛应用于各种计算机视觉任务,比如图像分类、目标检测、语义分割、人体姿态估计等等。在过去的几年里, ImageNet和PASCAL VOC中目标检测的性能已经大幅推进了深卷积神经网络(CNN)的发展。采用最先进的目标检测方法训练卷积神经网络将候选区域划分为背景或目标类别。然而，这些方法集中于在静态图像中检测目标。最近，ImageNet向视频（VID）中的目标检测引入了一个新的挑战，如何将目标检测有效并可靠地应用于视频领域。在视频的每一帧中，该算法都需要对每一个类别中目标的边界框和置信度进行标注。虽然在视频领域中已经有了检测目标的方法，但它们主要集中在检测一个特定的目标类别，如行人、车辆或人类行为。ImageNet定义了在视频中检测一般目标的新问题，这是很值得研究的。在静态图像分类、目标分割和图像字幕等任务中，类似于目标检测，可以准确地检测视频中的目标，这可以提高视频分类、视频字幕和相关监视应用的性能。通过定位视频中的目标，可以更清晰地描述视频的语义含义，从而为基于视频的任务带来更强的性能。

现有的一般目标检测方法不能有效地解决这个问题。它们的性能可能会受到视频中目标大量外观变化的影响。例如，在图1(a)中，如果一只猫先面对摄像机，然后再转回来。它的背部图像不能被有效地识别为猫，因为它包含很少的纹理信息，并且不可能包含在训练样本中。正确的识别结果需要从先前和未来的帧信息中推断出来，因为在视频中一个目标的外观是高度相关的。由于一个目标的位置可能会在视频中发生变化，因此应该恢复视频中的位置通信。这样，相关的图像补丁就可以很好地对齐到提取时间信息的轨迹中。此外，识别结果的时间一致性应该是规范化的(图1(a))。在视频中，代表一个目标的一个边界框的分数不应该发生显著的变化。

图1所示。视频目标检测的挑战。红边框是区域真实注释。(a)静态图像目标检测方法，即使是在区域的真实边界框上，也有较大的时间波动。波动可能是由于运动模糊、视频焦化、部分遮挡和不良姿势造成的。在视频中，需要利用相邻帧中相同目标的边界框的信息来进行目标检测。(b)跟踪可以把同一目标的边界框联系起来。然而，由于遮挡物、外观变化和姿势变化，被跟踪的边界框可能会漂移到非目标物体上。目标探测器应该被纳入到跟踪算法中，以便在出现漂移时不断地启动新的轨迹。

这些需求促使我们将目标跟踪合并到我们的检测框架中。深度卷积神经网络在目标跟踪方面的表现令人印象深刻，它比以前的方法有很大的优势。多行人跟踪的跟踪检测方法表明，时间信息可以用来对检测结果进行规范化。然而，直接利目标跟踪不能有效地解决VID问题(图1(b))。在我们的实验中，我们已经注意到，在目标跟踪结果上，直接使用静态图像目标检测器的平均精度仅为37.4%(平均AP)，而在目标提议上则只有45.3%。性能差异的结果是探测器对位置变化的敏感性，以及轨道和目标提议之间的边界框不匹配。为了解决这一问题，我们提出了一个tubelet边界框摄动和最大化合并过程，将性能从37.4%提高到45.2%，这与图像目标方案的性能相当，只有1/38的边框数。

在这项工作中，我们提出了一个基于深度CNN检测跟踪的视频目标检测多级框架。该框架由两个主要模块组成:1)一个tubelet 提议，该模块将目标检测和目标跟踪结合在了tubelet目标候选区域中;2)一个tubelet分类和重新评分模块，它在整合时间一致性的同时，为健壮的边框评分和时间的卷积进行空间的合并。在我们的框架中，目标检测和跟踪工作非常紧密。一方面，目标检测可以产生高可信度的锚点，从而开始跟踪，并通过空间最大化合用减少跟踪失败。另一方面，跟踪也产生了目标检测的新建议，跟踪框作为锚点来聚集现有的探测。

这篇论文的贡献有三点：1)在视频中提出了一个完整的多阶段框架结构。2)研究了静态图像目标检测与目标跟踪之间的关系，以及它们对视频目标检测的影响。3)提出一种特殊的时间卷积神经网络，将时间信息整合到视频中的目标检测中

2 相关的工作

最先进的探测普通类目标的方法主要是基于深度卷积神经网络。Girshick等人提出了一个多阶段的管道，称为区域卷积神经网络(R-CNN)，用于训练美国有线电视新闻网，以对区域的目标探测进行分类。它将探测问题分解为几个阶段，包括边界框提议、CNN预训练、CNN的微调、SVM训练和边界框回归。这样的框架表现良好，并被其他方法所采用。Szegedy等利用一个22层的结构和inception模块提出了GoogLeNet来取代CNN在r-CNN中的模块，赢得了ILSVRC 2014的目标检测任务。Ouyang等提出了一种变形约束池层和一盒训练的策略, 在ILSVRC 2014测试集达到50.3%的精度。加速R-CNN管道的培训,提出了Fast R-CNN,每个图像块包装不再是一个固定大小的送入CNN。相反，对应的特性是从上一个卷积层的输出特性映射中裁剪的。在更快的Fast R-CNN管道中，边界框提议是由一个区域提议网络(RPN)生成的，因此整个框架可以以端到端方式进行培训。然而，这些管道是用于静态图像中的目标检测。当这些方法应用于视频时，它们可能会错过一些正确的样本，因为这些目标可能不是它们在视频的每一帧中最好的姿势。

目标定位和联合定位主要关注于YouTube目标数据集(YTO)，这点与VID类似。然而，这两个问题之间存在着关键的差异。1)目标: 定位和联合定位问题假设每个视频只包含一个已知的(弱监督的设置)或未知的(无监督的设置)类，并且只需要在每个测试框架中对一个目标进行本地化。然而，在VID中，每个视频帧都包含未知数量的目标实例和类。VID的任务更接近现实世界的应用程序。2)度量标准:本地化度量(CorLoc)通常用于评估定位和联合定位，而平均精度(平均AP)用于对VID的任务进行评估。在不同的类和阈值上评估总体性能的难度更大。由于这些差异，VID任务更加困难，也更接近现实世界的场景。以前在视频中的目标定位和联合定位本地化工作不能直接应用于VID。

也有一些关于动作本地化的方法。在人类动作视频的每一帧中，系统都需要为人类感兴趣的动作进行注解。基于行动建议的方法与我们的工作有关。Yu和Yuang等提议通过计算行为得分和解决一个最大的集合覆盖问题来生成行动建议。Jain等基于super-voxels采用了选择性的搜索策略来生成tubulet的提议，并提出了将人类行为与背景运动区别开来的新功能。在参考文献[11]中，候选区域被输入两个cnnn，以学习特征表示，后面是一个SVM，用来对使用外观和动作提示的动作进行预测。然后，根据动作预测和它们的空间重叠，这些区域被连接起来。

目标跟踪研究已经被研究了几十年。最近，深度卷积神经网络被用于跟踪目标，并取得了令人印象深刻的跟踪精度。Wang等提议创建一个特定目标的跟踪器，通过在线选择一个由ImageNet预先训练的CNN的最具影响力的功能，它比一般的追踪技术的追踪器要大得多。Nam等22人训练了一个多领域的CNN，以学习用于追踪物体的通用表示。当跟踪一个新目标时，通过将预先训练的CNN的共享层与一个新的二进制分类层相结合，创建一个新的网络，该层是在线更新的。然而，即使是基于CNN追踪的追踪器，他们也可能会在长期追踪中漂移，因为他们主要利用视频中的物体外观信息，而不需要在课堂上进行语义理解。

3 方法

在本节中，我们将介绍视频中目标检测的任务设置，并详细描述我们的框架设计。图2显示了视频目标检测系统的一般框架。该框架有两个主要模块:1)一个时空tubelet提案模块；2)一个tubelet分类和重新计分模块。这两个主要组件将在第3.2节和第3.3节中详细阐述。

3.1 任务设置

视频(VID)任务中的ImageNet目标检测与静态图像中的图像目标检测任务(DET)相似。有30个类，它是一个200个类的集合任务的子集。所有的类都被标记为每个视频片段。对于每个视频片段，算法需要生成一组帧数的注释(fi、ci、si、bi)、类标签ci、置信得分si和边界框bi。对于VID任务的评估协议与执行任务是一样的。因此，我们在所有的类中使用传统的平均平均精度(平均AP)作为评价指标

3.2 时空tubelet提议

视频中的目标显示了时间和空间的一致性。相邻帧中的相同目标具有相似的外观和位置。仅使用现有的目标检测方法或目标跟踪方法无法有效地解决VID问题。一方面，图像目标检测器的直接应用是将视频作为图像的集合，并分别检测每个图像上的目标。这种策略只关注外观上的相似性，忽略了时间的一致性。因此，连续帧的检测分数通常会有很大的波动(图1(a))。另一方面，通用目标跟踪方法从一个开始框架跟踪目标，通常使用来自当前跟踪的边界框的样本进行在线更新检测器。跟踪方法中的探测器主要关注视频中的样本，通常由于大目标外观的变化而趋于漂移(图1(b))。

在我们的框架中，时空tubelet提案模块将静态图像目标检测和通用目标跟踪结合在一起。它具有目标探测器的识别能力，以及目标跟踪器的时间一致性。tubelet提案模块有3个主要步骤:1)图像目标提议，2)目标提议评分和3)高置信度目标跟踪。

步骤1：图像目标的提议。一般目标提议是由选择性搜索(SS)算法生成的。SS方法在每个视频帧上输出大约2000个目标提议。大多数的目标提议是否定的，可能不包含目标。我们使用由R-CNN所提供的ImageNet训练有素的AlexNet 模型来移除简单的负面目标建议，在此方案中，所有检测到200个类的检测结果都低于某个阈值。在我们的实验中，我们使用1.1作为阈值，大约6.1%的区域提议被保留，而在这个阈值的回忆是80.49%。图2(a)显示了图像目标提议过程。

步骤2：目标提案评分。由于VID 30类是200个类的一个子集，所以为这个任务而训练的检测模型可以直接用于VID类。我们的探测器是一个在ImageNet图像分类数据中预先训练过的GoogLeNet，并对该任务进行了微调。与R-CNN类似，对于每一个DET类，一个SVM使用从模型中提取的“pool5”特性进行负面挖掘。这里使用了与VID对应的30个SVM模型，用于将目标建议划分为背景或目标类中的一个。SVM分数越高，该框包含该类目标的置信度就越高(图2(b))。

步骤3：高置信度建议跟踪。对于每个目标类，我们在视频片段中双向地跟踪高可信度的检测建议。我们为这个任务选择的跟踪器来自于参考文献[36]，在我们的实验中，它显示了对目标的姿态和尺度变化的更健壮的性能。跟踪的初始探测被称为“锚”，它是从跟踪离开锚点中选择的，跟踪器可能会漂移到背景和其他目标，或者可能跟不上目标目标的规模和姿态变化。因此，当跟踪置信度低于阈值时，我们就会提前停止跟踪(在我们的实验中，概率为0.1)，以减少误报跟踪。在得到一条轨迹后，从其他的探测中选择一个新的锚点。通常情况下，高置信度探测倾向于在空间上和时间上都聚集在一起，因此直接跟踪下一个置信度最高的检测结果往往会导致在同一目标上有大量相互重叠的轨迹。为了减少冗余和尽可能覆盖尽可能多的目标，我们执行了类似于NMS的抑制过程。第2步的探测与已存在的超过某一阈值的轨道重叠(在我们的实验中，IOU 0.3)将不会被选为新的锚点。跟踪-抑制过程反复执行，直到所有剩余探测的置信度值都低于一个阈值(在我们的设置中，SVM的得分低于0)。对于每一个视频片段，30 VID的类都执行这样的跟踪过程。

在以上三个主要步骤中，我们可以从每个类的高置信度锚点获得轨迹。所产生的轨迹是tubelet关于我们框架的后一部分的tubelet分类的建议。

图2所示。视频目标检测框架。提议的视频目标检测框架包含两个主要组件。1) tubelet提议组件:(a)、(b)和(c)；2) tubelet分类和重新评分组件:(d)和(a)。(a)在每个框架中都生成了类独立的建议。(b)一个对象得分模型在每个提议上输出一个检测分数。颜色越深，得分越高。(c)高可信度的建议被选择作为双向跟踪的锚。(d)Tubelet边框被周围的采样边框所干扰，或者用原始的建议代替。这个空间的最大的集合是每一个tubelet边框的最高检测分数。(e)检测分数(红色)的时间序列，跟踪得分(黄色)和锚偏移量(绿色)是被提议的时间卷积网络的输入。紫色的线是我们网络的输出，蓝线是区域的真值重叠值(监督)。

3.3 Tubelet分类和重新打分

在tubelet提议模块之后，对于每一个类，我们都有高置信度的锚点探测。一种简单的方法是使用与步骤2相同的方法对tubelets上的每个边框进行分类。在我们的实验中，与直接静态图像目标检测R-CNN相比，这种基线方法的性能只有很低的性能。原因大致有4点：

1)来自于tubelets的边界框提案的总体数量要比选择性搜索的范围小得多，后者可能会漏掉一些目标，从而导

全文共7568字，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[11096]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

基于视频的卷积神经网络目标检测外文翻译资料

基于视频的卷积神经网络目标检测

1 介绍

2 相关的工作

3 方法

您可能感兴趣的文章

登录

注册

找回密码

基于视频的卷积神经网络目标检测

1 介绍

2 相关的工作

3 方法

您可能感兴趣的文章