SINet:一种尺度不敏感的卷积神经快速车辆检测网络外文翻译资料-外文翻译网

英语原文共 10 页

IEEE智能交通系统会刊

SINet:一种尺度不敏感的卷积神经

快速车辆检测网络

胡小伟，IEEE学生会员，徐学淼，IEEE会员，

肖永杰，陈浩，IEEE学生会员，盛胜峰，IEEE会员，

秦静，IEEE会员，Pheng-Ann Heng，IEEE高级会员

摘要:随着深度卷积神经网络(CNN)的发展，基于视觉的车辆检测方法近年来取得了令人难以置信的成功。然而，现有的基于cnn的算法在目标检测任务中存在卷积特征对尺度敏感的问题，而交通图像和视频中包含的车辆尺度变化较大是常见的。在本文中，我们深入研究了尺度敏感性的来源，揭示了两个关键问题:1)现有的RoI池破坏了小尺度对象的结构;2)尺度方差大，类内距离大，超出了单个网络的表示能力。基于这些发现，我们提出了一种尺度不敏感的卷积神经网络(SINet)，用于快速检测尺度差异较大的车辆。首先，我们提出了一个上下文感知的RoI池来维护小尺度对象的上下文信息和原始结构。其次，我们提出了一个多分支决策网络来最小化特征的类内距离。这些轻量级技术带来了零额外的时间复杂度，但显著提高了检测精度。所提出的技术可以装备任何深度网络架构，并保持端到端的训练。我们的SINet在精度和速度方面达到了最先进的性能

手稿于2017年7月14日收到; 修订后的2018年1月1日和2018年4月2日; 国家自然科学基金委员会根据拨款61772206，拨款U1611461，拨款61472145和拨款61702194，部分由广东省申请科学技术研究与发展专项基金资助2016B010124011和授予2016B010127003，部分由广东省特殊支援计划人员2016TQ03X319资助，部分由广东省自然科学基金资助2017A030311027和资助2017A030312008，部分由广州市工业技术重大项目2018年资助 - 0601-ZB-0271，部分由香港理工大学项目1-ZE8J。 X.胡的工作得到了香港博士的支持。奖学金。本文的副主编是Z. Duric。（通讯作者：薛雪苗。）

X.胡就职于华南理工大学计算机科学与工程学院，广州510006。现就职于香港中文大学计算机科学与工程系。

X.徐，Y。华南理工大学计算机科学与工程学院，广州510006(电子邮件:xuemx@scut.edu.cn)。

陈教授就职于香港中文大学计算机科学与工程系，香港。

秦先生就职于香港理工大学护理学院智能健康中心。

P.-A. Heng拥有香港中文大学计算机科学与工程系，以及中国科学院深圳先进技术研究院广东省计算机视觉与虚拟现实技术重点实验室，深圳518055 ，中国。本文中一个或多个图形的彩色版本可以在http://ieeexplore.ieee.org网站上找到。数字对象标识符10.1109/TITS.2018.2838132

(高达37 FPS)的KITTI基准和一个新的高速公路数据集，其中包含一个大的尺度和非常小的对象的方差。

指标术语-车辆检测、尺度灵敏度、快速目标检测、智能交通系统。

一，导言

从图像或视频中自动检测车辆是许多智能交通系统必不可少的先决条件。例如，车内视频中的车辆检测(图1)对于自主驾驶系统的开发至关重要，而监控视频中的车辆检测(图2)对于智能交通管理系统的实现至关重要。在这方面，在过去的十年中，人们对[1]-[20]这一领域进行了大量的研究。对于各种检测算法[21]的评估和比较，也提出了一些具有挑战性的基准。另一方面，近年来，深度卷积神经网络(CNNs)在车辆检测以及其他各种目标检测任务[22]-[30]上取得了令人难以置信的成功。然而,当CNN应用到车辆检测的主要挑战之一是传统的CNN敏感尺度是很常见的,车载视频或交通监控视频包含车辆的大方差尺度(参见图1中的车辆(a)和图2)的输入。这scale-sensitive问题的根本原因是,它是具有挑战性的一个CNN应对所有与最优尺度信心[31]。

现有的基于CNN的物体检测算法试图通过利用具有多种分辨率的输入图像使网络适应不同的尺度[23]，[24]，[26]，[29]，[31]，[33]，[34]或融合CNN的多尺度特征图[22]，[25]，[28]，[30]，[35] - [40]。然而，这些方法引入了昂贵的计算开销，因此仍然不能进行快速车辆检测，这对于自动驾驶系统，实时监视和预测系统是必不可少的。

我们不是简单地添加额外的操作，而是研究检测网络本身并仔细检查这种对比例敏感的问题的根本原因。我们观察到两个主要障碍。首先，小区域的不充分和/或不精确的特征导致检测到小物体（例如，图1（b）中的红色框）的丢失。特别是，常用的RoI池[23]扭曲了小物体的原始结构，

图1.尺度敏感问题。（a）图像包括大型和小型车辆。（b）深层小型和大型车辆的特征表示大不相同。（c）传统的RoI池化引入了噪声，因为它只是复制小型车辆的特征图上的值。

因为它只是简单地复制特征值以适应预设的特征长度(如图1 (c)的左边示例所示)。其次，不同尺度车辆之间的类内距离通常相当大。如图1 (b)所示，红色和紫色框具有不同的响应特征。这使得网络很难使用相同的权重集来表示不同大小的对象。

为了解决上述问题，我们提出了一种尺度不敏感的卷积神经网络SINet，用于精确有效地检测尺度变化较大的车辆。网络架构如图2所示。在特征图层次上使用对象建议检查所有可能的对象区域，并将相应的特征图反馈给决策网络。提出了克服上述障碍的两种新方法。我们首先提出了一个上下文感知的RoI池方案，以保持小尺度对象的原始结构。这个新的池层使用双线性内核进行反褶积，双线性内核可以维护上下文信息，从而帮助生成忠于原始结构的特性。然后，将这些汇集的特性提供给一个新的、多分支的决策网络。每个分支都被设计成最小化特征的类内距离，因此网络能够比传统网络更有效地捕获不同尺度对象的鉴别特征。

该网络在KITTI基准[21]上实现了最先进的检测精度和速度性能。该方法对低分辨率输入图像车辆的检测也显示出良好的性能，并将低分辨率视频监控中的车辆检测应用于实际。由于其轻量级的架构，可以在256times;846的图像上实现实时检测(最高37帧)。为了在更实际的场景中演示所提出的方法，我们构建了一个新的高速公路数据集，其中包含了大量尺度变化较大的车辆。据我们所知，这是第一个专注于公路场景的数据集。它包含了14388张在不同的道路、时间、天气和交通状况下的图片。此数据集以及SINet的源代码可在https://xw-hu.github.io/上公开获取。总之，我们的贡献包括：

- 我们提出了一个上下文感知的RoI池层可以为车辆生成准确的特征地图小规模没有额外的空间和时间负担。该提出新的汇集层可以广泛应用现有架构。

- 我们提出了一个多分支的车辆决策网络检测。它可以准确地对大型车辆进行分类不引入额外计算的尺度方差成本。

- 我们建造了第一条大规模的方差公路数据集，提供具有实际场景的平台评估各种车辆检测的性能处理具有大方差的目标对象的算法尺度。

II。关于车辆检测的相关工作

在本节中，我们简要介绍了单目视觉车辆检测方法，因为我们的方法也属于单目视觉检测。可以在[41]中找到对单眼、立体和其他视觉传感器的车辆检测的更全面的分析。

早期的工作是利用物体和背景之间的相对运动线索来检测车辆。自适应背景模型如高斯混合模型(GMM)[3] -[5]、Sigma-Delta模型[9]等，由于背景比运动物体出现的频率高，通过对背景分布的建模，在车辆检测中得到了广泛的应用。光流是一种通过模拟物体随时间运动的模式来聚集车辆检测[10]的时间信息的常用技术。光流还结合了对称跟踪[8]和手工制作的外观功能[7]，以更好的性能。然而，这种方法无法区分移动对象的细粒度类别，例如car、bus、van或person。此外，这些方法需要大量复杂的后处理算法，如阴影检测、遮挡车辆识别等来细化检测结果。

然后，应用基于手工特征的统计学习方法直接从图像中检测车辆。他们首先用一些特征描述符描述图像的区域，然后将图像区域划分为不同的类别，如车辆和非车辆。HOG[11]、[13]、SURF[14]、Gabor[13]、Haar-like[15]、[16]等特征常用于车辆检测，其次是SVM[11]、[14]、人工神经网络[16]0、Adaboost[15]、[16]等分类器。更高级的算法，如DPM[12]、[17]和and- or Graph[1]、[2]，探索车辆的底层结构，并使用手工制作的特性来描述车辆的每个部分。然而，这些特性具有有限的特性表示能力，难以处理复杂的场景。

近年来，深卷积神经网络学习到的特征对对象的语义表达能力较强，这对目前最先进的对象检测器[23]、[24]、[27]、[29]做出了很大的贡献。

图2.拟议的SINet管道的示意图：（i）我们从CNN [32]中提取具有多个尺度的特征图。输入图像并根据CNN特征得到建议[28]; （ii）将不同层上的每个提案合并到一个固定大小的特征向量中。上下文感知的RoI池，其中通过双线性内核的反卷积扩大小提议以实现更好的表示（参见第IV-B节详情）; （iii）我们在每一层连接提案的特征，并将它们提供给多分支决策网络; （iv）最后，我们融合了所有分支的预测边界框，以产生最终的检测结果（汽车为红色，公交车为黄色，厢式车为蓝色），最好看的颜色。

虽然这些方法在车辆检测基准[21]上比很多手工制作的车辆检测方法都要优越，但是由于尺度敏感的卷积特性，使得尺度变化较大的车辆(图1和图2)仍然难以实时准确检测。我们将在下一节详细阐述当前CNNs的规模敏感问题。

III。为什么目前的CNNS具有规模敏感性众所周知，CNN对尺度变化敏感在检测任务[28]。在本节中，我们先仔细一点分析其根本原因，然后讨论如何存在解决方案解决了这个问题。

A. RoI Pooling引起的结构失真

基于CNN的对象检测算法分为两种类别。第一类建立在两个阶段管道[23]，[24]，[26]，[27]，[33] - [36]，[42]，[43]，其中第一阶段提取提案，第二阶段预测他们的课程。第二类旨在培训端到端物体探测器[37]，[44]，[45]，它跳过了对象提案检测，因此具有相对较快的计算速度。这种检测器首先隐含地将图像分成网格，然后同时对每个方形或矩形进行预测在网格中，最计算出边界框基于正方形或矩形的预测来定位对象[44]。但是，这种基于网格的范式无法获得与两级检测管道的精度相当，如同网格具有太强的空间约束来预测小物体作为群体出现[43]。在这方面，大多数是现有的方法采用两级检测流水线。

为了满足分类网络的输入要求，大多数两阶段的目标检测算法，如SPP[25]、Fast RCNN[23]和Faster RCNN[27]，都是通过将[23]的RoI池将每个提案表示为一个固定大小的特征向量。如图1 (c)所示，RoI池将每个提案划分为Htimes;W子窗口，并利用最大池对每个子窗口提取一个值，使输出的大小固定为Htimes;W。如果一个提案小于Htimes;W，它可以通过简单地复制一些提案扩大到Htimes;W

提案的部分内容填补了多余的空间。不幸的是，这种方案并不合适，因为它可能会破坏小物体的原始结构(见图3 (c))。在网络训练过程中，重复值的填充不仅会导致正向传播中的表示不准确，还会在反向传播中积累错误。不准确的表示和积累的错误误导了训练，使网络无法正确检测小尺度车辆。在实验中，我们发现这个问题对于小型车辆检测精度低是至关重要的。

图3. RoI池和CARoI池之间的区别。为了为清楚起见，我们在自然图像上应用这两个汇集层特征地图。

B.由尺度变化引起的类内距离

引起尺度敏感性的另一个重要问题是大尺度对象和小尺度对象之间的类内距离太大。一旦提取出每个提案的特征，就将其输入决策网络进行分类。现有方法对同一类中的对象一视同仁，而不考虑它们的规模。我们认为这可能导致不准确的检测，因为大尺度和小尺度对象之间的类内距离可能与类内距离在特征表示上一样重要。

C.现有解决方案及其缺点

许多工作都致力于解决这个规模敏感性问题。如前所述，大多数现有的解决方案都是基于两种金字塔表示形式设计的。首先应用图像金字塔的概念(图4 (a))，利用多尺度的输入图像使网络适应所有尺度[23]、[26]、[29]、[31]、[33]、[34]。然而，这种表示方法的主要缺点是计算量大，无法应用于实时检测任务。

图4.（a）基于多尺度图像的多重预测。（b）对多层特征的多重预测。（c）对连接特征的单一预测。

（d）对与低层特征连接的多层特征的多个预测。

另一种表示方法是特征金字塔，它利用从多层特征图中提取的信息。第一个直接的尝试是使用高分辨率的浅层来检测小对象，而使用低分辨率的深层来检测大对象(如图4 (b)所示)。该策略已被SSD[37]、MSCNN[28]、FCN[38]和SDP[30]所采用。然而，由于浅层特征图缺乏语义信息，往往无法准确区分小对象。

为了充分利用深层信息来处理尺度变化，一些研究人员提出将多层特征图结合起来训练网络(如多径[40]和HyperNet[35]，见图4 (c))。然而，由于网络中使用的下采样操作，小对象无法在深层保持足够的空间信息，因此仍然很难被检测到。为了更好地维护小对象的深地物图，提出了另一种解决方案，将高分辨率地物图和上采样的深地物图结合起来预测小对象，如[36

资料编号：[5883]

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

SINet:一种尺度不敏感的卷积神经快速车辆检测网络外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章