航空影像中车辆检测的深度学习外文翻译资料-外文翻译网

英语原文共 5 页，剩余内容已隐藏，支付完成后下载完整资料

航空影像中车辆检测的深度学习

迈克尔杨英，廖文通，李新波，Bodo Rosenhahn

场景了解特温特大学

汉诺威莱布尼兹大学信息处理研究所

摘要

航拍图像中车辆的检测广泛应用于许多领域。在本文中，我们提出了一种新的双焦点损失卷积神经网络框架（DFL-CNN）。在所提出的框架中，在CNN结构中使用跳过连接来增强特征学习。此外，焦点损失函数用于替代所提出的区域网络和最终分类器中的传统交叉熵损失函数。我们进一步介绍了第一个大型车辆检测数据集ITCVD，其中包含场景中所有车辆的地面实况注释。实验结果表明，我们的DFL-CNN优于车辆检测的基线。

索引术语：辆检测，卷积神经网络，焦点丢失，ITCVD数据集

1. 介绍

航拍图像中的车辆检测被广泛应用于许多领域，例如交通监控，车辆安全监控，停车场分析和规划等。因此，该主题在学术和工业领域受到越来越多的关注[1,2]， 3]。然而，与地面视点图像中的物体检测相比，航拍图像中的车辆检测具有许多不同的挑战，例如更小的尺度，复杂的背景和单调的外观。有关说明，请参见图1。

在深度学习出现之前，手工制作的特征与分类器相结合是大多数采用的想法来检测航拍图像中的车辆[4,1,2]。然而，手工制作的特征缺乏泛化能力，并且需要修改所采用的分类器以适应特征。以前的一些工作也尝试使用浅层神经网络[5]来学习航空影像中车辆检测的特征[6,7]。然而，提取的特征的代表性能力不足并且性能满足瓶颈。此外，所有这些方法都通过滑动窗口来定位车辆候选者搜索。它效率低，导致昂贵且冗余的计算。必须仔细选择窗口的大小和滑动步骤，以适应数据集中的各种感兴趣对象。

图1.拟议数据集的车辆检测结果。

近年来，深度卷积神经网络（DCNN）在不同的任务中取得了巨大的成功，特别是对象检测和分类[8,9]。特别是，基于区域卷积神经网络（R-CNN）[10,11,12]的一系列方法显着推动了目标检测的进展。特别是，Faster-RCNN [12]提出了区域提议网络（RPN）来定位可能的对象而不是传统的滑动窗口搜索方法，并且在准确性方面实现了不同数据集中的最新性能。然而，由于地面视图图像和鸟瞰图像的不同特征，这些现有的状态检测器不能直接应用于检测航拍图像中的车辆[13]。车辆的外观是单调的，如图1所示。很难学习并提取代表性特征以将其与其他物体区分开来。特别是在密集的公园地段，很难将各个车辆分开。此外，航拍图像中的背景比自然场景图像复杂得多。例如，立面上的窗户或屋顶上的特殊结构，这些背景物体使探测器和分类器混淆。此外，与地面视图图像中的车辆尺寸相比，航拍图像中的车辆要小得多（约50个像素）而图像具有非常高的分辨率（通常大于5000times;2000像素）。最后，规模大而且好需要带注释的数据集来训练良好执行的DCNN方法。但是，没有公共的大型数据集，如ImageNet [14]，用于航拍图像中的车辆检测。两个例外是VEDAI数据集[15]和DLR 3K数据集[2]。但是，VEDAI数据集中的对象相对容易检测，因为图像中稀疏分布的车辆数量很少，背景很简单。更具挑战性和更逼真的DLR 3K数据集包含总共20个航拍图像，分辨率为5616 3744. 10张图像（3505辆）用于训练。对于训练CNN模型，这样的训练样本数量似乎太小。

为了解决这些问题，我们提出了一个用于航空图像中车辆检测的特定框架，如图2所示。该新型框架称为双焦点损失卷积神经网络（DFL-CNN），它由三个主要部分组成：1）A添加从低层到高层的跳过连接以学习包含丰富详细信息的特征。2）RPN采用焦点丢失函数[16]代替传统的交叉熵。当RPN确定提案是否可能是感兴趣的对象时，该修改旨在解决类不平衡问题。3）焦点损失函数替换分类器中的交叉熵。它用于处理容易积极的例子和培训期间的硬性负面例子的问题。此外，我们还引入了一种新的大规模且注释良好的数据集，用于定量车辆检测评估 - ITCVD。为实现这一目标，我们收集了包含29088辆车的173张图像，其中ITCVD数据集中的每辆车都使用边界框手动注释。关于现有技术的基线，证明了所提出方法的性能。我们使我们的代码和数据集在线可用。

2. 拟议的框架

图2说明了所提框架的概述。它基于标准的更快R-CNN进行了修改[12]。我们将读者引用[12]来了解对象检测的一般过程。在这项工作中，我们选择ResNet [17]作为特征学习的骨干结构，因为它在训练期间具有高效率，稳健性和有效性[18]。

图2.提出的框架DFL-CNN的概述。它由三个主要部分组成：1）添加从低层到高层的跳过连接，以学习包含丰富详细信息的特征。2）RPN采用焦点丢失函数[16]代替传统的交叉熵。3）焦点损失函数替换分类器中的交叉熵。

2.1. 跳过连接

在语义分割的任务中已经证明，较浅层的特征保留了更多的细节信息[19]。在物体检测的任务中，航拍图像中的车辆尺寸为大约。30 50像素，假设10厘米GSD。来自第5个汇集层的ResNet的输出要素图的大小仅为输入大小的第32个[17]。大多数车辆的较短边缘在第五个汇集层之后投影到特征地图上时非常小。因此，他们将被忽略，因为他们的大小被四舍五入。此外，汇集操作会导致详细信息的大量丢失。对于密集停放的区域，难以将各个车辆分开。例如，来自浅层的提取特征具有比来自更深层的特征更丰富的详细信息。在密集停放区域的情况下，细节信息对于将各个车辆彼此分开起到重要作用。因此，我们融合了包含更多细节信息的浅层特征，以及具有更多代表性能力的更深层学习的特征，以精确定位检测到的单个车辆。这种跳过连接的CNN架构如图3所示。馈送到网络的图像为752 674像素。第4和第5个汇集层的要素图的大小分别为42 47 1024和21 24 2048。为了将它们融合在一起，较小的特征图被上采样到42 47 2048的大小，然后通过11个卷积层将特征通道缩小为1024。然后将两个要素图连接为跳过连接的要素图。

图3.跳过连接的CNN的结构。来自conv5的特征映射被上采样到与来自conv4的特征映射相同的大小。然后，将特征通道的数量减少11个卷积层到1024.最后，连接来自conv4和conv5的特征映射。

2.2. 焦点丢失功能

[16]最初提出了焦点损失函数，专门用于一阶段物体探测器的类不平衡问题，如YOLO [20]和SSD [21]。正如本文所讨论的，由于覆盖空间位置，尺度和纵横比的密集候选者，单级探测器遭受极端前景 - 背景类不平衡。一个两级探测器在第一个处理这个挑战阶段：候选人提案，例如RPN [12]，大多数可能作为背景的候选人被取消，然后第二阶段：分类器适用于更稀疏的候选人。然而，在具有密集感兴趣对象的场景中，例如图1中的停车车辆，即使是最先进的候选人提议方法RPN也不足以在两个方面过滤密集提议：1）许多密集的建议涵盖了两辆车，并与地面实况高度重叠，这使得提案方法很难确定它们是否是背景物体。2）太多背景物体会干扰训练。很难选择与车辆非常相似的以增强探测器/分类器以区分阳性样本的负面样本，受到[16]中的想法和启发，我们提出了使用焦点丢失功能代替传统的CE在区域提案和分类阶段都被称为双焦点损失 - CNN（DFL-CNN）。

通过添加具有可调聚焦参数gamma;ge;0的调制因子（1-pt）gamma; ，可以从CE损失中获得焦点损失：

Lf l（pt）= - （1 - pt）log（pt）

焦点损失有两个主要特性：1）当调制因子接近1时，损失不受具有小pt 的错误分类实例的影响。相反，当pt 1时，调制因子接近0，其中降低分类良好的例子的损失。2）当聚焦参数gamma;增加时，调制因子的影响也增加。CE是gamma;= 0的特殊情况。直观地，简化示例的贡献减少，而来自硬示例的贡献在训练期间得到增强。例如，当gamma;= 2 1时，用pt = 0.9分类的实例的焦点损失是CE损失的1％和当pt = 0.968时的0.1％。如果一个例子被错误分类（pt lt;0.5），那么通过将其损失减少4倍来增加其对训练的重要性。

2.3. 双重焦点损失CNN

在我们的DFL-CNN框架中，我们添加了跳过连接以融合来自较低（conv4）和更高（conv5）层的特征，并在RPN层和最终分类层中采用焦点丢失功能来克服类不平衡和我们的任务中容易/困难的例子挑战。

如2.1节所述，最终的特征图是原始图像的1/16。因此，特征图中的每个像素对应于16times;16像素的区域。为了生成候选建议，以特征图中的每个像素为中心，在3个不同区域（302，502，702）中有9个锚点在原始输入图像上生成3种不同的比例（1：1,2：1和1：2）。根据具有基本事实的联盟交叉（IoU），每个锚被标记为正或负样本。IoU正式定义为：

IoU =，其中分子是候选人盒子和地面真相盒的重叠区域，分母代表它们的结合。IoU大于0.7的提议被标记为正样本，IoU小于0.1被标记为阴性样品。其他提案被废弃。超出图像边界的所有提议也被丢弃。在训练期间，每个小批量包括64个阳性样品和64个阴性样品。

使用局部损失训练RPN的损失函数定义为：

其中LCLS-F l 是分类的焦点损失，如公式1所定义。（1）和L规则是边界框回归的损失。

pi 是提议i属于前景的预测概率，plowast;i是其基础事实标签。Nal1 表示样本总数，N规则表示总数它的样本。lambda;用于加权边界框回归的损失。L规则采用平滑L1 损失函数如[12]中所述。t =（tx，ty，tw，th）是正样本边界框的归一化信息，tlowast; 是其基本事实。

RPN层输出一组候选者，这些候选者可能是感兴趣的对象，即该工作中的车辆，并且预测了边界框。然后，这些边界框所覆盖的要素将从要素图中裁剪出来，并通过感兴趣区域（ROI）池图层来修复要素的大小。

最后，最终的分类器子网被提供这些功能并对其标签进行分类，并进一步预测其边界框。每个候选者的分类器子网的丢失函数正式定义为：

Lclassif（P，T）= Lcls-FL（P，P lowast;） lambda;2P lowast;Lreg（T，T lowast;）

其中T定义为：

Tx = (Px minus; Ax)/Aw, Ty =（Py -Ay）/ Ah，Tw = log（Pw/ Aw）， Th = log(Ph/Ah),

Txlowast; = (Pxlowast; minus; Ax)/Aw, Tylowast; = (Pylowast; minus; Ay)/Ah, Twlowast;= log(Pwlowast;/Aw), Thlowast;= log(Phlowast;/Ah),

Px，Ax 和Pxlowast;表示预测结果，锚点和地面实况的边界框。y，w和h的其他下标与x相同。我们将lambda;2 = 1设置为等于影响分类和边界框预测。在训练期间，分类器子网使用比例为1：3的正负样本进行训练，与传统训练策略相同[12]。

3. itcvd数据集

在本节中，我们将介绍新的大规模，注释良好且具有挑战性的ITCVD数据集。这些照片是从飞机平台上拍摄的，该平台飞越荷兰恩斯赫德，高出地面330米 3。在最低点视图和倾斜视图中拍摄图像倾斜视图的倾斜角度是45度。最低点图像的地面采样距离（GSD）为10厘米。

原始数据集包含228个航拍图像，具有JPG格式的高分辨率5616 3744像素。因为图像是以较小的时间间隔连续拍摄的，所以大约有。连续图像之间重叠60％。重要的是要确保用于训练的图像与用于测试的图像没有共同的区域。经过仔细的手动选择和验证，173张图像保持在其中135张图像与23543辆车辆用于训练，其余38张图像用5545辆车辆进行测试。使用边界框手动注释数据集中的每个车辆，边界框表示为(x,y,w,h),其中(x,y)是框上的左上角的坐标，以及(w,h)分别是盒子的宽度和高度。

4. 实验

4.1. 数据集和实验设置

我们在ITCVD数据集中评估我们的方法。为了保存GPU内存，数据集中的每个原始图像均匀地裁剪成小块。生成的新图像块的大小为674times;752像素。注释的坐标信息也在新裁剪的补丁中更新。深度学习模型在Keras中使用TensorFlow后端实现。ResNet-50网络[17]被用作主干CNN结构，用于更快的R-CNN [12]和我们的模型的特征学习。我们使用0.00001的学习率来训练RPN。CNN结构在ImageNet数据集[14]上进行了预训练。

为了评估实验结果，使用了召回/精确率和F 1分数的度量，其正式定义为：召回率（RR）=，精确率（PR）=，F1-score=，其中TP，FN，FP表示分别是真阳性，假阴性和假阳性。此外，还分别评估了IoU和RR，PR之间的关系。

4.2.ITCVD数据集的结果

最先进的物体探测器Faster R-CNN [12]用于提供强大的基线。此外，传统的HOG SVM方法[22]作为弱点提供基线。图4描绘了在ITCVD数据集中具有不同IoU的召回率与DFL-CNN，更快R-CNN和HOG SVM算法的精确率之间的关系。很明显，基于CNN的方法（绿色曲线中的DFL-CNN和红色曲线中的快速R-CNN）明显优于传统方法（黑色曲线中的HOG SVM）。在召回和精确度之间的关系中，我们的DFL-CNN方法也比快速R-CNN表现更好。根据这些关系曲线，IoU = 0.3是以下实验设置的良好平衡点，它同时报告高召回率和精确度。注意，

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[18389]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

航空影像中车辆检测的深度学习外文翻译资料

您可能感兴趣的文章

登录

您可能感兴趣的文章