只看一次：统一的实时对象检测外文翻译资料-外文翻译网

英语原文共 10 页，剩余内容已隐藏，支付完成后下载完整资料

只看一次：统一的实时对象检测

Joseph Redmonlowast;，Santosh Divvalalowast;dagger;，Ross Girshick，Ali Farhadilowast;dagger;University of Washingtonlowast;，Allen Institute for AIdagger;，FacebookAI Research http://pjreddie.com/yolo/

摘要

我们介绍了Yolo，这是一种新的对象检测方法。之前的物体检测工作是使分类器来执行检测工作。相反，我们将对象检测作为回归问题来空间分离边界框和相关联的类概率。单个神经网络在一次评估中直接从完整图像中预测边界框和类概率。因为整个检测管道是一个单一的网络，它可以直接根据检测性能对端到端进行优化。

我们的统一架构非常快。我们的基本YOLO模型以每秒45帧的速度实时处理图像.一个较小的网络版本，FastYOLO，每秒处理令人震惊的155帧，同时仍然达到其他实时检测器的两倍。与现有的检测系统相比，Yolo产生更多的定位误差，但不太可能预测背景上的假阳性。最后，YOLO学习对象的一般表示。当从自然图像推广到其他领域例如工艺品时，它的性能超过了其他的检测方法包括DPM和R-CNN。

介绍

人类扫视了一个图像，并立即知道图像中哪些对象是什么对象，以及它们是如何交互的。人类的视觉系统是快速和准确的，使我们能够执行复杂的任务，如驾驶时，很少有意识的想法。快速、精确的用于对象检测的算法将允许计算机没有专门的传感器来驱动汽车,使得辅助设备能够向人类用户传送实时场景信息,并且为实现普通目的和应答性机器系统提供了可能。

当前的检测系统重新使用分类器来执行检测。为了检测对象，这些系统为该对象提取一个分类器，并在测试图像中的不同位置和尺度上对其进行评估。像变形部件模型(DPM)这样的系统使用滑动窗口方法，其中分类器在整个图像上的等距位置运行[10]。

更近的方法就像R-CNN用区域协议的方法首先在图像中生成潜在的边界框，然后在这些建议的框上运行分类器。分类后，后处理用于细化边界框，消除重复检测，并基于场景[13]中的其他对象重新选择框。这些复杂的管线优化速度慢，难度大，因为每个单独的组件都必须单独进行培训。

我们将对象检测重新定义为单个回归问题，从图像像素到边界框坐标和类概率。使用我们的系统，您只在图像上查看一次(YLOO)预测存在什么对象以及它们在哪里。

YOLO是令人耳目一新的简单（看图一）：单个卷积网络同时预测这些边框的多个包围边框和类概率。Yolo在全图像上进行训练，并直接优化检测性能。这种统一模型对传统的对象检测方法有若干好处。

图1.YOLO1检测系统。使用YOLO处理图像简单明了，我们的系统(1)将输入图像调整为448times;448，(2)在图像上运行一个单卷积网络，(3)根据模型的置信度对结果进行阈值化检测。

首先YOLO非常快。因为我们把检测作为一个回归问题，所以我们不需要复杂的管道，我们只需在测试时在新图像上运行我们的神经网络来预测检测结果。我们的基本网络以每秒45帧的速度在泰坦X gpu上没有批处理运行，并且快速版本的运行速度超过150 fps。这意味着我们可以在少于25毫秒的延迟时间内实时处理流视频。此外，YOLO的平均精度是其他实时系统的两倍以上。有关我们的系统在网络摄像头上实时运行的演示，请参阅我们的项目网页：http://pjreddie.com/yolo/

其次，YOLO在做出预测时对整幅图片进行解释。与滑动窗口和基于区域提案的技术不同，yolo在培训和测试期间看到了整个图像。因此，它隐式地编码有关类的上下文信息以及它们的外观。快速R-CNN，一种顶级检测方法[14]，错误的背景补丁在图像中的对象，因为它看不到更大的上下文。与快速R-CNN相比，YOLO的背景错误数量不到一半。

YOLO学习对象的通用表示。在对自然图像进行训练并在艺术品上进行测试时，YOLO的性能远远超过DPM和R-CNN这样的顶级检测方法。由于yolo是高度通用的，所以当应用于新域或意外输入时，不太可能发生故障。

YOLO在准确性方面仍然落后于最先进的检测系统。虽然它可以快速识别图像中的对象，但它很难精确地定位某些对象，特别是小对象。我们在实验中进一步研究了这些权衡。

我们所有的培训和测试代码都是开源的。此外，我们亦提供多种预先训练过的型号供下载。

统一检测

我们将目标检测的各个部分统一为一个单一的神经网络。我们的网络利用整个图像中的特征来预测每个边框。它还可以同时预测图像跨所有类的所有边界框。这意味着我们的网络在全部范围内对整个图像和图像中的所有对象进行推理。YOLO设计支持端到端的训练和实时速度，同时保持较高的平均精度。

该系统将输入图像划分为Stimes;S网格。如果对象的中心落入网格单元，则该网格单元负责检测该对象。

每个网格单元格预测B个包围框和这些框的置信度分数。这些置信度分数反映了模型对边框包含一个物体的概率，也反映了它认为边框所预测的准确程度。形式上，我们将置信度定义为PR(Object)lowast;IOUtrue pred。如果该单元格中不存在对象，则置信度分数应为零。否则，我们希望置信度分数等于预测框和地面真实值之间的交集。

每个边界框包括5个预测：X，y，w，h和置信度。(x，y)坐标表示盒、框的中心相对于网格单元格的边界。宽度和高度是相对于整个图像进行预测的。最后，置信度预测表示预测框与任何地面真实框之间的IOU。

每个网格单元还预测C条件类概率Pr(Classi\Object)。这些概率取决于包含对象的网格单元。我们在一个单元格中只预测一类概率（不管方框B的数目）。

在测试时，我们将条件类概率和单个框置信度预测相乘，这给了我们每个框特定类别的置信度。这些分数既编码了该类出现在框中的概率，也表示了预测的框对象的适合程度。

对于Pascal VOC上的YOLO，我们使用S=7，B=2。PascalVOC有20个标签类，所以C=20。我们的最终预测是一个7times;7times;30张量。

图2.模型。我们的系统将检测建模为一个回归问题。它将图像划分为一个Stimes;S网格，每个网格单元预测B包围框、这些框的置信度和C类概率。这些预测被编码为

S times; S times;(B lowast; 5 C)个张量

1. 网络设计

我们将该模型实现为一个卷积神经网络，并在Pascal VOC检测数据集上进行了评估[9]。网络的初始卷积层从图像中提取特征，而完全连通层预测输出概率和坐标。

我们的网络体系结构是受用于图像分类的Google网模型的启发[33]。我们的网络有24个卷积层，其次是2个完全连接的层。与Google网使用的初始模块不同，我们只使用1times;1的还原层，然后是3times;3的卷积层，类似于LIN[22]。完整的网络如图3所示。

我们还训练了一个快速版本的YOLO，旨在推进快速目标检测的边界。FAST YOLO使用的神经网络具有较少的卷积层(9层而不是24层)并且这些层中的更少的过滤器。除了网络的大小之外，YOLO和FastYOLO之间的所有训练和测试参数都是相同的。

我们网络的最终输出是预测的7times;7times;30张量。

图3.工艺。我们的检测网络有24个卷积层，其次是2个全连接层。交替1times;1卷积层减少了前一层的特征空间。我们对ImageNet分类任务中的卷积层进行预处理，将分辨率减半(224times;224输入图像)，然后将分辨率提高一倍进行检测。

2.2训练

我们在ImageNet 1000级竞争数据集上对我们的卷积层进行了预训练[29]。对于预训练，我们使用图3中的前20个卷积层，然后是一个平均池化层和一个全连接层。我们对这个网络进行了大约一周的训练，并在ImageNet 2012验证集上实现了88%的单一作物前5精度，与Caffelsquo;s Model Zoo中的Google LeNet模型相当[24]。

然后，我们将模型转换为执行检测。勒内等人说明在预先训练的网络中增加卷积层和连接层可以提高性能[28]。根据它们的例子，我们添加了四个卷积层和两个具有随机初始化权值的完全连通层。.检测通常需要细粒度的视觉信息，因此我们将网络的输入分辨率从224 times; 224个增加到448times;448。

我们的最后一层预测了类概率和边界框坐标。我们用图像的宽度和高度来规范边框的宽度和高度，使它们在0和1之间下降。我们将包围盒x和y坐标参数化为特定网格单元位置的偏移，因此它们也在0和1之间有界。对于最终层，我们使用线性激活函数，所有其他层使用以下漏极线性激活函数：

我们对模型输出的和平方误差进行了优化。我们使用和平方误差，因为它很容易优化，但是它并不完全符合我们最大限度地提高平均精度的目标。它对定位误差和分类误差的权重相等，这可能是不理想的。而且，在每个图像中，许多网格单元格不包含任何对象。这将这些单元格的“置信度”分数推至零，通常会超过含有物体的单元格的梯度。这会导致模型不稳定，导致早期的训练出现分歧。

为了弥补这一点，我们增加了包围框坐标预测的损失，并减少了对不包含对象的框的置信度预测所造成的损失。。我们使用两个参数，lambda;Coord和lambda;noobj来完成这一任务。我们设置了lambda;coord=5和lambda;noobj=5。

平方和误差同样在大框和小框中同样地加权误差。我们的误差度量应该反映大检测框中的小偏差小于小的检测框。为了部分解决这个问题，我们预测边框宽度和高度的平方根，而不是直接预测宽度和高度。

Yolo预测每个网格单元的多个边界框。在训练时，我们只需要一个边框预测器负责每个对象。我们指定一个预测器“负责”预测一个对象，根据哪一个对象的预测与背景真值具有最大的即时IOU。这导致了边框预测器之间的专业化。每个预测器都能更好地预测特定大小、纵横比或对象类别，从而提高总体回忆能力。

在训练过程中，我们优化了以下多部分损失函数：

✶obj i表示对象是否出现在单元格i中，✶obj ij表示单元格i中的jth边界框预测器对该预测“负责”。

请注意，损失函数只惩罚网格单元中存在对象的分类错误(因此，前面讨论过的条件类概率)。。它也只惩罚边界框坐标误差，如果预测器是“负责”的地面真相框(即有最高的网格单元中任何预测因子的IOU)。

我们用PASCAL VOC 2007和PASCAL VOC2012的训练和验证数据集对网络进行了135期的培训，在2012年的测试中，我们还引入了VOC 2007训练测试数据。在整个训练过程中，我们使用批处理大小为64，动量为0.9，衰减为0.0005。

我们的学习速率计划如下：对于第一个时代，我们缓慢地将学习速度从10minus;3提高到10minus;2。如果我们以较高的学习速度开始，我们的模型经常会因为不稳定的梯度而发散。我们用10minus;2继续训练75次，然后用10minus;3训练30次，最后用10minus;4训练30次。

为了避免过度拟合，我们使用梯度下降和广泛的数据增强。在第一连接层之后，速率=5的脱落层阻止了层间的协同适应[18]。用于数据增强我们引入了高达原始图像尺寸的至多20％的随机缩放和平移。我们还随机地将图像的曝光和饱和度调整到HSV颜色空间中的1.5倍。

2.3推理

就像在训练中一样，对测试图像的预测检测只需要一个网络评估。在PascalVOC上，网络预测每幅图像的98个边界框和每个框的类概率。与基于分类器的方法不同，yolo在测试时非常快，因为它只需要一个网络评估。

网格设计在边界框预测中加强了空间多样性。通常情况下，一个对象落在哪个网格单元格中是很清楚的，而网络只对每个对象预测一个框。然而，一些大型物体或物体附近多个单元可以很好地定位多个单元的边界。非最大抑制可以用来修复这些多重检测。虽然对于R-cnn或dpm的性能不重要，但非最大抑制在MAP中增加了2-3%。

2.4.YOLO的局限性

YOLO对边界框的预测施加了很强的空间约束，因为每个网格单元只能预测两个框，只能有一个类。这个空间约束限制了我们的模型可以预测的附近物体的数量。我们的模型很难检测到成群出现的小物体如成群的鸟类。

由于我们的模型学会了从数据中预测边框，所以它很难推广到新的或不寻常的纵横比或配置中的对象。我们的模型还使用了相对粗糙的特性预测边界框，因为我们的架构有来自输入图像的多个下采样层。

最后，当我们训练一个近似检测性能的损失函数时，我们的损失函数对小检测框和大检测框的错误处理是一样的。一个大检测框中的一个小错误RGE盒通常是良性的，但是小盒子中的一个小错误对IOU的影响要大得多。我们错误的主要来源是不正确的本地化。

与其他检测系统的比较

目标检测是计算机视觉的核心问题。检测管道通常从输入图像中提取一组鲁棒特征(Haar[25]，SIFT[23]，HOG[4]，卷积特征[6])。然后，使用分类器[35，21，13，10]或定位器[1，31]来识别特征空间中的对象。这些分类器或定位器在整个图像上以滑动窗口的方式运行，或者在图像中的某些区域子集上运行[34，15，38]。我们将YOLO检测系统与几个顶级检测框架进行了比较，突出了关键的相似之处和不同点。

可变形零件模型。变形部件模型(DPM)使用滑动窗口方法检测目标[10]。DPM使用一

全文共10580字，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[633]

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

只看一次：统一的实时对象检测外文翻译资料

您可能感兴趣的文章

登录

您可能感兴趣的文章