目标检测20年—综述外文翻译资料

 2022-08-12 03:08

英语原文共 39 页,剩余内容已隐藏,支付完成后下载完整资料


论文翻译:目标检测20年—综述

本文是一篇讨论目标检测近20年来发展的综述性论文,论文原文已上传至Arxiv上,发表于2019年,第一作者来自美国密歇根大学。

注:由于本文篇幅较长,且涉及领域很广。本人仅对大部分熟悉的研究领域进行翻译,还有少部分不熟悉的领域翻译从略!

摘要

目标检测是计算机视觉中一项基础且具有挑战性的工作,近些年来受到广泛关注。目标检测技术在过去20年的进展可以看做是计算机视觉发展的一个缩影。如果我们把今天的物体检测看作是深度学习力量下的技术美学,那么回到20年前,我们将见证冷战时代的智慧。本文引用了400多篇目标检测中具有亮点的文献、文献间隔跨越25年。本论涉及了很多主题,包括具有里程碑意义的检测器,检测数据集,度量,检测系统的基本构件,加速技术以及最新的技术水平。本文同样回顾了一些重要的目标检测应用,比如行人检测、人脸检测、文字检测等,同时深入分析他们面临的挑战以及近些年来的进展。

关键词—目标检测,计算机视觉,深度学习,卷积神经网络,技术革命

  1. 引言

目标检测是用于检测数字图像可视对象中具有确定类别的实例,如人、动物或车辆,目标检测是计算机视觉任务中一项重要的技术。目标检测的目标是研发可计算的模型和技术,提供计算机视觉应用程序所需的最基本的信息之一:对象在哪里?

作为计算机视觉中一项基本任务,目标检测也成为了其他许多计算机视觉任务的基础,入营实例分割、视觉问答、目标跟踪等。从应用的角度来看,目标检测研究可以被分为两大主题:通用目标检测以及特定的检测应用。前者主要提出在统一的框架下检测不同类型物体的方法,以模拟人类的视觉和认知。而后者则关注特定的应用场景,如行人检测、人脸检测、文本检测等。近些年来深度学习技术的飞速发展给目标检测带来了新鲜血液,取得了空前的突破,同时也将目标检测推向研究热点。现在,目标检测已广泛应用于现实生活中的场景中,如自动驾驶、机器视觉、视频监控等。图1展示了与目标检测相关的论文在近20年来的快速增长。

图1 目标检测相关论文与出版物仅20年的增长

不同于其他综述的特点

近几年来,有许多检测相关的综述发表,本文与这些综述的额区别主要在于:

  1. 本文全面的回顾了那些具有重要意义的技术变革:本文引用超过400篇近25年来的论文。以前的大多数综述仅仅关注一个短的历史时期或者一些特定的检测任务,而没有考虑它们整个生命周期内的技术演进。站在整个历史的最高点去关注该领域的发展不仅帮助我们构建整个知识架构,也帮助我们去寻找这个快速发展的领域中未来的研究方向。
  2. 本文深入的挖掘近些年来检测的关键技术和最新的发展水平:当前一些最优的目标检测技术融合了许多技术,包括:多尺度检测、难样本挖掘、边框回归等,之前的许多综述缺少告诉读者如何去理解这些复杂的技术,比如:这种技术从何而来,有会如何发展?这些方法的优缺点各自是什么?本文将深入去帮助读者解决这些困惑。
  3. 本文全面的介绍了目标检测的加速技术:如何提升检测速度已经成为一个重要且具有挑战的额问题,本文从多个层面给出了近20年来目标检测的加速方法,包括从检测流程角度(如级联检测、特征图共享)、检测骨干网络角度(网络压缩、轻量化设计)以及数值计算复杂性角度(如积分图像、矢量量化等),这些主题很少出现在其他综述中。
  4. 目标检测的困难与挑战:人们经常会问:目标检测的困难与挑战是什么?这个问题很难去回答,并且难以去概括。由于不同的探测任务具有完全不同的目标和约束,因此它们的困难程度可能会有所不同。除了在其他计算机视觉任务中常见的挑战,如不同视角下的物体、光照、类内变化等,物体检测的挑战包括但不限于以下几个方面: 对象旋转和尺度变化(如小物体),精确的对象定位,密集和闭塞的对象检测,加速检测等。在第4节和第5节中,我们将对这些主题进行更详细的分析。

本文的其余部分组织如下:第2节回顾了近20年来物体检测的发展历史。第3节将介绍一些加速目标检测的技术。第4节介绍一些最新三年的检测技术。一些重要的检测应用将在第5节中进行介绍。第6节对本文进行了总结,并对进一步的研究方向进行了分析

  1. 目标检测20年

2.1 目标检测路线图

在过去的二十年中,人们普遍认为,物体检测的发展一般经历了两个历史时期:“传统的物体检测时期”(2014年以前)和基于深度学习的检测期(2014年以后)”,如下图所示。

如果我们把今天的物体检测看作是深度学习下的一种技术美学,那么回到20年前,我们将见证“冷兵器时代的智慧”。早期的目标检测算法大多是基于手工特征构建的。由于当时缺乏有效的图像表示,人们别无选择,只能设计复杂的特征表示,并使用各种加速技术来耗尽有限的计算资源。

Viola Jones检测器:18年前,P. Viola和M. Jones首次实现了不受任何约束的人脸实时检测(如肤色分割)。在700MHz的奔腾III CPU上运行,在同等的检测精度下,检测器的速度是其他算法的数十倍甚至数百倍。这种检测算法后来被称为“Viola-Jones”(VJ)检测器”,在此由作者的名字命名,以纪念他们的重大贡献。

VJ检测器采用最直接的检测方法,即滑动窗口:查看图像中所有可能的位置和比例,以查看是否有包含人脸的窗口。虽然这似乎是一个非常简单的过程,但其背后的计算远远超出了当时计算机的能力。VJ检测器结合了“整体图像”、“特征选择”和“检测级联”三个重要的技术,极大地提高了检测速度。

积分图像:积分图像是一种加速box滤波或卷积过程的计算方法。与当时的其他目标检测算法一样,Haar小波被用于VJ检测器作为图像的特征表示。积分图像使得VJ检测器中每个窗口的计算复杂度与窗口大小无关。

特征选择:作者使用Adaboost算法从一组巨大的随机特征池(约180k维)中选择了一小部分对人脸检测最有帮助的特征,而不是使用一组手动选择的Haar基过滤器。

检测级联:多级检测范式。(又称“检测级联”)被引入到VJ检测器中,通过减少对背景窗口的计算,而将更多的计算用于人脸目标,从而减少了计算开销。

方向梯度直方图(Histogram of Oriented gradient, HOG)特征描述符最初是由N. Dalal和B.在2005年提出的。HOG可以被认为是对其当时尺度不变特征变换和形状上下文的重要改进。为了平衡特征不变性(包括平移、比例、光照等)和非线性(区分不同的对象类别),HOG描述符被设计成在密集的均匀间隔单元网格上计算,并使用重叠的局部对比规格化(在“块”上)来提高准确性。

虽然HOG可以用于检测各种对象类,但它的主要动机是行人检测问题。要检测不同大小的对象,则HOG检测器在保持检测窗口大小不变的情况下,对输入图像进行多次重调。多年来,HOG检测器一直是许多对象检测器和各种计算机视觉应用的重要基础。

基于可变形部件的模型(DPM):DPM作为voco -07、-08、-09检测挑战的优胜者,是传统对象检测方法的巅峰。DPM最初是由P. Felzenszwalb提出的在2008年作为HOG检测器的扩展,然后Girshick做了各种各样的改进。DPM遵循“分而治之”的检测思想,训练可以简单地看作是对分解对象的正确方法的学习,推理可以看作是对不同对象部件的检测的集合。例如,检测“汽车”的问题可以看作是检测它的窗口、车身和车轮。这部分工作,也就是“star-model”由P. Felzenszwalb等人完成。后来,R. Girshick进一步将star模型扩展到“混合模型”来处理in中的对象。

2.1.2 基于CNN的两阶段检测器

随着手工特征的性能趋于饱和,目标检测在2010年之后进入了一个平稳期。Girshick说:“在2010年至2012年期间,进展缓慢,通过构建集成系统和使用成功方法的小型变体获得了少量收获“。通过构建集成系统和使用成功方法的小变体,可以获得较小的收益。2012年,卷积神经网络在世界范围内重生。由于深卷积网络能够学习图像的鲁棒性和高水平的特征表示,一个自然的问题是我们能否将其应用到目标检测中。R. Girshick等人在2014年率先打破僵局,提出了具有CNN特征的区域(RCNN)用于目标检测。从那时起,目标检测开始以前所未有的速度发展。在深度学习时代,对象检测可以分为两类:“两阶段检测”和“一阶段检测”,前者将检测构建为“粗到精”的过程,而后者将检测构建为“一步完成”的过程。

RCNN: RCNN背后的思想很简单:它首先通过选择性搜索提取一组对象建议(对象候选框)。然后,将每个提案重新调整为固定大小的图像,并将其输入一个经过训练的CNN模型中如AlexNet来提取特性。最后,使用线性支持向量机分类器来预测每个区域内是否存在一个对象,并识别对象类别。RCNN在VOC07上产生了显著的性能提升,平均平均精度(mAP)从33.7% (DPM-v5[43])大幅提高到58.5%。虽然RCNN已经取得了很大的进步,但它的缺点也很明显:在大量的重叠建议上进行冗余的特征计算(一张图像超过2000个盒子)导致检测速度极慢(GPU每幅图像14秒)。同年晚些时候,SPPNet的提出克服了这个问题。

SPP-Net:2014年,K. He等人提出了空间金字塔池网络(SPPNet)。以前的CNN模型需要一个固定大小的输入,例如,AlexNet需要一个224x224图像。SPPNet的主要贡献是引入了空间金字塔池(SPP)层,它使CNN能够生成一个固定长度的表示,无论图像/感兴趣区域的大小,而不需要重新缩放它。利用SPPNet进行目标检测时,只对整个图像计算一次特征映射,然后生成任意区域的定长表示来训练检测器,避免了对卷积特征的重复计算。SPPNet的速度是R-CNN的20多倍,而且没有牺牲任何检测精度(VOC07 mAP=59.2%)。虽然SPPNet有效地提高了检测速度,但是仍然存在一些不足:第一,训练仍然是多阶段的,第二,SPPNet只是对其全连通层进行微调,而忽略了之前的所有层。次年晚些时候,Fast RCNN被提出并解决了这些问题。

Fast RCNN: R. Girshick在2015年提出了Fast RCNN检测器,这是对R-CNN和SPPNet的进一步改进。Fast RCNN使我们能够在相同的网络配置下同时训练检测器和包围盒回归器。在VOC07数据集上,Fast RCNN将mAP从58.5% (RCNN)提高到70.0%,检测速度是R-CNN的200多倍。虽然Fast-RCNN成功地融合了R-CNN和SPPNet的优点,但其检测速度仍然受到提案检测的限制(详见2.3.2节)。然后,一个问题自然地出现了:“我们能用CNN模型生成对象建议吗?”稍后,Faster R-CNN已经回答了这个问题。

Faster RCNN:2015年,Ren等人紧接着提出Faster RCNN检测器,Faster RCNN是第一个端到端接近实时的检测器。Faster RCNN的主要贡献在于其提出的可以提供候选区域的RPN网络。从RCNN到Faster RCNN,一个目标检测系统的大多数模块,如候选检测、特征提取、边框回归等,逐渐被整合到了一个联合的、端到端的学习框架中。尽管Faster RCNN打破了速度方面的瓶颈,但后续的检测阶段仍存在计算冗余。后续许多针对这些缺点的方法被提出,如R-FCN以及Light head RCNN。

FPN网络:2017年,T.Y. Lin等人提出了基于Faster RCNN的FPN网络,在FPN网络提出之前,大多数基于深度学习的检测方法只对网络的最后一层特征图进行运算,尽管这样做有助于使用CNN进行分类识别,单着无益于定位对象。为了达到这个目标,FPN提出了一种具有横向连接的自顶向下体系结构用于在所有级别构建高级语义。在CNN进行前向传播时经过特征金字塔结构,故FPN可以针对很多不同的尺寸的物体进行检测。使用FPN作为Faster RCNN的骨干网络,可以达到在微软COCO数据集上maP=59.1%的平均准确率。FPN也成为许多检测器的基础模块。

      1. 里程碑:基于CNN的单阶段检测器

YOLO:2015年,R.Joseph等人提出YOLO,这是进入深度学习以来的首个单阶段检测器。YOLO非常快,最快的YOLO版本在VOC2007上可以达到52.7%map并且达到155fps。而强化版的YOLO则在VOC2007上达到63.4%map以及45fps。YOLO是You Only Look Once的缩写。从他的字面意思即可看出,YOLO彻底抛弃了以前候选框检测 认证的检测模式,取而代之的是,他遵循这样一个道理:将单个神经网络应用与整张图像,该网络将图像分成区域,并同时预测每个区域的边界框和概率,后来R. Joseph在YOLO的基础上做了一系列的改进,提出了v2和v3版本。尽管它的探测速度有了很大的提高,但与两级探测器相比,YOLO的定位精度有所下降,特别是对于一些小物体。YOLO的后续版本和后面提出的SSD更关注这个问题。

SSD是由W. Liu等人在2015年提出的。这是深度学习时代的第二个单级探测器。SSD的主要贡献是引入了多尺度和多分辨率检测技术(将在2.3.2节中介绍),这极大地提高了单级探测器的检测精度,特别是对于一些小的物体。SSD在检测速度和准确度上都有优势(VOC07 mAP=76.8%, VOC12 mAP=74.9%,COCO mAP@ 5=46.5%,

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[236814],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。