自然场景下交通标志的识别和分类外文翻译资料

 2021-12-15 10:12

英语原文共 9 页

自然场景下交通标志的识别和分类

Zhe Zhu ·Dun Liang
· Songhai Zhang · Xiaolei Huang · Baoli Li · Shimin Hu

(TNList, Tsinghua University Beijing, China)

摘要:虽然在交通标志检测和分类方面已经取得了可喜的成果,但很少有研究能够同时解决这两个问题。我们对这个问题有两个贡献。首先,我们从10万张腾讯街景全景图中创建了一个大型的交通标志基准,超过了之前的基准。它提供了包含30000个交通标志实例的 100000个图像。这些图像涵盖了照度和天气条件的巨大变化。基准测试中的每个交通标志 都用一个类标签、其包围框和像素掩码进行注释。我们把这个基准称为Tsinghua-Tencent 100K。其次,我们演示了一个鲁棒的端到端卷积神经网络(CNN)如何能够同时检测和分类交通标志。大多数以前的CNN图像处理解决方案针对的是占据图像很大比例的对象,而这样的网络不能很好地处理只占图像一小部分的目标对象,比如这里的交通标志。实验结果表明,该网络具有较强的鲁棒性和较强的可选性。本文介绍的基准测试、源代码和CNN模型是公开可用的[1]

1.引言

场景理解是计算机视觉的终极目标;对场景中不同大小的物体进行检测和分类是一项重要的子任务。近年来,深度学习方法在图像分类和语音识别等方面表现出了优异的性能。卷积神经网络(CNNs)是深度神经网络的一种特殊变体,它在图像分类、定位和解译等方面显示出了自己的优势。两种广泛用于评价检测性能的基准是PASCAL VOC[7]和ImageNet ILSVRC[20]。在这些数据集中,目标对象通常占据每个图像的很大一部分(每个感兴趣的对象的边框平均占图像的20%左右)。然而,对于某些任务,感兴趣的对象可能只占用图像的一小部分,例如在开车时捕捉的图像中的交通标志。一个典型的交通标志可能是80times;80像素,在一个2000times;2000像素的图像,或只有0.2%的图像。事实上,许多任务都需要对小而重要的对象进行分类和描述,因此设计和评估这类在感兴趣的对象不是主要的,甚至不是主要的场景项时检测性能良好的方法是很重要的。

交通标志按功能可分为不同的类别,每一类又可分为形状和外观相似但细节不同的子类。这表明交通标志识别应分为检测和分类两阶段。检测步骤使用共享信息来建议在特定类别中可能包含交通标志的边界框,而分类步骤使用差异来确定存在哪种特定类型的标志(如果存在的话)。(我们注意到,“检测”和“分类”这两个词在一般的对象识别社区中有不同的含义,例如ImageNet竞赛表明,分类意味着给图像一个标签而不是一个对象,而检测意味着在特定类别中找到一个对象的边界框。)

自德国交通标志检测与分类基准数据发布以来[24,25],各研究小组在检测基准(GTSDB)[25]任务和分类基准(GTSRB)[24]任务方面都取得了一定的进展。目前的方法对这两种任务都能达到完美或接近完美的结果,检测的查全率和精密度为100%,分类的精密度为99.67%。虽然看起来这些问题已经解决了,但不幸的是,这个基准数据并不能代表实际任务中遇到的问题。在GTSDB检测基准任务中,算法只能检测四大类中的一种交通标志。在GTSRB分类基准中,交通标志占据了图像的大部分,算法只需要确定交通标志属于哪个子类;此外;没有消极样本干扰分类。在现实世界的任务中,检测和分类普通图像中的交通标志的主要困难是它们非常小,通常不到图像的1%。潜在的候选区域比PASCAL VOC和ImageNet ILSVRC小几个数量级。此外,该算法必须过滤掉许多潜在的负面情况,同时保留真实的交通标志。因此,我们创建了一个新的,更现实的基准,并使用它来评估一个结合CNN的交通标志检测和分类方法。

本文的贡献如下。

我们创造了一个新的,更现实的交通标志基准。与广泛使用的测试基准GTSDB相比,我们的测试包含了111倍的图像,是图像分辨率的32倍。基准中的交通标志涵盖真实世界的情况,在光照和天气条件等方面有很大的变化,还包括遮挡的例子。与之前的基准测试不同,我们的基准测试使用每个交通标志的像素掩码进行注释,并给出其边界框和类。我们把这个基准称为Tsinghua-Tencent 100K。

我们训练了两个神经网络来检测交通标志,同时检测和分类交通标志。对基准的评估表明了两种网络的鲁棒性。

论文的其余部分安排如下:第二部分介绍研究现状。第三部分介绍基准测试的细节。第四部分介绍我们的网络架构。第五部分给出了实验结果,第六部分得出了结论。

2.研究现状

2.1.交通标志的分类

在卷积神经网络得到广泛应用之前,已有多种基于SVMs[18]和稀疏表示[17]的目标检测方法被用于交通标志分类。最近,在GTSRB基准测试中,卷积神经网络方法表现得比这种简单分类器更好。这些方法包括采用神经网络代表[4]、多尺度神经网络[22]和具有损耗函数的神经网络[14],后者的精度达到99.65%,优于人类性能[25]。然而,如前所述,这些方法对已经检测到的信号执行分类,这在实际应用中是不切实际的。

2.2.利用CNNs进行目标检测

在CNNs最初因用于图像分类而重新激起人们的兴趣之后[15],它们很快就适应了对象检测。在OverFeat中[21],Sermanet等人观察到,当以滑动窗口方式使用卷积网络时,其固有的效率是很高的,因为许多计算可以在重叠区域重用。他们演示了一个网络,可以确定一个对象的边界框及其类标签。

另一种广泛使用的利用CNNs进行目标检测的策略是,首先计算一些通用的目标建议,然后只对这些候选对象进行分类。R-CNN[8]是第一个使用这种策略的,但是由于两个原因,它的速度很慢。首先,生成与类别无关对象的提案成本过高,Pascal VOC 2007图像的选择搜寻[29]约需3秒,便可产生1000个提案;更有效的EdgeBoxes方法[30]仍然需要0.3秒。其次,它对每一个候选方案都采用了深度卷积网络,这是非常低效的。

为了提高效率,空间金字塔汇聚网络(SPP-Net)[10]对整个图像计算卷积特征图,并从共享特征图中提取每个目标提案的特征向量。这使得R-CNN的速度提高了约100倍。

Girshick等人后来提出了快速R-CNN[9],它使用网络上方的softmax层来代替R-CNN中使用的SVM分类器。忽略对象建议时间,Fast R-CNN处理每张图像需要0.3 s。为了克服对象提议步骤的瓶颈,在Faster R-CNN中[19],Ren等人提出了使用卷积特征映射生成对象提议的区域提案网络(RPNs)。这允许对象提案生成器与检测网络共享全图像卷积特性,允许它们的检测系统在功能强大的GPU上实现5帧速率。

然而这些作品通过人工确定目标提案,Szegedy等人[27]对数据驱动的提案生成方法进行了改进[6],并对网络架构进行了改进,使测试帧率达到50 fps,具有较好的检测性能。

然而,所有这些目标检测网络的性能都是在PASCAL VOC和ILSVRC上进行评估的,其中目标对象占图像的很大比例。

3.基准

现在我们解释我们的新基准测试:我们在哪里获得数据,我们如何注释它,以及它最终包含什么。

3.1.数据收集

当对通用图像数据集ImageNet[5]和微软COCO[16]等已经被下载生成的网络图像检索的搜索引擎使用关键字时,相对较少的网民会上传能够在街上被看到的包含交通标志的现实图像。即使当他们这样做,交通标志也是偶然出现的:这些图片将不会被标记他们所包含的任何标志的名字。这里不能使用这种方法。此外,为了模拟真实世界的应用场景,基准测试还应该包括没有交通标志的图像,以评估检测器是否能够区分真实的交通标志和其他类似外观的对象。我们认为,从腾讯街景中提取数据是收集有用图片的理想方法。

目前,腾讯街景覆盖了中国约300个城市以及连接这些城市的道路网络。最初的全景图是由6台单反相机拍摄的,然后拼接在一起。图像处理技术,如曝光调整也被使用。从车辆和肩扛式设备上每隔约10米拍摄图像。这些图像的性质为我们的基准测试提供了两个好处。首先,连续镜头中的交通标志是通过单态关联的。在GT- SRB中,交通标志是从视频序列中提取出来的,这导致了许多非常相似的图像,而在我们的基准中,交通标志实例的外观有很大的差异。其次,连续图像中的交通标志实例可以帮助构建基准的参与者正确地确定其类:可以从前面或后面的照片中识别出部分模糊的交通标志。

为了创建基准图像,每个全景图像的前25%和后25%被裁剪掉(因为不太可能包含任何符号),其余部分垂直切成4个子图像。参见图1。

  1. 腾讯街景8192times;2048全景,垂直切片成4张图片。顶部和底部的天空和地面已被切除

(b)包围框和类标签 (c)像素掩码注释

图1:我们的基准包含100000张高分辨率图像,其中所有交通标志都用类标签、包围框和像素掩码进行注释。这些图片是从腾讯街景中截取的,街景中包含真实的交通标志

我们选择了中国5个不同城市的10个地区(包括每个城市的市区和郊区),并从腾讯数据中心下载了10万张全景图。

3.2.数据注释

接下来,对收集到的图像进人工注释。中国的交通标志遵循国际通行模式,可分为三类:警告(多为黄色三角形,有黑色边框和信息)、禁止(多为白色,周围有红色圆圈,也可能有对角条)和强制(多为蓝色圆圈,有白色信息)。如图2所示,但事实上还有一些其他类似的标志存在,它们并不是交通标志;图3显示了其中一些。这些符号被放在一个特定类别的“其他”类中。在交通标志标注过程中,我们记录了该标志的边界框、边界顶点和类标签。为了确定符号的像素掩模,我们使用了两种模式:多边形模式和椭圆模式。在多边形模式中,我们标记多边形的顶点,而在椭圆模式中,我们沿着椭圆的边界标记任意的“顶点”,并使用标记的顶点自动拟合形状。对于三角形符号,我们只标记三个顶点;对于扭曲的符号,我们可以标记额外的顶点来精确分割。圆形符号以椭圆的形式出现,除非被遮挡,因此我们在后处理过程中标记了5个顶点,可以将一个椭圆放入其中。最复杂的例子与被遮挡的标志有关。在本例中,我们标记了绑定框、多边形边界和椭圆边界(如果合适的话),并将它们相交以找到最终的被遮挡标志。我们在图4中演示了注释途径,并在图5中显示了一个复杂的注释用例。

图2:中国交通标志类。黄色、红色和蓝色框内的标志分别为警告、禁止和强制标志。每个交通标志都有一个独特的标签。显示的一些标志是一个系列的代表(例如限速标志为不同的速度)。这些符号一般用上述方法表示(例如#39;pl*#39;);唯一的标签是由一个特定的值代替#39;*#39; (例如#39; pl40 #39;为40公里每小时的速度限制标志)。

图3:类似交通标志的其他标志

图4:注释流程。首先定位交通标志并绘制其边界框。然后在标志的轮廓上标记边界顶点,确定像素掩码。最后附加类标签。

图5:用于复杂情况的标志注释。对边界框、多边形边界和圆形边界进行标记,并求出它们的交点,得到最终的分割掩模

3.3.数据集的统计数据

我们的新基准删除了一些只包含背景的图像后,裁剪了100000张图像。其中,10000个包含30000个交通标志。尽管我们的原始图像覆盖了中国的大部分地区,但是在我们的基准中,不同等级的交通标志之间仍然存在着不平衡。这是不可避免的:像警告司机在山路上要小心的标志之类的类很少出现。每个类的实例如图6所示;大多数情况下出现在相对较少的类中。交通标志的图像大小(以像素为单位)如图7所示;注意,小型交通标志是最常见的。

图6:对于具有100多个实例的类,每个类中的实例数

图7:每种大小标志的实例数

总之,我们新创建的基准为每个符号提供了去尾注释:它的边界框、像素掩码和类。这些符号可以分为许多类,并且在这些类中有许多实例。本基准图像分辨率为2048times;2048。并涵盖了照度和天气条件的较大变化。它有望为探测和分类小目标的研究提供一个合适的基础。我们用它来训练我们自己的CNN。

4.神经网络

我们一共训练了两个网络,一个单独检测,一个同时检测和分类。除了最后一层的分支外,它们几乎共享相同的结构。

4.1.结构

在[12]中,Huval等人评估了CNNs在车道和车辆检测方面的性能。他们使用OverFeat框架,这种框架带有边界框回归步骤而且它网络完全是卷积的,最后一层被分成两个流:像素层和包围盒层。像素层输出的每个结果表示包含目标对象的输入图像中某4times;4像素区域的概率。对于边界框层,每个结果表示该区域与目标预测边界框的四条边之间的距离。他们通过一个半小时的高速公路视频评估了他们的网络。虽然他们的网络很好地检测到了

资料编号:[5065]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。