YOLOv3:逐步改进外文翻译资料

 2022-08-21 11:08

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


YOLOv3:逐步改进

Joseph Redmon, Ali Farhadi

University of Washington

摘要

我们向YOLO提供一些更新!我们做了一些小的设计改动,使之更好。我们还训练了一个相当棒的新网络。比上次大一点,但更准确,而且还是很快,别担心,在320times;320的情况下,YOLOv3在22 ms内以28.2 mAP的速度运行,与SSD一样精确,但速度快了3倍。当我们看的时候在旧的IOU地图检测指标中YOLOv3相当很好。在tian-X上,它在51毫秒内达到57.9AP50在198ms内经视网膜网减量至57.5AP50,其作用相似但速度快了3.8倍。一如既往,所有代码都在https://pjreddie.com/yolo/.

  1. 介绍

有时候你只是打了一年的电话,你知道吗?今年我没有做很多研究。花费很多时间在推特上。和甘斯玩了一会儿。我有一点去年遗留下来的动力[12][1];我设法对YOLO做了一些改进。但是,亲爱的埃斯特利,没什么特别有趣的,只是一堆使它更好的改变。我也帮过其他人人们的研究有一点。事实上,这就是我们今天来到这里的原因。我们有一个印刷成形的截止日期[4],我们需要引用一些我对YOLO做了随机更新但我们没有来源。所以准备一份技术报告吧!技术报告的好处是他们不需要简介,你们都知道我们来这里的原因。所以这个介绍的结尾导言将为其余的报纸做路标。我们先说你和YOLO3的处理是什么。那我们就告诉你是的。我们也会告诉你一些我们尝试过的事情不起作用。最后,我们将思考这一切意味着什么。

  1. 处理

这就是YOLOv3的处理:我们主要从其他人那里得到好主意。我们还训练了一个比其他网络更好的新古典网络。我们会带你从头开始检查整个系统,这样你就可以不受影响了。

图1.我们把这五幅图改编自焦距损失文件[9]。YOLOv3的运行速度明显快于其他检测方法具有可比的性能M40或 Titan X的时间,它们基本上是相同的GPU。

2.1边界框预测

根据YOLO9000,我们的系统使用维度集群作为定位框来预测边界框[15]。网络为每个边界框tx,ty,tw,th预测4个坐标。如果单元格偏离图像由(cx,cy)和边界框预先具有宽度和高度pw,ph,然后预测对应于:

YOLOv3使用logistic回归预测每个边界框的客观评分。如果之前的绑定框与地面重叠,则该值应为1真理对象比任何其他边界框都要多。如果边界框优化不是最好的,但与一个基本真值对象的重叠超过了某个阈值,我们忽略了预测,如下[17]。

图2.带标注优先级和位置的边界框预测。我们预测盒子的宽度和高度作为偏移量从组质心。我们预测相对于使用S型功能的过滤器应用位置的方框功能。这一数字取自[15]。

我们使用0.5的阈值。与[17]不同的是,我们的系统只为每个地面真值对象指定一个边界框。如果边界框没有指定给一个基本的真值对象,那么它不会对坐标或类预测造成任何损失,只会使其客体性。

2.2.类别预测

每个框使用多标签分类预测边界框可能包含的类。我们不使用softmax,因为我们发现它对良好的性能是不必要的,而只是使用独立的物流分类。在训练过程中,我们使用二元交叉熵损失进行类预测。当我们转向更复杂的像Open Images数据集这样的域[7]。在这个数据集中有许多重叠的标签(即女人和人)。使用softmax可以假设每个框只有一个类,而这通常不是这样的。多标签方法可以更好地对数据建模。

2.3.尺度预测

YOLOv3预测3种不同尺度的盒子。我们的系统使用与金字塔网络相似的概念从这些尺度中提取特征[8]。从我们的基本特征提取,我们添加了几个卷积层。最后其中预测三维张量编码包围盒、对象和类预测。在我们用COCO[10]进行的实验中,我们在每个尺度上预测了3个盒,因此对于4个边界盒偏移量、1个对象性预测和80类预测,张量为Ntimes;Ntimes;[3lowast;(4 1 80)]。下一步,我们从前两层中提取特征图,并将其放大2times;2。我们还从网络的早期获取一个特征映射,并使用连接将其与我们的上采样特征合并。该方法允许我们从先前的特征映射的上采样特征和细粒度信息中获得更有意义的语义信息。然后,我们再添加一些卷积层来处理这个组合的特征映射,并最终预测一个相似的张量,尽管现在的张量是原来的两倍。我们再做一次同样的设计来预测五分制的盒子。因此,我们对第三个比例尺的预测得益于所有先前的计算以及网络早期的细粒度特性。我们仍然使用k-means聚类来确定我们的边界框优先级。我们只是任意选择了9个簇和3个尺度,然后在尺度上均匀地划分簇。在COCO数据集上,9个聚类为:(10times;13),(16times;30),(33times;23),(30times;61),(62times;45),(59times;119),(116times;90),(156times;198),(373times;326)。

2.4.特征提取器

我们使用一个新的网络来进行特征提取。我们的新网络是YOLOv2,Darknet-19中使用的网络和新的剩余网络之间的混合方法。我们的网络使用连续的3times;3和1times;1卷积层,但现在也有一些快捷的连接,而且非常大。它有53个卷积层,所以我们称之为 Darknet-53!

这个新的网络比Darknet-19强大得多但仍然比ResNet-101或ResNet-152更有效。以下是一些图像网络结果:

表2比较Backbone.精度,每秒数十亿次操作,每秒十亿次浮点运算,以及各种网络.

每个网络都使用相同的设置进行训练和测试256times;256,单作物精度。测量运行时间在256times;256的Tank-X上。因此Darknet-53在与最先进的分类器相当,但浮动较少点操作和更高的速度。Darknet-53比ResNet-101和1.5倍的速度。Darknet-53的性能与ResNet-152相似,比ResNet-152快2倍。Darknet-53也实现了最高的测量浮动每秒点操作。这意味着网络结构更好地利用了GPU,使得评估变得更有效,从而更快。这主要是因为ResNets只是层次太多,效率不高。

2.5.培训

我们仍然在训练完整的图像,没有硬性的负面挖掘或任何东西。我们使用多尺度的训练,大量的数据扩充,批量规范化,所有标准的东西。我们使用Darknet神经网络框架进行训练和测试[14]。

  1. 我们应该怎么做

YOLOv3相当不错!见表3。就COCOs平均AP度量而言,它与SSD变体相当,但速度快3倍。在AP50指标上,它仍然落后于其他车型不少。但是像RetinaNet这样的模型。然而,当我们在IOU=0.5(或图表中的AP50)处观察mAP的“旧”检测度量时,YOLOv3是非常强的。它几乎与RetinaNet相当,远高于SSD变体。这表明YOLOv3是一个非常强大的探测器,它擅长为物体制造像样的盒子。然而,随着IOU阈值的增加,性能显著下降,这表明YOLOv3很难使盒子与对象完全对齐。在过去,约罗与小物体搏斗。然而,现在我们看到了这种趋势的逆转。通过新的多尺度预测,我们看到YOLOv3具有相对较高的APS性能。

表3.我是认真的这些桌子都是从他们花了很长时间才从零开始做的。好的,YOLOv3没事。记住,RetinaNet处理图像的时间大约长3.8倍。YOLOv3比SSD变体好得多,与先进的AP50量度模型。

图3.再次改编自[9],这一次在地图上显示速度/精度折中为0.5 IOU公制。你可以告诉YOLOv3是很好,因为它很高,离左边很远。你能引用你自己的论文吗?猜猜谁会试试,我们还修复了YOLOv2中的一个数据加载错误,这是like 2 mAP的帮助。只是偷偷地把这个放在这里,免得弄乱布局。

然而,它在中、大尺寸物体上的性能相对较差。需要更多的调查才能弄清真相。当我们在AP50指标上绘制精度与速度的关系图(见图5)时,我们发现YOLOv3比其他检测系统具有显著的优势。也就是说,它更快更好。

双IOU阈值和实际任务

更快的R -CNN在训练期间使用两个IOU阈值。如果一个预测与基本真理重叠了0.7,那么它就是一个积极的检验;如果一个预测与基本真理重叠了0.3-.7,那么它就被忽略了,对于所有的基本真理对象,它都小于0.3,这是一个消极的例子。我们也尝试过类似的策略,但没有取得好的效果。我们很喜欢我们目前的公式,它似乎至少在一个局部最优。有可能这些技巧最终会产生好的效果,也许他们只是需要一些调整来稳定训练。

  1. 这一切意味着什么

YOLOv3是一个很好的探测器。很快,很准确。在COCO平均AP介于0.5和0.95 IOU之间的情况下,它并没有那么好。但在旧的0.5 IOU的检测标准上很好。我们为什么要改变指标?原作COCO论文中有一句话很隐晦:“一旦评估服务器完成,将添加完整的评估指标讨论”。Russakovsky等人报告说,他人很难区分.3和.5的借据!“训练人类视觉检查IOU为0.3的包围盒,并将其与IOU为0.5的包围盒区分开来,这是非常困难的。”[18]如果人类很难分辨出两者之间的区别,那么这有多重要?但也许一个更好的问题是:“既然我们有了这些探测器,我们该怎么处理呢?“做这项研究的很多人都在谷歌和Facebook。我想至少我们知道这项技术掌握得很好,而且不可能被用来获取你的个人信息把它卖给....等等,你是说这正是它的用途??哦。好吧,其他大力资助视觉研究的人是军方,他们从来没有做过像用新技术杀死很多人这样可怕的事情哦等等hellip;hellip;我非常希望大多数使用计算机视觉的人只是在用它做一些快乐的、好的事情,比如数国家公园里的斑马数量[13],或者说,计算机视觉已经被怀疑使用了,作为研究人员,我们有责任至少考虑到我们的工作可能造成的危害,并想办法对其进行麻省理工学院的检验。我们欠世界那么多。最后,不要@我。(因为我最后退出了Twitter)。

References

[1] Analogy. Wikipedia, Mar 2018. 1

[2] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and

A. Zisserman. The pascal visual object classes (voc) chal

lenge. International journal of computer vision, 88(2):303–

338, 2010. 6

[3] C.-Y. Fu, W. Liu, A. Ranga, A. Tyagi, and A. C. Berg.

Dssd: Deconvolutional single shot detector. arXiv preprint

arXiv:1701.06659, 2017. 3

[4] D. Gordon, A. Kembhavi, M. Rastegari, J. Redmon, D. Fox,

and A. Farhadi. Iqa: Visual question answering in interactive

environments. arXiv preprint arXiv:1712.03316, 2017. 1

[5] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learn

ing for image recognition. In Proceedings of the IEEE con

ference on computer vision and pattern recognition, pages

770–778, 2016. 3

[6] J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara,

A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, et al.

Speed/accuracy trade-offs for modern convolutional object

detectors. 3

[7] I. Krasin, T. Duerig, N. Alldrin, V. Ferrari, S. Abu-El-Haija,

A. Kuznetsova, H. Rom, J. Uijlings, S. Popov, A. Veit,

S. Belongie, V. Gomes, A. Gupta, C. Sun, G. Chechik,

D. Cai, Z. Feng, D. Narayanan, and K. Murphy. Open

images: A public dataset for large-scale multi-label and

multi-class

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[409970],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。