EAST:一种高效准确的场景文本检测器外文翻译资料

 2022-04-25 10:04

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


EAST:一种高效准确的场景文本检测器

摘要

以前的场景文本检测方法已经在各种基准上取得了较好的表现。然而,即使配备深层神经网络模型,它们通常不擅长处理具有挑战性的场景,因为整体性能由管道中多个阶段和组件的相互作用决定。在这项工作中,我们提出了一个简单而强大的流水线,可以在自然场景中产生快速准确的文本检测。管线直接预测完整图像中任意取向和四边形形状的单词或文本行,通过单个神经网络消除不必要的中间步骤(例如,候选聚合和单词分割)。我们的管道的简单性集中在设计损耗函数和神经网络架构上。包括ICDAR 2015,COCO-Text和MSRA-TD500在内的标准数据集的实验表明,所提出的算法在精度和效率方面都显着优于最先进的方法。在ICDAR 2015数据集上,提出的算法在720p分辨率下,以13.2fps的F值达到0.7820。

1.介绍

最近,提取和理解自然场景中体现的文字信息变得越来越重要和受欢迎,这使得ICDAR系列比赛拥有了前所未有的大量参与者以及NIST的TRAIT 2016评估的启动。

文本检测作为后续流程的先决条件,在文本信息提取和理解的整个过程中起着至关重要的作用。以前的文本检测方法已经在这一领域的各种基准上获得了很好的表现。文本检测的核心是设计区分文本和背景的功能。传统上方法是通过手动设计以捕获场景文本的属性,而基于深度学习的方法获得的有效特征是直接从训练数据中学习得到的。

然而,基于传统的或深层神经网络的现有方法主要由几个阶段和组件组成,这些阶段和组件可能是次优的和耗时的。 因此,这种方法的准确性和效率还远远不能令人满意。

在本文中,我们提出了一个快速准确的场景文本检测流水线,只有两个阶段。 该管道利用完全卷积网络(FCN)模型,直接产生单词或文本行级别预测,不包括冗余和缓慢的中间步骤。 产生的文本预测可以是旋转的矩形或四边形,被发送到非最大抑制以产生最终结果。 与现有方法相比,根据标准基准的定性和定量实验,提出的算法实现了显着提高的性能,同时运行更快。

具体而言,该算法实现了在ICDAR 2015 上达到了0.7820的F-Score[ 15 ](对多尺度进行测试时达到0.8072)在 MSRA-TD500达到0.7608 [ 40 ]和在COCO-Text上达到0.3945 [ 36 ],胜过当前最先进的算法的平均性能,花费了更少的时间(我们的最好的模型只有13.2fps在一个Titan-X GPU 720p分辨率上运行,而16.8fps是我们快的模型)。

我们工作的贡献主要有三个:

●提出了一种场景文本检测方法,该方法分为两个阶段:完全卷积网络和NMS合并阶段。FCN直接产生的文本区域,剔除多余的和费时的中间步骤。

●流水线非常的灵活可以产生文字水平或文本线水平的预测,其几何形状可以为旋转矩形或四边形,这取决于特定的应用程序。

●该算法在精度和速度方面明显优于最先进的方法。

图1. 各种方法在ICDAR 2015 [15]有挑战性的定位文本数据集上性能与速度的对比。可以看出,我们的算法在精确度上显著超过竞争对手,同时运行速度非常快。该方法所用硬件的规格列于表6。

2.相关工作

场景文本的检测与识别一直是计算机视觉领域的研究热点。许多鼓舞人心的想法和有效的办法[ 5, 25, 26、24, 27, 37、11, 12, 7、41, 42, 31 ]已被提出。全面的评估和详细的分析可以在文献[ 50, 35, 43 ]中找到。本节将重点介绍与该算法相关的工作。传统的方法依赖于手工设计的特性。笔画宽度变换(SWT)[ 5 ]和最稳定极值区域(MSER)[ 25, 26 ]为基础的方法通常寻求人物候选人通过边缘检测或极值区域提取。张等[ 47 ]利用文本的局部对称性,设计了文本区域检测的各种特征。Fastext[ 2 ]是一个快速的文本检测系统,调整和修改知名快关键点探测器的笔画提取。然而,这些方法在精度和适应性方面落后于基于深层神经网络的方法,特别是在处理具有挑战性的场景时,例如低分辨率和几何失真。

近年来,场景文本检测领域已经进入了一个新的时代,基于深层神经网络的算法(11, 13, 48,7)逐渐成为主流。黄等人[11], 第一次发现学生用MSER然后采用深度卷积网络作为一个强分类器去修正假阳性。对jaderberg等人的方法[ 13 ]扫描图像滑动窗口中的时尚和生产的规模与卷积神经网络模型的一个密集的热图。后来,jaderberg等人[ 12 ]利用CNN和ACF寻找候选单词,并利用回归进一步细化它们。Tian等人[ 34 ]开发的立式锚和构建了一个cnn-rnn关节模型检测水平的文本行。与这些方法不同,张等人[ 48 ] [ 23 ]提出利用FCN热图生成和使用组件的投影方向估计。这些方法在标准基准测试中获得了优异的性能。然而,如图2所示(A-D),他们大多是由多个阶段组成,如假阳性去除后过滤,候选聚集、线的形成和词的划分。多个阶段和组件可能需要彻底调优,从而导致次优性能,并增加整个管道的处理时间。

在本文中,我们设计了一个基于深FCN管道直接针对文本检测的最终目标:单词或文本行水平检测。如图2(e)所示,该模型摒弃了不必要的中间组件和步骤,并允许端到端的训练和优化。由此产生的系统,配备了一个单一的,轻量的神经网络,超过所有以前的方法,在性能和速度有明显的差距。

图2.几种当前的方法在场景文本检测中的流水线比较:(a)由Jaderberg等人提出[12]的水平方向的检测和识别流水线;(b)Zhang等人提出的多方位文本检测流水线[48];(c)由Yao等人提出多方位文本检测流水线[41]; (d)Tian等人提出的使用CTPN的水平文本检测[34];(e)我们的流水线,消除了大多数中间步骤,仅由两个阶段组成,比以前的解决方案简单得多。

3.方法

该算法的关键部分是一个神经网络模型,该模型训练直接从完整图像中预测文本实例及其几何结构的存在。该模型是一个完全卷积神经网络并且适用于文本检测,输出密集的每个像素的预测文字或文本线。这消除了中间步骤,如候选方案、文本区域形成和词汇划分。后处理步骤仅包括预测几何图形的阈值和NMS。该检测器被称为EAST,因为它是一种高效和准确的场景文本检测流水线。

3.1流程

一个完整的概述见图2。此算法遵循一般DenseBox的设计,其中图像被送进FCN,生成像素级文本分类图和几何的通道。

预测通道的其中之一是分数图,像素值在[0,1]。其余通道表示从每个像素的视图中包围单词的几何尺寸。分数代表了在同样的位置预测的几何尺寸的置信度。

我们实验了两种文本的几何形状,旋转框(RBOX)和四边形(QUAD),并为每种几何形状设计了不同的损失函数。然后将阈值应用于每个区域,其中分数超过预定义阈值的几何形状被认为是有效的,并且保存为之后的非极大值抵制。NMS之后的结果被认为是管道的最终输出。

3.2网络结构

设计用于文本检测的神经网络设计必须考虑几个因素。如图5所示,由于单词区域尺寸的变化很大,大单词的存在需来自神经网络后层的特征,同时预测预测小单词区域需要早期层中的低层特征。因此网络必须使用来自不同级别的特征来满足这些要求。HyperNet在特征图上满足这些条件,但是大特征图上合并大量通道显著增加后期的计算开销。

我们采用了U-shape的思想逐步合并特征层,同时保持上采样分支较小。我们以一个同时利用不同层特征和保持小计算量的网络结束。

我们的模型都示意图如图3所描画。模型可以分为三个部分:特征提取器,特征合并分支和输出层。

特征提取器可以是一个使用ImageNet数据集预训练的卷积层与池化层交替的卷积神经网络。四个级别的特征层用fi表示,从特征提取器里提取得到,它们的尺寸分别是输入图像的1/32,1/16,1/8,1/4。在我们的试验中我们采用众所周知的VGG16模型,它的特征提取层从池化层2到池化层5被提取出来。

在特征合并分支中,我们逐渐地合并他们:

gi是合并的基础,hi是合并后的特征层,算子[.;.]表示不同通道沿着axis的连结。在每个合并阶段,最后一个特征层第一个送进非池化层并放大两倍尺寸,然后与当前特征层合并。 下一步,一个conv1x1瓶颈缩小通道数量和减小计算量,紧跟着最后一个合并阶段,一个conv3x3层产生最后一个合并分支的特征层,喂给输出层。

每个卷积层的输出通道数量如图3所示。我们保留在分支中卷积通道数小的,仅增加了一小部分开销,使得网络更高效。最后的输出层包含几个conv1x1算法子将特征层的32通道映射到一个Fs分数图和一个多通道的几何信息图Fg。几何输出可以是RBOX或者QUAD。在表1中进行了统计。

表1.输出几何形状的设计

对于RBOX来说,几何形状用四通道的轴对齐的边界框(AABB)R 和 一个通道的旋转角度theta;表示。R的公式如[9],四个通道代表4个距离,分别是像素点位置到上右下左边界的距离。
对于QUAD Q来说,我们使用8个数字来表示四个顶点到像素点的坐标位移。 每个偏移距离包含Delta;xi,Delta;yi两个数,几何输出包含8个通道。

图3.我们的文本检测的全卷积网络结构。

3.3标签生成

3.3.1四边形的分数图生成

不失一般性的情况下,我们只考虑几何是四边形的情况。得分图上四边形的正面积设计为大致为原始图形的缩小 版本。如图4所示。

对一个四边形Q={pi|i属于1,2,3,4},pi是按顺时针顺序排列的四边形的顶点。对于缩小的Q,我们首先计算ri:

其中D(pi,pj)是两个顶点pi和pj之间的L2距离。

我们首先收缩两个长点的边,再收缩两个短点的边。对于每对对边,我们通过比较平均长度值来确定长边。对于每个边lt;pi,p(imod4) 1gt;,我们分别通过沿边赂内移动两个端点收缩它。

3.3.2几何形状图生成

如3.2节讨论的,几何图是RBOX或者QUAD。RBOX的生成过程,如图4.

那些数据集的文本区域以QUAD形状标注,例如ICDAR2015,我们首先生成以最小面积覆盖区域的旋转矩形框。每个像素有一个正的分数值,我们计算它与文本框四边的距离,把它们放入四通道的RBOX 真值中。对于QUAD真值,8通道几何形状图每个像素的正分数值是它与四边形4个顶点的坐标偏移。

图4.标签生成过程:(a)文本四边形(黄色虚线)和缩小的四边形(绿色固体);(b)文本分数图;(c)RBOX几何图生成;(d)每个像素到矩形边界的4个通道距离;(e)旋转角度。

3.4损失函数

损失表述为:

Ls,Lg分别表示分数图和几何形状,lambda;g衡量两个权重的重要性。在我们的实验中,我们设置lambda;g为1。

3.4.1分数图的损失

在大多数最先进的检测流程中,训练图像通过 平衡采样和硬负挖掘 解决目标物体的不不平衡分布。做这些可能会提升网络的性能。然后,使用这些技术不可避免地引入 不可区分的阶段,更多要调的参数,更复杂的流程,与我们的设计原则相矛盾。

为了方便一个更简单的训练过程,我们使用类平衡交叉熵。

Ŷ是分数图的预测,Ylowast; 是真实值。参数beta;是正样本与金曲榜之间的平衡因子,给出:

平衡交叉熵损失由 Yao 首次应用在文本检测作为分数图预测的目标函数。我们发现在实践中好使。

3.4.2几何形状的损失

文本检测的一大挑战就是文本在自然场景中的尺寸变化极大。直接使用L1或者L2损失去回归文本区域将导致损失偏差朝更大更长。我们需要创建一个精确的几何形状预测能兼容大小文本区域,回归损失应该是尺寸不变的。因此,我们采用IoU损失在RBOX回归的AABB部分,尺度归一化的smoothed-L1损失在QUAD回归。

RBOX

对于AABB部分,我们使用IoU损失,因为相对目标的不同尺度它是尺度不变的。

R̂代表预测的AABB几何位置,Rlowast;是它的真值。
明显交集矩形|R̂cap;Rlowast;|的宽高是

d1 d2 d3 d4 分别代表一个像素到上右下左的四边形边界的距离。交集面积为:见下图中公式(9)。然而,交集或者并集的面积可以很早被计算。下一步,旋转角度计算如下图中(10)。theta;̂是预测的旋转角度,theta;lowast;代表真值。最后,全部几何损失是带权重的AABB和旋转角度的和,如下图中(11)。在我们的实验中参数设为10。

注意我们计算LAABB忽略角度。这可以看作是在角度正确预测时四边形IoU的近似值。虽然在训练中不是这样,但是仍然可以为网络施加正确的梯度来学习预测R̂。

QUAD

我们通过增加一个额外的标准化术语来扩展在文献[6]中提出的平滑L1损失,这个术语是为单个四边形设计的。 让Q的所有坐标值都是一个有序集合

损失可以写为:

这里正

全文共17246字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[13295],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。