场景文本检测可以被配制为双标签(文本和非文本区域)分割问题外文翻译资料

 2022-05-14 07:05

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


场景文本检测可以被配制为双标签(文本和非文本区域)分割问题。然而,由于场景特征的内部变化程度高,数量有限。在训练样本中,单个信息源或分类器不足以从非文本中分割文本。背景。因此,本文提出了一种新的基于图模型的场景文本检测方法。建立在最大稳定极值区域(MSER)上以将各种信息源纳入一个框架。具体地,在对原始图像中的MSER进行检测后,对其节点进行不规则图的检测。MSER构造为将MSER标记为文本区域或非文本区域。精心设计的特色有助于评估一个MSER节点作为文本的个人惩罚非文本,颜色和几何特征被用来定义成对的潜力来惩罚可能的。不连续性通过图割算法将代价函数最小化,得到不同的信息。成本函数可以最佳平衡,得到最终的MSER标记结果。提出的方法自然是上下文相关的和不敏感的。ICDAR 2011比赛的实验结果数据集表明,所提出的方法优于目前的最先进的方法在召回和精度。

1.简介

随着数字图像和视频的快速增长,基于内容的图像分析技术正在得到更多的应用。近几年越来越受到人们的关注。文本可以提供精确的和关于图像或视频内容的独特信息,图像和视频中文本的检测、提取和识别在图像或视频搜索和检索等应用中不可或缺的车牌识别、自动符号翻译等在。因为文本检测是后阶段的前提,是对整个系统性能至关重要,大量的方法已经提出了解决这个问题的方法(Jung,2001;Jung等人,2004;梁等人,2005;张和卡斯图里,2008;Jung等人,2009;EpthTin等人,2010;潘等,2011;陈等人,2011;SevakuMa等人,2011)。现有的大多数方法文本检测大致可分为两类:基于区域和连接的组件(CC)的基础上。

基于区域的方法假设文本具有鲜明的纹理特征。与背景相比较,应用多种方法如快速傅立叶变换和小波分解,从每个局部区域提取纹理特征,然后对其进行馈电。进入分类器以估计该区域是否为文本,等等。(2005)从小波分解系数提取特征。采用不同尺度的权值和自适应阈值进行分类。地区。Lee et al(2003)使用相邻灰度值作为特征对于每个由SVM分类为文本或非文本的像素。陈YILL(2004)提出了一种基于级联的快速文本检测器-AdaBoost分类器。

与基于区域的方法相反,首先基于CC的方法使用各种方法,如边缘检测、颜色聚类或笔画宽度变换,以获得CCS,然后启发式规则或分类器用于去除非文本CCS,最后使用候选分类器。CCS被分组为线。潘等。(2011)采用区域性分类器获取初始CCS并使用CRF过滤非文本组件。EpthTin等。(2010)在冲程宽度上使用CCS转换图像以形成文本行及其在ICDAR上的结果2005竞争数据集(卢卡斯,2005)显示出良好的性能。希瓦库马拉等。(2011)提出通过执行CCS来提取CCS。傅立叶拉普拉斯域中的k-均值聚类使用文本直线度和边缘密度来消除假阳性。陈等人。(2011)采用边缘增强MSER作为基本文本候选几何滤波和笔划宽度信息用于排除非文本对象。

虽然现有的一些方法已经取得了良好的性能,还有改进的余地。对于基于区域的方法,大量的文本和非文本的训练集需要样品来训练合适的分类器,尤其是难以确保非文本样本具有代表性够了。此外,由于基于区域的方法需要扫描图像。在不同的尺度下,速度相对较慢。在另一方面,对于基于CC的方法,许多非文本组件都是与文本分析非常类似,单独分析时,它是相当的。设计一种快速可靠的CC分析器消除困难不丢失文本成分的假阳性。

为了克服上述问题,我们提出了一种有效的方法,基于CC的基于区域的场景文本检测方法以及上下文信息到图形模型的构建一种快速有效的CC分析仪。首先,我们使用MSERs(CUM等,2002)在原始图像中检测为基本CCS。然后,由于场景特征的高度内部变化以及训练样本数量有限,单一信息源或分类器不足以将MSER标记为文本或非文本。那些。因此,为了利用各种信息源,我们构造了一个基于MsEs的代价函数图模型。结合区域和上下文相关信息然后MSER可以被有效地标记为文本或非文本。通过图割算法将代价函数降到最小。最后,由于大多数非文本MSER被删除,左边的文本候选组件通过简单的启发式被分组成行。规则和假阳性被一个经过训练的分类器去除。因为我们使用与ICDAR 2011文本相同的评估框架本地化竞赛(沙哈布等,2011),文本行是划分成词。所提出的方法是尺度不敏感的,上下文相关,不需要多尺度计算。ICDAR 2011文本定位数据集的实验结果(沙哈布等人,2011)报告更高的性能。

本文的其余部分整理如下。第2节细节提出的方法。实验和结果在第3部分和结论在第4节中得出。

提出的方法

所提出的方法的流程图如图1所示。这个本文的主要贡献有四个方面:

1 、在原始图像中检测到的MSER显示为适用于实验中的文本检测(诺伊曼和马塔斯,2010;陈等人,2011;诺伊曼和Matas,2011b);用作基本CCS。

2、专门为MSER设计的有效特征被用于训练分类器,用于估计MSER是文本的概率。

3、为了设计一个有效的CC分析器来标记MSERs文本区域或非文本区域,我们构建基于MSER的图成本函数结合区域性的模型作为上下文相关信息。

4、成本函数所携带的不同信息可以是最优的。求最小Mser-S标签结果的平衡基于图割算法的代价函数。

具体地说,如图1所示,首先,两种MMSs,暗光灯,黑暗中的光被探测到。然后,我们关注删除非文本的MSER标记过程MSER同时保留文本。为此,一个图其节点是MSER首先被构造,然后MSERs通过最小化的方式将文本标记为文本或非文本区域。精心设计的一元和成对成本函数最大流/最小割算法(Boykov和Kolmogorov,2004)。接下来,文本候选组件被分组成行。然后将其划分为单词和分类器,删除非文本块。最后,从这两种结果MSERs合并了。

检测MSER作为基本CCS

MSER已被公认为最佳区域探测器之一。(Mikojccyyk等人,2005)由于其对视点的鲁棒性,规模和照明变化。因为文本通常具有鲜明的对比度。对于背景和相对均匀的强度或颜色,MSER是文本检测的自然选择。此外,计算MSERs是非常有效的(接近线性复杂度)(CUM等,2002)在实时应用中非常重要。此外,除了传统CCS的几何特征外,每个检测到的MSER也可以用其均匀的颜色来表示,这对于以后的CCS分析是非常有用的。基于以上原因,我们使用在原始图像中检测到的MSER作为基本CCS。具体来说,两种MSER,光照区域暗背景和暗背景的暗区域被处理。分别消除彼此的影响。太大或消除非文本区域的小区域在这个阶段。以下两种方法都适用MSERs。一些检测到的MSER显示在图2(a)-(c)中。正如我们所看到的,除了字符之外,还有许多背景区域,也被检测为MSERs。

msers标记的文本或非文本区

除了文本区域之外,MSER检测器还检测出许多不需要的信息,将大大干扰文本分组过程的区域。因此,我们需要去除非文本区域,同时也保留。文本文本。事实上,如果我们能成功地消除非文本区域、以下文本分组和假阳性消除将是非常简单的,甚至是一些启发式规则可能足够好。因此,在本文中,我们专注于MSER标记过程,它删除大部分非文本区域。同时保留文本。然而,由于(1)高光照引起的字符内部变化程度条件、字体样式和各种失真或变形,如以及(2)有限数量的训练集以确保训练样本足够具有代表性,单一信息源或分类器不足以解决这个问题。因此,我们需要把尽可能多的信息结合成一个框架,使不同的信息源可以补充彼此。

2.2.1构建基于MSERs的图形模型

为了将不同的信息源合并到一个框架,我们构建了这些MSES的图形模型。无定向的图G*V;E是由节点(顶点V)和无向组成的。连接这些节点的边(E)。如图1(c)所示,假设每个MSER是无向图中的一个节点每个节点的相邻节点是满足标准的那些节点。定义如下:

在dist(,);dist(i,j)代表位置的距离和两个分量质心之间的颜色距离,W和H分别是分量包围盒的宽度和高度。有两个终端,背景和前景。连接到每个节点的终端。图中的每个边被分配作为切割边缘的成本的非负权重。因此,MSER标记问题可以被看作是一个分割问题。将候选文本标记为1(前景)和非文本区域为0(背景)。设V是图中所有的节点,n是一组V.L. FL1;L2;邻近节点的V.L={L1,L2,...,Lp,...)是一个二进制向量,其分量LP指定了V中的节点P的标签。每个LP可以是1(前景)或0(背景)。我们定义每个分段L的成本函数:

系数k是一元成本u l之间的折衷因子。而两两成本B L。因此,标签问题的目标是是找到最小化成本函数的分段L:

一元成本上升法衡量标签的个别罚金节点P作为前景或背景,而成对代价BFP;QG反映相邻节点间不连续性的惩罚;从而结合上下文相关信息。在以下部分,我们将给出一元和成对成本的细节功能。

2.2.2.一元成本函数

一元成本函数衡量标签的个别罚金节点P作为前景(文本组件)或背景(非文本)组件)每个节点有两个成本权重(1)和上升到0,对应于前景和背景的连接成本。分别。如果MSER是文本候选的可能性很高,比如说接近1,成本权重上升1,应该是小的,大于0时应大。图3(a)显示了文本的一些示例MSERs和非文本MSER,其中MSER的像素为白色。其他的是黑色的。比较两种MSER,我们发现以下特征可以用来区分文本和非文本MSERs:

  1. 规律性。因为大多数字符都有规则的形状或结构,文本MSER倾向于具有一定的规律性,这意味着他们不应该过于随意或复杂结构。具体地说,区域的轮廓不应该有太多的曲折。使用两个特征来反映以下定义如下特征:

其中NSKEL,Ncon是骨架像素和轮廓的数目,区域的像素,而区域是区域的区域。图3(b)说明了特征的影响。当文本具有规则形状时,轮廓不会很复杂,FEA 1的值和由于有限元,2 A将大于一些复杂的非文本MSER,相对较小的Ncon。

  1. 均匀冲程宽度。由于大多数字符具有均匀的笔划,宽度,此特性可用于去除非文本。具有随机笔划的区域,如图3(c)所示。具体地说,使用两个特征来反映均匀性,人物笔画宽度:

其中NP是梯度方向的成对边缘像素的数目。与图3(c)所示相反,Ncan是

Canny边缘(Canny,1986)像素,sWaySimple是平均行程。区域宽度和最小值h;w是宽度的较小,区域的高度。如果区域没有足够的成对边缘像素,或者平均笔划宽度太小或太大,它往往是非文本的。

  1. 职业。因为角色倾向于占据中等的一部分。边界框中,我们使用以下特征来排除背景MSE的像素太多或太少,如图所示图3(d)。

其中Nw是前景像素的数目。

  1. 梯度特征。除上述特点外,我们还用取向梯度(HOG)的8方向直方图(DALAL)和Trimg,2005),以反映梯度特征以及某些形状特征的程度。

总共有13个维度特征来表示每个MSER。基于这些特征,我们需要训练分类器来估计。MSER是文本的可能性。我们收集训练样本。从ICDAR 2011竞争训练数据集(沙哈布等,2011)以最大稳定极值的二值图像的形式区域是白色的,而其余的图像是黑色的。此外,为了模拟各种噪声和变形在自然图像,噪声图像中,高斯噪声是添加到原始图像和旋转图像,它们是通过旋转原始图像产生一定程度,也是添加到训练集,如图3(e)所示。我们随机选择森林(BRIMMAN,2001)作为基于区域的分类器由于其快速速度和相对较好的泛化性能。自性格图像具有相对均匀的宽度和高度,如果MSER的纵横比超过预定义值(设置为2),MSER被分成几个区域。我们可以简单地使用分类器的分类结果定义一元成本。然而,由于训练样本数量有限和无约束在场景图像中的文本和非文本MSER的形式,无论我们多么努力使基于区域的分类器尽可能可靠,不可避免地会给出错误的分类结果。对于一些MSER。幸运的是,因为文本通常有几个字符,我们可以使用相邻的分类结果。足够接近并具有相似几何的MSER特征,如大小或纵横比,以帮助定义一元成本。这里的“足够接近”意味着只有距离当前的一个小于当前的高度。因此,为了使一元成本更可靠,我们使用平滑相邻MSER的结果以帮助定义一元成本:

其中SC、AN和B是当前MSER的分类结果,相邻MSER的平均分类结果和权衡参数。这里,当B 1时,只有分类:当前MSER的结果是一元成本。在实验中,我们用步骤0.1将B从0.1变为1,并发现当B被设置为0.7时,所提出的算法执行最佳。

2.2.3.成对代价函数

虽然我们已经定义了一元成本尽可能好,然而,由于不受约束,不可能是100%的权利。场景图像中文本或非文本MSER的形式。因此,互补信息是必要的,以进一步提高性能。为此,我们使用成对的代价函数BL L来反映。相邻部件间不连续性的惩罚。质量保证体系可以定义为距离之间的递减函数。相邻节点P和Q,这意味着如果P和Q是相似的,对相邻的分配不同的标签的惩罚。节点应该是大的,如果特征不同,惩罚应该很小。使用颜色和几何特征定义成对成本函数:

和代表颜色和几何特征的距离。在两个相邻区域之间。H和W是区域的高度和宽度。在实验中,欧几里得距离被用作距离度量,R被设置为0.5交叉验证。这个函数意味着如果颜色和两个相邻区域的几何特征相似,分配不同标签的成本很大,反之亦然。

2.2.4.最小代价函数

给定节点为MSER以及两个节点的图终端,将每个节点标记为前景或背景的成本可以计算,并可以通过发现最小化图的最小割集。考虑高速和相对满意的性能,最大流/最小割算法(Boykov和Kolmogorov,2004)用于优化成本函数。获取文本候选为白色的二值图像非文本区域是黑色的。MSES分类结果只有基于区域的分类器和代价函数的结果优化在图2(d)-(f)中示出。正如

全文共9598字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[12432],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。