从自然场景图像中检测文本的鲁棒方法外文翻译资料-外文翻译网

A robust approach for text detection from natural scene images

1.Introduction

Text detection in natural scene images has become a crucial task and received significant attention recently due to the great success of smart phones and large demands in content-based image search or understanding. Although many approaches (e.g., [1–3]) have been proposed, this problem remains largely unsolved, e.g., the winning team in ICDAR-2013 “Reading Text in Scene Images” competition achieved only a localization recall of about 66% [4]. The difficulties mainly come from diversities of texts (e.g., languages, font, size, color, orientation, noise, illumination, low contrast, occlusion and so on) as well as the complexity of backgrounds [5].

Existing text detection methods can be categorized into three groups: sliding window based methods (e.g., [6–9]), connected component (CC) based methods (e.g., [1,2,5,10]) and hybrid methods (e.g., [3,11]). Sliding window based methods usually exploit a fixed-size sliding window to search for individual character candidates [9] or word candidates [8] in images and then use machine learning techniques to identify text. Although such methods can be robust to noise and blur, they are slow due to a large search space. CC-based methods extract CCs from images as character candidates by using local properties of an image (e.g., intensity, color, stroke width) first, and then remove the non-text CCs by using the properties of characters or text lines. The hybrid methods try to combine the advantages of sliding-window and CC-based methods in order to achieve high robustness while keeping low computation. Among these methods, the extremalregion (ER) based methods, which belong to the CC-based methods, won the first places in both ICDAR-2011 and ICDAR-2013 competitions ([12,4]).

Methods based on ER and its variants have been widely used to solve text detection problem (e.g., [1,10,13–18]). However, there are still several open problems that need to be addressed despite their superior performance. First, some text objects in images do not satisfy the strict definition of extremal-region, i.e., the minimum (maximum) intensity value of all the pixels in this region is larger (smaller) than the maximum (minimum) intensity value of all the pixels on the boundary [19]. For example, the gray region in Fig. 1(a) and the characters in red bounding boxes in Fig. 1(b) (c) cannot be extracted as ERs. Although this problem is not severe in ICDAR datasets in which more than 94% of text objects are extremal-regions [20], more attention should be paid for other scenarios. Second, ER methods can extract not only text components but also tremendous number of non-text components, including many ambiguous components as illustrated in Fig. 2. The ambiguity may include (1) the component itself is ambiguous (Fig. 2(a)) and (2) the shapes of some non-text components are very similar to characters (Fig. 2(b)). A distribution of these two kinds of ambiguous samples is illustrated in Fig. 2(c). The ambiguity problem will become more severe when handcrafted features are used to represent the components (e.g., [1,16,10]), because some nontext components share similar properties (e.g., uniform stoke width) as text. The ambiguity problem exists in not only ER-based methods but also other CC-based methods (e.g., [5,21]). Previous methods usually group CCs into candidate text lines and try to use line information to reduce ambiguity. However, this problem remains unsolved due to two reasons: (1) some text lines only have one character and (2) some non-text lines may also have similar properties or textures as text lines as illustrated in Fig. 3. The ambiguity problem is the bottleneck of text and non-text classification, which affects greatly the performance of an end-to-end text detection algorithm, therefore need to be addressed appropriately. Third, building candidate text line is itself a very challenging problem, especially when layout or background is complex. Some neighboring non-text CCs can be easily merged to a text line, especially on both ends of the line. Moreover, as discussed in [2], the repeating components in the hierarchical structure as shown in Fig. 4, also affect candidate text-line formation severely.

To overcome the above problems, a robust approach based on color-enhanced contrasting extremal region (CER) as well as neural networks is proposed in this paper. First, color-enhanced CERs are extracted from different image channels as candidate text CCs. Then, in each image channel, eight complementary twohidden-layer neural networks trained by an ambiguity-free learning strategy are used collectively to solve the text/non-text classification problem as well as the ambiguity problem properly. Finally, the results from different image channels are combined, and a post-processing step is used to recover lost characters and remove non-text CCs which are wrongly merged to remaining text lines. The proposed method achieves superior performance on both ICDAR-2011 and ICDAR-2013 benchmark test sets.

Although some contents of our approach have been presented and published in several conference papers ([20,22,17]), this paper extends in several aspects: (1) more technical details of the system are given; (2) the limitations of the color-enhanced CER are addressed; (3) the candidate text-line grouping method is improved; and (4) more experimental results are presented. The remainder of the paper is organized as follows. Section 2 briefly reviews related works. Section 3 describes the proposed approach in detail. Section 4 presents experimental results, and finally the paper is concluded in Section 5.

2. Related work

The proposed approach belongs to the CC-based methods, so we focus on reviewing CC-based methods in this paper. As for other methods, several survey papers (e.g., [23–26]) can be referred to. Generally, CC-based methods divide the text det

剩余内容已隐藏，支付完成后下载完整资料

从自然场景图像中检测文本的鲁棒方法

摘要

提出了一种基于彩色增强对比度极值区（CER）和神经网络的鲁棒文本检测方法。给定一幅彩色自然场景图像，在基于感知的光照不变颜色空间中，分别从其灰度图像、色调和饱和度通道图像以及它们的倒转图像中构建六个分量树。从每个组件树中，颜色增强的CER被提取为候选字符。采用“分而治之”策略，通过规则将每个候选图像块可靠地标记为五种类型之一，即长、薄、填充、大正方形和小正方形，并通过相应的神经网络分类为文本或非文本，神经网络通过无歧义学习策略进行训练。在修剪了明确的非文本组件之后，进一步剪除每个组件树中的重复组件。剩下的部分被分成候选文本行，并由另一组神经网络进行验证。最后，将六个组件树的结果进行组合，并使用后处理步骤来恢复丢失的字符。我们提出的方法在ICDAR-2011和ICDAR-2013“在场景图像中读取文本”测试集上都取得了优异的性能。

关键词：文字检测；自然场景图像；色彩增强的对比极值区；神经网络

介绍

由于智能手机的巨大成功以及基于内容的图像搜索或理解的巨大需求，自然场景图像中的文本检测已成为一项至关重要的任务，并且最近受到了广泛的关注。尽管已经提出了许多方法（例如[1-3]），但是这个问题仍未解决，例如ICDAR-2013“阅读场景图像中的文本”竞赛的获胜团队仅实现了大约66％的定位召回率[4] ]。困难主要来自文本的多样性（例如，语言，字体，大小，颜色，方向，噪音，照明，低对比度，遮挡等）以及背景的复杂性[5]。

现有的文本检测方法可以分为三类：基于滑动窗口的方法（例如[6–9]），基于连接组件（CC）的方法（例如[1,2,5,10]）和混合方法（例如，[3,11]）。基于滑动窗口的方法通常利用固定大小的滑动窗口来搜索图像中的单个字符候选[9]或单词候选[8]，然后使用机器学习技术来识别文本。尽管此类方法对噪声和模糊具有鲁棒性，但由于搜索空间较大，因此它们运行缓慢。基于CC的方法首先通过使用图像的局部属性（例如，强度，颜色，笔划宽度）从图像中提取CC作为字符候选，然后通过使用字符或文本行的属性来删除非文本CC。混合方法试图结合滑动窗口和基于CC的方法的优点，以在保持低计算量的同时实现高鲁棒性。在这些方法中，属于基于CC的方法的基于极端区域（ER）的方法在ICDAR-2011和ICDAR-2013竞赛中均获得了第一名（[12,4]）。

基于ER及其变体的方法已被广泛用于解决文本检测问题（例如[1,10,13-18]）。但是，尽管它们具有出色的性能，但仍然需要解决几个未解决的问题。首先，图像中的某些文本对象不满足极值区域的严格定义，即，该区域中所有像素的最小（最大）强度值大于（小于）所有像素的最大（最小）强度值。边界上的像素[19]。例如，图1（a）中的灰色区域和图1（b）（c）中红色边框中的字符不能提取为ER。尽管此问题在ICDAR数据集中并不严重，在ICDAR数据集中，文本对象的94％以上是极值区域[20]，但应注意其他情况。其次，ER方法不仅可以提取文本成分，还可以提取大量的非文本成分，包括许多模糊的成分，如图2所示。歧义可能包括（1）组件本身是模棱两可的（图2（a））和（2）某些非文本组件的形状与字符非常相似（图2（b））。这两种模棱两可的样本的分布如图2（c）所示。当使用手工特征来表示组件时，歧义性问题将变得更加严重（例如[1,16,10]），因为某些非文本组件与文本共享相似的属性（例如，均匀的笔画宽度）。歧义性问题不仅存在于基于ER的方法中，还存在于其他基于CC的方法中（例如[5,21]）。先前的方法通常将CC分组为候选文本行，并尝试使用行信息来减少歧义。但是，由于两个原因，这个问题仍未解决：（1）一些文本行仅具有一个字符，并且（2）一些非文本行也可能具有与图3所示的文本行类似的属性或纹理。歧义问题是文本和非文本分类的瓶颈，它极大地影响了端到端文本检测算法的性能，因此需要适当解决。第三，构建候选文本行本身就是一个非常具有挑战性的问题，尤其是在布局或背景复杂的情况下。某些相邻的非文本CC可以轻松合并到文本行，尤其是在该行的两端。而且，如[2]中所讨论的，如图4所示的层次结构中的重复组成部分也严重影响了候选文本行的形成。

为了克服上述问题，本文提出了一种基于色彩增强的对比度极值区域（CER）以及神经网络的鲁棒方法。首先，从不同的图像通道提取色彩增强的CER作为候选文本CC。然后，在每个图像通道中，由无歧义学习策略训练的八个互补的两层神经网络被集中用来解决文本/非文本分类问题和歧义问题。最后，将来自不同图像通道的结果进行组合，并使用后处理步骤来恢复丢失的字符并删除错误合并到剩余文本行的非文本CC。该方法在ICDAR-2011和ICDAR-2013基准测试集上均实现了卓越的性能。

尽管我们的方法的一些内容已在几篇会议论文中介绍并发表（[20,22,17]），但本文在几个方面进行了扩展：（1）给出了该系统的更多技术细节；（2）解决了色彩增强的CER的局限性；（3）改进了候选文本行分组方法；（4）给出了更多的实验结果。在本文的其余部分安排如下。第2节简要回顾了相关作品。第3节详细介绍了建议的方法。第4节介绍了实验结果，最后在第5节中总结了本文。

相关的工作

所提出的方法属于基于CC的方法，因此本文重点研究了基于CC的方法。至于其他方法，可以参考几篇调查论文（如[23-26]）。通常，基于CC的方法将文本检测问题分为两个子问题：CC生成和文本/非文本分类。在本节中，将详细讨论这两个问题。

为了从图像中提取CCs，文献中已经提出了几种方法。潘等人。[3] 采用Niblack的局部二值化算法[27]从灰度图像中分割候选CCs。Epshtein等人。[21]在笔划宽度转换（SWT）映射中将具有相似笔划宽度的相邻像素分组到候选文本CCs中。Shivakumara等人。[28]提取与Sobel边缘映射中基于梯度向量流（GVF）方法识别的主像素相对应的边缘分量作为文本候选。近年来，极值区域（ER）[19]及其变体，如最大稳定极值区域（MSER）[19]、边缘增强MSER[13]、颜色增强CER[22]等，由于其对尺度变化、光照条件的鲁棒性，越来越受到人们的关注，并显示出了提取候选文本CCs的良好性能，视点变换、低对比度等。在文献[15]中，Neumann和Matas提出了MSER来解决一般的文本检测问题，并在文献[29]中利用MSER格的整树将其推广到MSERthorn;254; 254;。随后，MSER的有效性也得到了其他研究者的验证，如Shi等人。[10] ，Yin等人。[2] ，Koo等人。[14] 是的。MSER在大多数情况下表现良好，但在模糊图像和对比度非常低的字符上存在问题[16]。为了解决这个问题，Neumann和Matas在[16]中建议直接使用ER而不是MSER。然而，提取的ER数目很大，这将给后续的文本/非文本分类算法带来很高的计算负担。为了更好地权衡，我们在文献[20]中提出了对比极值区域（CER）。此外，Chen等人。提出了边缘增强的最小均方误差来提高最小均方误差对图像模糊的鲁棒性。由于边缘检测算法通常对控制参数的设置比较敏感，我们在文献[22]中提出了彩色增强CER。虽然增强处理可以减少提取的CC中多余的像素，但有时会因光照不均匀或颜色不均匀而破坏某些CC。然后，我们提出使用基于感知的照明不变（PII）颜色空间[30]来提高颜色增强CER对非均匀照明的鲁棒性[17]。本文将进一步探讨这一问题。

如图5所示，文本ER可以包括单个字符或多个触摸字符[22]。以往的方法大多集中在提取对应于单个字符的CC（如[1,2,13]）。这是有问题的，因为文本中的某些单词不能用几个单字符表示，特别是当图像模糊或分辨率较低时。为了解决这个问题，我们提取包含文本的所有ER，不管其中有多少字符（[22,17]）。Koo等人。[14] 在基于最小均方误差的方法中采用类似的策略。

文本/非文本分类是一个非常具有挑战性的问题，这是由于文本的类内变异程度较高[10]以及上述引入的歧义性问题。因此，除了由隔离的CC提供的信息之外，上下文信息（例如，文本行信息）也用于解决该问题。现有的方法（例如[1,2,10]）主要包括或结合以下三个步骤：（1）修剪具有手工特征和分类器的非文本组件（例如，随机森林，SVM）；（2）将其余组件分组为候选文本行；（3）验证每个候选行。 Pan等。 [3]使用条件随机场（CRF）模型过滤掉非文本CC，然后使用基于学习的能量最小化方法将剩余的CC分组为文本行/单词。 Yin等。 [2]采用单链接聚类算法将CC分组为候选文本行，然后使用字符分类器修剪非文本候选文本行。 Shi等。 [10]构建一个基于MSER的图形模型，将每个MSER标记为文本或非文本。 Koo等。 [14]训练AdaBoost分类器将CC分组为行，然后使用多层感知器作为文本/非文本分类器对归一化图像块进行分类。近年来，Neumann和Matas提出了几种方法[[15,29,16,1]）。他们的最新解决方案是通过有效修剪的穷举搜索将CC聚集到文本行中[1]，并根据后续字符识别模块的置信度拒绝非文本行。这些方法主要基于手工特征来执行孤立的CC分类或候选文本行分类。尽管精心设计的手工特征更加抽象，并且具有更多的语言独立信息，但是由于过多的信息丢失，在设计的特征空间中歧义性问题将变得更加难以处理。 Kang等。 [31]提出学习文本图案的局部纹理特性。但是，问题仍然没有解决。某些先前的方法（例如[2,14]）往往不会仔细解决预修剪问题（第1步），而是直接将CC分组为候选文本行。这样，某些非文本CC不可避免地会合并到候选文本行的两端，尤其是在背景复杂的情况下。这将严重影响后续文本/非文本分类的性能以及提取的文本行的边界框的精度。如今，基于深度神经网络（DNN）的方法已在许多任务[32]中取得了巨大成功，例如图像分类和目标检测问题[33]。尽管使用DNN解决文本/非文本分类问题很简单，但是仍有几个问题需要解答。迫在眉睫的问题是，由于歧义性问题使分类问题更加困难，因此它们在解决文本/非文本分类问题上是否可以同样有效地工作。与对象检测问题不同，我们没有像ImageNet数据集那样的大规模特定于任务的训练集[34]。而且，这里出现类不平衡问题[35]，即，非文本类由比真实世界数据集中的文本类更多的示例表示。因此，第二个问题是如何准备足够有代表性的均衡训练集。尽管DNN（例如卷积神经网络[36]）通常比浅层神经网络具有更高的识别精度，但其计算成本也高得多。为了提高效率，我们首选浅层神经网络，因为单个图像中有数百至数千个样本要分类。第三个问题是我们是否可以找到一种方法来使浅层神经网络获得与深层神经网络一样的竞争准确性。文本对象具有各种大小和长宽比，如何对其进行规范化以适合神经网络的固定输入大小是另一个有趣的问题。为了回答这些问题，我们在[17]中做了初步尝试。幸运的是，取得了一些积极的成果。在本文中，我们将介绍我们方法的更多细节。

我们的方法

我们的文本检测系统的流程图如图6所示。每个模块将在接下来的几节中详细介绍。在本节中，我们将介绍针对基于ER的方法的三个主要开放问题的解决方案的关键思想，即CC生成，重复组件问题和歧义问题。如第2节所述，CER被用作我们系统中的基本CC生成方法。要制作更多文本对象，可以如图5所示。文本CER的示例。提取为ER时，我们不仅在灰度图像上提取CER，还在PII色彩空间中的色相和饱和度通道图像上提取CER。为了减少提取的CC中多余的像素或噪声，我们使用颜色信息来增强提取的CER。建议的彩色增强型CER的优缺点将在第3.3节中介绍。

与之前的方法（例如[2,37]）不同，在文本/非文本分类之前，直接为每个重复的组件做出艰难的决定，我们分两步解决了这个问题。首先，我们提出了一种采样策略，以尽可能多地减少所谓的“ needuplicate” CER对。这样，可以在不影响系统召回率的情况下大大减少计算量。在预修剪步骤之后，可以更安全地做出决定，以选择包含较少字符的更纯净的CC来代表相应的文本。详细信息分别在3.3.2和3.4.3节中描述。

由于模糊性问题的困难，我们必须在系统级别和功能级别上设计解决方案。在系统级别，我们尝试在预修剪步骤中尽可能多地修剪明确的非文本CC，以简化文本行分组问题，然后依靠文本行信息来减少隔离的CC的歧义。在功能级别上，我们直接使用孤立CC或候选文本行的原始像素作为功能，以避免信息丢失。这样，即使某些孤立的CC或非文本行具有与文本相似的属性，也可以根据它们的整体形状或纹理对其进行精确修剪。尽管从理论上看，所提出的方法似乎可以解决歧义性问题，但是仍有一个重要的实际问题需要解决，即训练数据。不使用手工制作功能的代价是需要收集大量有代表性的培训数据，这是一项不平凡且极其繁琐的工作。此外，歧义性问题将使人类贴标者困惑，并使贴标工作更加困难。减少人类标签工作量的一种想法是尽可能多地使用合成样品。但是，合成数据和真实数据之间通常存在不匹配。为了减少标签工作的混乱并安全地使用综合训练数据，提出了一种无歧义的学习策略。此外，提出了一种“分而治之”的策略来简化原始难题，其动机是根据文本对象的属性将原始文本/非文本问题空间划分为五个有意义的子空间，从而使变化在每个子空间中减少。详情请参见第3.4节。

组件树是一种有效的图像表示方法，在众多应用中使用[38]。在我们的例子中，组件树中的每个节点都代表一个ER。由于ER中的像素可能比其外边界像素[19]具有更高或更低的强度，因此可以相应地以max-tree [39]或min-tree类型构建分量树。在我们的方法中，这六个分量树都是最大树，是通过使用Najman的拟线性算法构建的[38]。其他的最大树构建方法可以在调查论文中找到[40]。生成最大树后，首先使用基于几何属性（例如，高度，宽度，长宽比，面积）的规则来对明显的非文本ER进行修剪[20]。然后，使用CER标准从每个组件树上的其余ER中提取CER。接

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[236468]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

从自然场景图像中检测文本的鲁棒方法外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章