场景文本检测与识别:最近的发展与未来的趋势外文翻译资料

 2021-12-02 10:12

英语原文共 19 页

场景文本检测与识别:最近的发展与未来的趋势

计算机科学前沿文章(印刷版)2015年6月

DOI: 10.1007/s11704-015-4488-0

引用:89 阅读:2580

有3位作者,包括:

姚聪 白翔 华中科技大学

发表47篇文章,被引用1898次 发表183篇文章,被引用5817次

这篇文章的某些作者也致力于这些相关课题的研究:

  1. 基于对象的场景文本检测;识别;深度场景学习
  2. 国家自然科学基金项目

以下内容均由白翔于2016年10月7日上传

用户已请求增强下载的文件

前沿电脑科学.

工业部

文献综述

场景文本检测与识别:最近的发展与未来的趋势

朱莹莹,姚聪,白翔

电子信息与通信学院

华中科技大学(HUST),

武汉,430074,中国

copy;高等教育出版社和柏林海德堡施普林格出版社 2014

摘要:文本,作为人类最具有影响力的发明之一,从古代开始就一直在人类社会中扮演着重要的角色。文本中所包含的丰富而精确的信息在基于广泛的视觉应用上是非常有用的。因此,文本检测与识别在自然场景中的应用已成为当前计算机视觉和文档分析的重要研究课题。尤其是近些年来,尽管依然存在着非常多的挑战(例如噪声,模糊、失真、遮挡和变异),委员会已经在这些领域看到了大量的研究成果和进展。本次探究的目的有三个方面:(1)介绍最新的工作成果;(2)确定最先进的算法;(3)预测未来潜在的研究方向。此外,本文还提供了公共可用资源,包括基准数据集,源代码和在线演示。总之,这篇文献综述可以为场景文本检测与识别领域的研究起到一个很好的参考作用。

关键词:文本检测,文本识别,自然图像,算法,应用

  1. 介绍

作为人类抽象和操纵的产物,自然场景中的文本直接携带有高级的含义。这个

属性使出现在自然图像和视频中的文本成为一种特殊的,重要的信息来源。文本中所包含的丰富而精确的信息对各种基于视觉的应用非常有价值。例如图像搜索[1],目标地理定位[2],人机交互[3],机器人导航[4],以及工业自动化[5]。因此,文本的自动检测与识别,为图像和视频中文本信息的获取和利用提供了一种手段,成为计算机视觉和文档分析领域的研究热点。

然而,在自然场景中定位和阅读文本是非常困难的任务。场景文本检测和识别的主要挑战大致可分为三类[6,7];

bull;场景文本的多样性:与通常字体的规则、颜色单一、大小一致、排列均匀的文档图像中的字符相比,自然场景中的文本可能具有完全不同的字体、颜色、比例和方向,即使在同一场景中也是如此。

bull;背景复杂性:自然场景图像和视频中的背景可能非常复杂。像标志、栅栏、砖头和草之类的元素实际上是无法与真实文本区分的,因此很容易导致混乱和错误。

bull;干扰因素:各种干扰因素,例如噪声、模糊、失真、低分辨率、不均匀照明和部分遮挡,可能会导致场景文本检和识别失败。

为了应对这些挑战,近年来大量的方法已经被提出并取得了实质性进展。[8–20]。在几乎所有的这些方法中,研究表现形式是研究的主要课题,因为表现形式是决定有效性和鲁棒性的关键算法。在场景文本的检测和识别中,表现方式涉及到描述和建模自然场景中文本和背景的方式和方法。本文主要从表现方式的角度,对近年来有关场景文本检测与识别的文献进行了综述。本次探究的目的是(1)介绍最新的工作成果;(2)确定最先进的算法;(3)预测未来潜在的研究方向。此外,本文还提供了公共可用资源,包括基准数据集,源代码和在线演示。

在场景文本检测和识别领域,已经有几篇优秀的评论论文[21–23]。然而,这些审查文件有些过时,因为它们大约10年前出版,错过了近年来提出的许多重要的、有影响的著作。我们只知道两个进行近期研究工作的是张等人,[24]和内田等人〔25〕。张等人的研究[24]主要关注于场景文本检测,但忽略了文本识别的方法。内田等人的工作[25]回顾了图像和视频中文本检测和识别的方法,但是它偏袒了文档分析领域的工作,忽视了计算机视觉领域的一些最新工作,这些工作带来了新的见解和想法[7,19,20,26]。与以前的综述论文[21–25]不同,本文对静态图像中的场景检测和识别进行了全面的综述,特别强调了这些领域的最新进展。

本文的其余部分结构如下。首先,我们在第二部分回顾了近年来在场景文本和识别领域的工作。然后在第三部分,我们描述相关的基准数据集以及评价方法。在第四部分我们就目前的场景文本检测和识别的研究提出了自己的看法、想法和意见。最后,在第五部分中给出了结论性意见和未来的研究方向。

  1. 场景文本检测与识别研究进展

近年来,自然图像中的文本检测与识别已成为计算机视觉、模式识别乃至文档分析领域的研究热点。来自这些领域的研究人员已经提出了大量新的想法和方法来从自然图像和视频中提取文本信息。这些方法大致可分为三类:(1)文本检测,(2)文本识别,(3)端到端文本识别,如图1所示。第一类方法[9,12,27–30]关注如何发现和定位可能包含来自自然图像的文本的区域,但不需要进行识别。第二类方法[7,14,15,31–33]假设文本已检测到,只关注将检测到的文本区域转换为计算机可读和可编辑符号的过程。第三类方法[10,11,13,17,19,34]旨在构建端到端的文本识别系统完成检测和识别任务。

图1:场景文本检测说明

2.1场景文字检测相关工作

在过去的二十年里,研究人员提出了许多检测自然图像或视频中文本的方法。主要有三种方法:基于纹理的方法,基于组件的方法和混合方法。

基于纹理的方法[8, 35–37] 将文本视为特殊文本纹理类型并利用其纹理属性,例如作为局部强度、滤波器响应和小波系数,区分图像中的文本和非文本区域。这些方法通常计算起来都很代价高,而且应扫描位置和刻度。此外,这些

方法主要处理水平文本,并对旋转和比例变化较为敏感。在早期的研究中,钟等人[35]提出了一种用于彩色图像中的文本本地化方法。利用水平空间方差对文本进行粗略定位,然后在定位区域内进行颜色分割,以找到文本。后来,李等人[38]引入了文本系统检测来跟踪视频中的文本。在这个系统中,图像是利用小波系数的平均值进行分解,以及作为局部特征的一阶矩和二阶矩。

金等人[36]训练SVM分类器对每个分类器进行分类直接使用原始像素强度作为局部特征的像素。文本区域通过自适应均值漂移[39]在可能的图。这种方法能产生良好的检测效果。结果是图像或视频(图2)具有简单的背景,但很难将这种方法推广到复杂的自然场景图像或视频。

图2:金等人[36]算法的文本检测示例。这个算法是文本检测早期方法的代表性工作。它只适用于相对简单的场景

处理视频中的多语种文本(主要是中文和英文),吕等人[40]提出了一种由粗到细的多尺度搜索方案。方案使用的属性例如文本的强边缘和高对比度文本和非文本区域。此外,该算法还提供了一种局部自适应二进制策略,用于分割检测到的文本区域。与许多其他方法类似,这种方法包括规则和参数很多,所以很难处理不同质量的视频和不同类型的文本。

与传统方法不同,钟等〔41〕提出了一种能直接检测文本的有趣算法在离散余弦变换(DCT)域中。该算法的优点在于效率高,而不用在检测前对图像进行解码。然而,该方法检测精度有限。为了加快文本检测的进程,陈等人8]提出了一种快速文本检测器。该检测器是一个级联Adaboost[42]分类器,其中每个弱分类器都由一组特征进行训练。特征池包括平均强度、强度方差、水平差、垂直差和梯度直方图。该方法的检测效率明显高于其他算法[43-45],但实际图像的检测精度有限。最近,王等人[46]提出了一种从自然场景中定位特定词语的方法。首先,通过滑动窗口检测单个字符,然后,根据结构关系对字符之间可能的组合进行评分。最后,从给定列表中选择最相似的组合作为输出结果。不像

传统的文本检测方法,该算法只能检测给定列表中的单词,不能处理不在给定的列表中的单词。然而,实际上,包含所有可能单词的单词列表并不总是适用于每个图像。这使得与其他文本检测方法相比该方法的适用范围变窄。

基于组件的方法[9,12,28,29,47] 首先通过多种方式(例如颜色)提取候选组件聚类或极端区域提取),然后使用手动设计的规则或自动训练的分类器过滤掉非文本组件。一般来说,这些方法效率更高,因为要处理的组件数量相对较少。此外,这些方法对旋转、缩放和字体不敏感。近年来,基于组件的方法成为场景文本检测领域的主流。

简等人提出的方法,[47]通过颜色聚类将图像分解成多个不重叠的组件,通过组件分析将组件分组成文本行,然后根据几何规则删除非文本组件。由于人工定义的规则和参数,该方法对复杂自然图像的处理效果较差。

利用字符具有的恒定行程宽度,Epshtein等人[9]提出了一种新的图像算子:笔画宽度变换(SWT)。这个操作符提供从边缘恢复字符笔划的简单方法,能够从复杂场景中有效地提取不同比例和方向的文本组件(图3)。然而,这种方法也有一系列人为定义的规则和参数,只考虑水平方向文本。

图3:Epshtein等人提出的算法的文本检测示例〔9〕。这项工作提出了SWT,一种允许直接从边缘映射中提取字符笔画的图像操作符。

诺伊曼等人[10] 提出了基于最大稳定极限区(MSER)的文本检测算法。该算法从原始图像中提取MSER区域作为候选区域并使用经过培训的分类器(图4)排除无效的候选区域。在稍后的阶段,通过一系列连接规则将剩余的候选对象分组为文本行。然而,这种连接规则只能适应水平或接近水平的文本,因此该算法无法处理倾斜角度较大的文本。SWT[9]和MSER[10]是场景文本检测领域的两种代表性方法,构成了许多后续工作的基础[12-14、29、30、34、48、49]。

图4: 诺伊曼等算法的文本检测示例〔10〕。本文首次将MSER引入场景文本检测领域。

稀疏表示在人脸识别[50]和图像去噪[51]中的巨大成功激励了许多研究人员。例如,赵等人[52]根据训练样本构造了一个稀疏字典,并使用它来判断图像中的特定区域是否包含文本。然而,由于学习稀疏字典的泛化能力受到限制,使得该方法无法处理旋转和尺度变化等问题。

与上述算法不同的是,伊等人提出的方法[28]可以检测自然图像中倾斜的文本。首先,根据像素在颜色空间的分布将图像分成不同的区域。然后根据区域的颜色相似性、空间距离和相对大小等特性,将区域组合成连接的组件。最后,非文本组件通过一组规则来丢弃。然而,这种方法的前提是它假定输入图像由几种主要颜色组成,对于复杂的自然图像,这不一定是真的。此外,此方法依赖于

很多人工设计的过滤规则和参数,所以难以推广到大规模复杂图像数据集。

希瓦库马拉等人[53]还提出了一种多方位文本检测方法。该方法在傅立叶-拉普拉斯空间中通过聚类提取候选区域,并利用骨架化方法将候选区域划分为不同的部分。但是,这些组件通常不对应于笔画或字符,只对应于文本块。这种方法不能直接与其他方法进行定量比较,因为它不能直接检测出字符或单词。

基于SWT[9],姚等人[12]提出了一种算法,可以检测自然图像中任意方向的文本(图5)。该算法具有两级分类方案和两组旋转不变量和旋转不变量。是专为捕捉自然场景中人物的内在特征而设计的功能。

图5:姚等人算法的文本检测实例〔12〕。不同于以前的方法,这些方法集中在水平或近平文本,该算法能够检测自然环境中不同方向的文本图像。

黄等人[29]提出了一种基于笔划宽度变换的新运算符,称为笔划特征变换(SFT)。为了解决原笔画宽度变换中边缘点的不匹配问题,SFT引入了颜色一致性,并约束了局部边缘点的关系,得到了较好的分量提取效果。标准数据集上SFT的检测性能明显高于其他方法,但仅限于水平文本。

在[30]中,黄等人提出了一个新的框架场景文本检测,集成了最大稳定极值区域(MSER)和卷积神经网络(CNN)。MSER操作员在前端工作,以提取文本候选,而基于CNN的分类器应用于正确识别真正的文本候选,并分离组件中多个字符的连接。与传统方法相比,该算法可显著提高性能。

混合方法[27,54]是基于纹理组合的方法和基于组件的方法,并利用这两种方法的优点。在由刘等人提出的方法中[54],对所有可能的边缘像素使

原文和译文剩余内容已隐藏,您需要先支付 20元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。