基于Android opencv的光栅字符识别外文翻译资料

 2022-01-29 06:01

英语原文共 30 页,剩余内容已隐藏,支付完成后下载完整资料


在本文中,从历史的角度考虑OCR系统的研究和开发。 本文主要分为两部分:OCR系统的研究与开发,以及商用OCR的历史发展。 研发部分进一步分为两种方式:模板匹配和结构分析。 已经表明,两种方法彼此越来越接近,似乎它们倾向于合并成一个大流。 另一方面,商业产品可以分为三代,对于每一代,选择和描述一些代表性的OCR系统。 本文还提出了一些关于最近应用于OCR的技术的评论,如专家系统,神经网络和一些开放性问题。 最后,我们将展示我们对这个迷人领域未来趋势的看法和希望。

关键词 - 光学字符识别;特征提取;模板匹配;结构分析;学习;汉字识别;实用的OCR系统。

介绍

科学和技术的历史不像一条笔直的运河,而是像一条蜿蜒曲折的河流。我们不仅会描述主流,还会描述由此产生的影响,就像在曲流改变方向后生成牛轭湖一样。 OCR研究的历史,如语音识别的历史,在模式识别领域相对较老。在模式识别研究的早期,几乎每个人都学习了OCR。一个原因是字符处理起来非常方便,并且被认为是一个可以轻松解决的问题。然而,针对许多人的期望,经过一些初步的轻松进展,解决这个问题的难度浮出水面。因此,在模式识别领域,人们的兴趣也变得越来越广泛,例如,图像理解和3-D对象识别。当然,这种研究有实际需求。一个新的领域总是给它的先驱者带来好处,但是对这些模式识别主题的研究似乎面临着一个强大的障碍。从这个意义上讲,OCR的主题并不是那么特殊,而是具有普遍性,因为它包含了所有其他主题共有的模式识别的基本问题。从这个意义上说,我们尽可能地从一般观点来写出它的历史。实际上问题是最深刻的,事实上我们在撰写这本专刊时就意识到了这一点。

另一方面,没有它在工程中的应用,研究就不可能存在。幸运的是,尽管文字处理器很普遍,但市场对OCR的需求依旧非常强劲。例如,日本十几家领先的公司出售或准备出售手工印制的汉字字符阅读器。到目前为止,这些先进的机器尚未普及,但可以肯定的是,如果价格和性能满足用户的要求,这些机器将作为非常自然的人机界面广泛用于办公室。 OCR知识的积累正在缩小用户与制造商之间的差距,这也得益于计算机技术的快速发展。

这一历史回顾大致分为三个部分。第一部分是前奏。第二和第三部分分别构成论文的主体,即研究和产品。研究部分不仅有自己的存在权;它还为产品部分提供了准备,使读者能够更容易,更深入地了解产品的技术发展。研究部分进一步分为两种方式:模板匹配和结构分析。本文表明这两种方法正在趋同。也就是说,模板匹配方法已经吸收了结构分析技术,现在这两种方法似乎处于融合的边缘。另一方面,我们将商业产品分为三代,我们选择代表性的OCR并对其进行详细描述。最后,我们对OCR的专家系统和神经网络应用进行了评论。

该描述可能偏向于日本的研究和开发,但它反映了OCR的研究和开发在日本特别活跃和繁荣的事实。多年来,茨城县的电子技术实验室(ETL)在日本开发OCR技术方面发挥了关键作用。另一个原因是许多重要文件尚未翻译成英文,因此我们认为这是向国际社会介绍其中一些文件的好机会。然而,在撰写本文时,我们发现了一些非常有用的参考书和评论文章,其中包括Ullman [1],Sakai和Nagao [2],Pavlidis [3]以及Mori和Sakakura [4]的书籍和Suen等人的论文。 [5],Schurman [6],Couindan和Shivaprasad [7]。其他书籍和评论文件在适当的地方提及,但很难阅读与该主题相关的所有大量论文。因此,我们避免了传记描述,并追求研究流。在这里,我们没有提到文档分析和草书识别的非常重要的研究领域,因为本期的其他论文都提到了它们。但是,我们可能错过了一些重要的论文或专利。实际上,在准备本文时,我们发现了一些非常有用的新论文。我们希望读者能够对本文提出批评,并希望为研究人员推进OCR技术的发展提供一定的帮助。

Ⅱ OCR的黎明

1929年,Tausheck [8]在德国获得OCR专利,1933年Handel [9]在美国也做了同样的事情。据我们所知,这是OCR概念的第一个概念。那时某些人梦想着有能够读取字符和数字的机器。直到20世纪50年代计算机时代到来,这仍然是一个梦想。但是,我们认为他们的基本想法值得一提,因为它仍然存在。从这个意义上讲,我们介绍了Tausheck的专利。原理是模板/掩码匹配。这反映了当时使用光学和机械模板匹配的技术。通过机械掩模的光被光电探测器捕获并机械扫描。当发生完全匹配时,光线无法到达检测器,因此机器识别出打印在纸张上的字符。

从数学上讲,原理是叠加的公理,欧几里德首先将其描述为元素第一卷中的第七个公理。然而,对于人类而言,E在图案意义上与ε具有相同的含义。因此,它们的等价原理是什么?到目前为止还没有给出一般的解决方案,但它是模式识别中的主要和核心问题。第七个公理是提出形状等价的第一个原则。我们稍后会回到这个问题。我们将看到,采用更先进的硬件技术,如阴极射线管和模拟电路,实现了叠加原理。实际上,这项原创作品是OCR技术主流的起源。 “模板匹配方法”在广义上是叠加原理。

Ⅲ试试的年纪

第一台商用计算机UNIVAC Ⅰ于1951年安装并开始在美国统计局工作。在硬件方面,电子产品是计算机时代的基础。首先,电子设备使工程师将OCR视为一种可能的现实。但是,在硬件的数量和复杂性方面存在很大的局限性。

A.模板匹配方法

通过将二维信息投影到一维上来实现复杂性的基本降低。 Kelner和Glauberman [10]在1956年使用磁移位寄存器时采用了这种方法。通过狭缝从上到下垂直扫描适当放置的输入字符,通过该狭缝将打印输入纸上的反射光传输到光电探测器。这是一个简单的计算,仅使用代数加法来获得一个值,该值与狭缝内黑色部分的区域成比例,该区域对输入字符进行分段。然后将采样值发送到寄存器以将模拟值转换为数字值。通过获取每个采样值与相应模板值之间的差异的总和来完成模板匹配,每个模板值被标准化。机器没有商业化。

我们在此注意到匹配过程中非常重要的一点,涉及注册的一般问题。模板匹配过程可粗略地分为两个过程,即,在模板上叠加输入形状,并在上述两种情况下测量输入形状和模板之间的重合程度。水平或垂直投影,这使叠加过程在一个方向上不变。这在图1中清楚地说明。当狭缝足够长以覆盖输入数字时,即使数字垂直移动,投射在Chi;轴上的黑色区域的值也没有变化。但是,我们需要检测输入数字的起点和终点,以便根据相应的模板对其进行注册。这很容易完成,因为数字都是简单连接的,并且在相邻数字之间的每个间隔中有足够的空间。实际上,投影技术已广泛用于分割文档的输入字符串和图像区域,例如,在当前OCR中。这种处理在OCR术语中称为预处理。

图1 用狭缝把二维缩小到一维示意图(a)一个输入数字“4”和从左到右扫描的狭缝(b)黑色区域投影到x轴上狭缝的扫描方向

上面提到的两个主题告诉我们,本质上字符包含二维信息。如果我们想将尺寸减小到一维,那么我们必须扭曲字符的形状,以便机器可以识别它。对于具有少量字符的数字,可以允许这种失真。从这个意义上说,从这个意义上讲,MICR的应用非常有限,尽管它被银行广泛使用。然而,从人机界面的角度来看,它自然是一个主要问题。所以人们开始处理二维信息。

在查看二维信息时,使用光学技术执行模板匹配似乎很自然。实际上,Hannan[11](RCA集团)于1962年将电子和光学技术结合创造了非常复杂的OCR。当时RCA拥有世界上最先进的电子管技术,完全用于OCR研究工作。 Hannan总结了他的论文如下:“总之,该程序的测试结果证明了RCA光学掩模匹配技术可以用来可靠地识别完整的英文和俄文字体的所有字符(需要91个频道)。”但是,没有根据这些技术宣布商业RCA OCR。伟大的实验没有继任者就结束了。

计算机的出现很自然地影响了硬件和算法方面的OCR设计。我们介绍一种逻辑模板匹配方法。最简单的一种称为窥视孔方法。首先,我们假设输入字符是二值化的。二值化是OCR技术中的重要预处理。理想地,输入字符具有两个密度级别,即黑色和白色,通常分别由1和0表示。但是,实际数据并非总是如此。我们稍后会讨论这个问题。在这里,我们注意到二值化并不是一件容易处理的问题。

想象一个二维记忆平面,在其上存储二进制输入字符并按照某种规则进行登记,其中字符位于右上角,例如,如图2所示。显然,对于理想字符,具有恒定大小和宽度的笔划,黑色部分总是黑色,白色背景也是如此。然后为黑色和白色区域选择适当的像素,使得所选择的像素可以将输入字符与属于其他类别的字符区分开。参见图2,容易构造所谓的逻辑匹配方案,称为窥孔方法。

图2 窥视孔方法示意图

第一个基于窥视孔方法的OCR由索莱特电子集团有限公司 [12]宣布,并于1957年被称为ERA(电子阅读自动化)。读取的字符是由收银机打印的数字。读取速度为120个字符/秒(章节),非常高。这是由于使用了简单的逻辑运算。窥孔总数为100,远远大于获得实际数据稳定识别所需的[log210] = 4的理想数量。

在ETL, Iijims等人在1958年基于相同的方案设计了OCR [13]。然而,设计比使用三级逻辑的ERA更系统,因此它更有效。可识别的字符是72个数字;使用10x12个网格。使用的窥视孔总数为44,10像素/字符。使用ETL Mark IV计算机的逻辑电路。实际上,OCR是当时在ETL计划的更大系统的一个组成部分。它是机器翻译器的输入设备。

自相关:如上所述,二维模板匹配在注册方面存在缺陷。研究人员意识到这一点,并开始设计出不变的新方法。两种方法尤其受到关注。一种是基于自相关方法,另一种是基于矩方法。后者是非常雄心勃勃的,旨在实现移位和旋转不变性,稍后将与傅里叶级数一起讨论,傅立叶级数也是移位不变的方法。

很容易得出自相关方法的精确公式;因此可以在硬件制造之前完成模拟。这种方法现在很普遍。这是第一次采用这种方法。例如,在1958年,IBM 7090被宣布。这台功能强大的计算机迅速在某些研究中心上市。 IBM的Horowitz和Shelton [14]在1961年对自相关方法进行了非常广泛的研究。他们提出了一种非常大的专用移位寄存器机器,用于精确和高速地计算自相关。同年,佐藤等人 [15]日本政府的无线电波研究实验室对自相关方法进行了非常系统的模拟。不幸的是,结果令人失望。当用最大输出值标准化时,“R”和“B”之间的差异仅为0.4%。另外,字符对“K”和“R”,“A”和“V”以及“U”和“D”之间的差异小于1%。

B.结构分析方法

模板匹配的基本原理实际上只适用于识别打印字符。但是,我们需要考虑另一组手写/手写字符。手写字符形状的变化很大,很难为它们创建模板。所谓的结构分析方法已经应用于手写字符识别。但是,在OCR开发的早期阶段,我们注意到除了模板匹配之外还考虑了一些非常原始的方法。这些方法的弱点是由于当时受限的硬件资源。我们在结构分析方法中包括这些方法,如以下小节所述。但是,将显示这些方法在概念方面标记逻辑模板匹配的延续。实际上,与上面的描述相反,这些简单的方法应用于程式化字体,而一些应用于识别受约束的手工打印字符。

在结构分析方法的情况下,没有数学原理。相反,它仍然是一个开放的问题,没有迹象表明它将在不久的将来得到解决。因此,我们的直觉一直是攻击这个问题最可靠的武器。但是,似乎某些非正式战略可用于结构分析。首先,我们给出了一个可以想象的策略的非常一般和基本的概念。由于结构可以分成几部分,因此可以通过这些部分的特征和这些部分之间的关​​系来描述。然后问题是如何选择它们之间的特征和关系,以便描述给每个角色清晰的识别。因此,特征提取已成为模式识别研究的关键。

1)狭缝/笔划分析:将沿着该线给出具体描述。已经提到窥视孔方法被认为是一种模板匹配方法。现在我们尝试将其扩展到结构分析方法。窥视孔并不总是限于单个像素。相反,它可以扩展成狭缝或窗口,从而不必固定在二维平面上的特定位置。两个像素之间的逻辑关系可以扩展到它们之间的一般关系。以上描述在图3中示出。

图3 将窥视孔推广到结构分析

也许最简单的例子是所谓的交叉计数技术,其中扫描线被视为狭缝。狭缝的特征是其中黑色区域的数量。 Rohland [16]在1954年提出了这种技术,其中主要使用垂直扫描。 1961年,Weeks [17]以更简单的方式使用了这种方法。在该方法中,在四个方向上进行扫描,即垂直,水平和两个正交对角线,对于每个方向,使用六条等间隔和平行的线来覆盖字符。交叉计数,定义为六个光栅中的每一个交叉黑色的次数。然而,三个或更多个交叉计数被认为是三个,因此0,1,2和3的计数是可能的。因此,输入字符被编码为6times;6times;4 = 144位二进制模式,其用于基于统计判定方法的识别。统计决策方法一般是模式识别的一种非常重要的理论方法。然而,这已经合理地建立起来,因此我们建议读者参考Duda和Hart [18]的优秀著作,Highleyman的论文[19],以及Nagy关于OCR的论文[20]。

在这里,我们从数学意义上对上述方案进行了严格的描述。狭缝通常是凸起区域,在每个凸起区域内我们可以检测拓扑和几何特征。连接组件和黑色区域是典型特征。前者只是交叉计数,后者是黑色部分的长度或宽度。这些特征是作为狭缝形状和尺寸及其位置的函数给出的。在上述情况下,由于简单的扫描机制,狭缝简单地由直线给出。但是,我们不必局限于这种扫描方法。

事实上,约翰逊[21]在1956年和迪蒙德[22]在1957年使用一个探测器作为狭缝,如图4所示。对于数字,似乎有两个基本点围绕它们编写。因此,跨越以两点为中心的一些探测器/狭缝是非常有效的。因此,我们可以计算每个狭缝中的交叉时间,并且在此基础上,可以容易地区分数字。通过为每个探测器分配重量

全文共43453字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[216],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。