利用视觉线索概念从深度网页中提取主要数据外文翻译资料

 2022-08-06 10:08

英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料


利用视觉线索概念从深度网页中提取主要数据

摘要-从深层网页中提取数据是一个具有挑战性的问题,因为深层网页的底层结构复杂。虽然已经提出了大量的技术来解决这个问题,但所有这些技术都有固有的局限性,因为它们依赖于网页编程语言。网页上的内容总是定期显示,供用户浏览的。但深度网页数据提取有不同的方法,它通过在深度网页上使用一些有趣的常见视觉功能来克服以前作品的局限性。本文提出了一种基于视觉的网页编程语言无关方法。这种方法利用网页的视觉特性从深层网页中提取数据,包括数据记录提取和数据项提取。我们还提出了一个新的评估措施修订版,以评估获取准确提取数据所需的人力。我们在大型web数据库上的实现证实了所提出的基于视觉的方法对于从深度网页中提取数据非常有效。

索引术语Web数据挖掘、Web数据提取、网页的可视功能

一、引言

万维网拥有数以百万计的可搜索信息源。根据最近的一项调查,各种网络数据库已经达到2500万。Web数据库构成了深层Web(隐藏的Web)。检索到的信息以数据记录的形式封装在网页中。这些特殊的网页是动态生成的,很难被传统的基于爬虫的搜索引擎(如谷歌和雅虎)索引。本文将这种网页称为深层网页。每个记录对应一个对象。图1所示为深层网页,其中页内书籍以数据记录的形式呈现,每一个数据记录都有一些数据项,如作者、标题等,为了使其中的数据记录和数据项能够被机器处理,在深层网页爬行和元搜索等许多应用中,都需要从深度网页提取结构化数据。

本文研究了如何从深度网页中自动提取结构化数据,包括数据记录和数据项。近年来,数据提取问题引起了人们的广泛关注,提出的解决方案大多基于对HTML源代码或网页标签树的分析。上述解决方案有一些局限性:它们依赖于网页编程语言,或者更准确地说,依赖于HTML。大多数网页都是用HTML编写的,所有以前的解决方案都是基于分析网页的HTML源代码而编写的,这并不奇怪。但是,HTML本身仍在不断发展,即从2.0版发展到当前的4.01版,并且使用的是5.0版。此外,HTML已经不再是唯一的网页编程语言,并且已经引入了其他语言,如XHTML和XML。它们不能处理网页HTML源代码日益复杂的问题。以前的大多数作品都没有考虑HTML文件中的脚本,如javascript和css。我们从大量的真实网页,特别是深层网页上观察到,当前网页的底层结构比以往任何时候都要复杂,并且与它们在Web浏览器上的布局有很大的不同。

图1:带有数据记录和数据项的深层网页示例

深层网页的设计人员总是以视觉规律来安排数据记录和数据项,以满足人类的阅读习惯。例如,图1中的所有数据记录都是清晰分开的,不同数据记录中相同语义的数据项在布局和字体上是相似的。本文探讨了深网数据记录和数据项的视觉规律,并提出了一种基于视觉的新方法,基于视觉的数据抽取器,自动从深层网页中提取结构化结果。它主要基于用户可以在深度网页上捕捉到的视觉特性,同时还利用一些简单的非视觉信息,如数据类型和频繁的符号,使解决方案更加健壮。我们的方法采用四步策略。首先,从一个Web数据库中给定一个示例的深层网页,获取其视觉表示,并将其转换为一个可视化的块树,稍后将介绍;第二,从可视化的块树中提取数据记录;第三,将提取的数据记录划分为数据项,并将相同语义的数据项对齐;第四,基于示例深度网页为Web数据库生成可视包装器,以便对新的深度网页同时进行数据记录提取和数据项提取。

二、文献综述

上文已经介绍了从深层网页中提取数据的各种方法。我们根据Web数据提取的自动化程度简要回顾了以前的工作,并将我们的方法与完全自动化的解决方案进行比较,因为我们的方法属于这一类别。

A.人工方法

以前的方法是手工方法,在这种方法中,语言被设计用来帮助程序员构造包装器,以识别和提取所有需要的数据项/字段。一些手工方法是Minerva[7],WebOQL。显然,它们效率低,不可扩展。

B.半自动技术

半自动技术可以分为基于序列和基于树的技术。前者,如wien[15]、softmealy[12]和stalker[22],将文档表示为令牌或字符序列,并通过一组训练示例生成基于定界的提取规则。后者(如w4f[24]和xwrap[19])将文档解析为层次树(dom树),并根据该树执行提取过程。这些方法需要人工操作,例如,标记一些示例页,这是劳动密集型和耗时的方法。提取嵌入在公共页面中的各种形式的表,而我们的方法则侧重于从深层网页中提取定期排列的数据记录和数据项。

三、视觉信息

网页信息包括文本和图像(图片、flash动画、视频等)。网页的视觉信息主要包括与网页布局和字体有关的信息。

A.网页布局

用于每个网页的坐标系,即(x,y)。指示网页的左上角。X轴是水平的,从左到右,Y轴是垂直的,从上到下。假设每个文本/图像都包含在一个最小边界矩形中,边与轴平行。然后,文本/图像可以在网页上具有精确的坐标(x,y)。网页上文本/图像的坐标和大小构成了网页布局。

B.字体

文本的字体是非常有用的视觉信息。只有当两种字体在每个属性下具有相同的值时,才认为它们是相同的。

四、深层网页的表现

网页信息可以通过浏览器提供的编程接口获取。本文将网页转换成一个视觉块树,并提取视觉信息。可视块树实际上是网页的分段。根块代表整个页面,树中的每个块对应网页上的一个矩形区域。

图2(a)显示了一个流行的深层网页呈现结构,图2(b)表示深层网页的视觉块树。一个深层网页的实际可视块树可能包含数千甚至数十万个块。可视块树有三个有趣的特性。首先,如果a是b的祖父母或祖先,则a块可以包含b块;其次,如果a和b不满足属性1,则不重叠。第三,具有相同父级的块按照页面上出现的相应节点的顺序排列在树中。

五、数据记录提取

从深度网页中提取数据记录的目的是发现数据记录的边界,并从深度网页中提取数据记录。我们不直接从深度网页中提取数据记录,而是先定位数据区域,然后从数据区域中提取数据记录。pf1和pf2表明数据记录是深度网页的主要内容,数据区域集中在这些页面上。数据区域对应于可视块树中的块。

b5

b4

b6

b8

b7

每个数据记录对应于可视块树中的一个或多个子树,这些子树只是数据区域的子块,所以我们只需要关注数据区域的子块。要从数据区域提取数据记录,我们必须考虑两个事实。首先有一些块,这些块不属于任何数据记录,如统计信息和注释。(例如1、2、3、4、5(下一步))。这些类型的块称为噪声块。噪声块可能出现在数据区域中,因为它们通常靠近数据记录。第二,单个数据记录包含的块的数量不固定,该数据记录可能与树中的一个或多个块相关。图3中,B1块(统计信息)和B9块(注释)为噪声块;有三条数据记录(B2和B3形成数据记录1;B4、B5、B6、B7和B8形成数据记录2;B7和B8形成数据记录3),外框为数据记录的边界。

深层网页的数据记录提取是基于LF、AF等特征来寻找数据记录的边界,即试图确定哪些块属于同一个数据记录。我们通过以下三个阶段实现这一目标:

1.第一阶段:过滤掉一些噪声块。

2.第2阶段:通过计算剩余块的外观相似性来对其进行聚类。

3.第3阶段:通过重新分组块搜索数据记录边界。

A.第一阶段:噪声块过滤

过滤很重要,因为噪声块总是出现在顶部或底部。如果这些位置的块未对齐,则将其作为噪波块移除。此步骤不保证去除所有噪声块。例如,在图3中,可以在此步骤中移除块B9,而不能移除块B1。

B.第2阶段:分组

数据区域中的其余块根据它们的相似性和外观进行分组。由于数据记录中可能有三种信息,即图像、纯文本和链接文本,因此从三个方面计算块之间的外观相似性。对于图像,我们指向大小;对于纯文本和链接文本,我们指向共享字体。假设两个或多个块根据大小和字体相似,这些块的外观应该更相似。

C.第3阶段:区块重组

块需要重新分组,以便属于同一数据记录的块组成一个组。块重新分组的基本思想如下:根据CF1,每个数据记录中的第一个数据项始终是强制的。显然,包含第一个项的块的集群具有可能的最大块数;n是这个最大数。很容易看出,如果一个集群包含n

块,这些块包含必需的数据项。我们的重新分组方法首先选择一个具有n个块的集群,并使用这些块作为种子来形成数据记录。接下来,给定一个块B,我们根据TOCF2确定哪个记录B属于哪个记录。

六、数据项提取

AF3表示在可视块树中复合数据项不能再被分割。因此,对于一个数据记录,我们可以在视觉块树中从左到右收集其叶节点,进行数据记录分割。每个复合数据项也对应于一个叶节点。我们可以先将其作为常规数据项处理,然后在初始数据项对齐之后,使用3中提到的启发式规则将其分割为实际数据项。

A.数据项对齐

cf1表示由于存在可选数据项,我们无法直接对齐数据项。数据记录在某些域中丢失某些数据项是很自然的。例如,有些书有折扣价,而有些书没有。

通过数据记录分割,将每条数据记录转化为一系列数据项。数据项对齐的重点是如何将相同语义的数据项对齐在一起,并保持每个数据记录中数据项的顺序。在下面,我们首先定义了数据项的视觉匹配,然后提出了一种数据项对齐的算法。

B.数据项的可视化匹配

AF2表示如果不同数据记录的两个数据项属于同一语义,它们必须具有一致的字体和位置,包括绝对位置和相对位置。在图8中,描述了一个简单的算法来匹配来自不同数据记录的两个视觉上相似的数据项。

算法的前四行表示只有在两个数据项具有相同的绝对位置和相同的字体时才匹配。这里,绝对位置是数据区域左侧和数据项左侧之间的距离。当两个数据项不具有相同的绝对位置时,如果它们具有相同的相对位置,它们仍然可以匹配。对于相对位置匹配,应匹配两个输入数据项前的数据项(从第5行到第6行)。例如,对于图4中的两个记录,标题可以基于绝对位置进行匹配,作者可以基于相对位置进行匹配。

七、结论和未来工作

所需信息以Web数据库在响应用户查询时返回的数据记录的形式嵌入到深度Web页面中。因此,从深层网页中提取结构化数据进行后续处理是一项重要的任务。本文主要研究结构化Web数据提取问题,包括数据记录提取和数据项提取。我们的方法基于四个主要步骤:可视化块树构建、数据记录提取、数据项提取和可视化包装器生成。可视化块树构建是使用VIPS算法为给定的示例深度页构建可视化块树。与基于我们提出的视觉特征,进行了可视化块树、数据记录提取和数据项提取。实施后仍有一些问题需要解决,我们计划以后再处理。在当前基于可视化的数据提取中,通过调用IE的编程API来获取网页的可视化信息,这是一个耗时的过程。为了解决这个问题,我们打算开发一组新的API来直接从网页获取可视信息。

参考文献:

  1. C. H. Chang, M. Kayed, M. R. Girgis, and K. F. Shaalan, “A Survey of Web Information Extraction System”, IEEE Trans. Knoweledge and Data Engineering, Vol. 18, No. 10, pp. 1411-1428, Oct 2006
  2. Mendelzon, “WebOQL: Restructuring Documents, Databases, and Webs,”Proc. Intrsquo;l Conf. Data Eng (ICDE),pp. 24-33, 1998.
  3. W. Gatterbauer, P. Bohunsky, M. Herzog, B. Krpl, and B. Pollak, “Towards Domain Independent Information Extraction from Web Tables,”Proc. Intrsquo;l World Wide Web Conf. (WWW), pp. 71-80, 2007.
  4. Wei Liu, Xiaofeng Meng,Member, IEEE, and Weiyi Meng, Member, IEEE 2010.
  5. J. Hammer, J. McHugh, and H. Garcia-Molina, “Semistructured Data: The TSIMMIS Experience,” Proc.. 1-8, 1997.
  6. http://www.w3.org/h

    剩余内容已隐藏,支付完成后下载完整资料


    资料编号:[254438],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。