基于关键词查询的聚焦网络爬虫外文翻译资料

 2023-02-23 03:02

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


基于关键词查询的聚焦网络爬虫

曼尼什·库马尔*a,安基特·宾达拉,罗宾·高塔马,拉杰什·巴蒂亚

印度昌迪加尔佩奇理工大学,160012

摘要 由于数据量巨大,在Web上查找信息是一项困难而具有挑战性的任务。搜索引擎可以用来促进这项任务,但仍然很难覆盖所有网页上的网页。本文提出了一种基于查询的爬虫,利用一组与用户感兴趣的主题相关的关键字在搜索界面上进行查询。这些搜索界面位于与seed URL相对应的网站网页上。这有助于爬虫从域中获取最相关的链接,而不必深入该域。现有的聚焦爬行方法都没有使用基于查询的方法来查找感兴趣的网页。在所提出的爬虫程序中,关键字列表被传递给在网站上找到的搜索查询接口。所提出的工作将提供基于特定领域中的关键字的最相关信息,而不必实际爬过它们之间的许多不相关的链接。

关键词 网络爬虫;信息检索;聚焦网络爬虫;基于查询的爬虫

1 介绍

搜索引擎可以定义为从万维网(WWW)中查找信息的程序。搜索引擎通过根据用户查询搜索索引数据库来生成结果。通常,这些条件是根据关键字或短语指定的。检索的结果以符合指定条件的有序方式显示。在后端,搜索引擎使用定期更新的索引来快速高效地运行。搜索引擎通过搜索大部分Web来维护数据库索引。搜索引擎不同于Web目录,因为目录是由人工编辑维护的;另一方面,搜索引擎使用爬虫程序。

网络爬虫也被称为网络蜘蛛或网络机器人。这是一个自动的计算机程序,通过跟踪超链接递归浏览WWW。爬虫程序从Web获取数据的过程称为Web爬虫或spidering。网络爬虫程序下载访问过的网页,以便可以创建这些网页的索引。Web爬虫程序从要访问的统一资源定位器(url)列表开始,称为seed url。当爬虫程序启动时,它会获取网页中的所有超链接,并将它们添加到要进一步访问的URL列表中[2]。

提出了一种基于查询的基于网页可搜索接口的聚焦爬虫。这些接口公开了提供种子URL的网站的后端数据库。建议的工作比现有的方法更好,因为它不需要沿着路径到达感兴趣的网页。提出的爬虫使用我们的动态关键字列表在种子网页上发送一组查询。通过学习机制维护和优化关键字列表,并动态更新关键字列表。论文的其余部分安排如下:第2部分是对现有工作的文献综述。第3部分详细讨论了工作背后的动机、设计和架构以及拟议工作的实施细节。

2 背景及相关工作

专注的网络爬虫[3]知道自己的爬网边界,而不是通过互联网收集和索引所有网页。它有选择地查找与预定义主题集相关的网页。它会在网页上找到那些最相关的链接,同时避开网页上不相关的区域。对各种爬虫的最新评论见[2]。一个聚焦的网络爬虫程序的目的是收集与Web上的某个特定主题相关的所有信息[4]。研究[5]讨论了使用扫描或爬网处理文本数据库的执行计划。选择的方法对执行时间和精度有很大的影响。寻找隐藏Web的查询接口是一个活跃的研究领域[10]。这些接口不用于集中爬网。

基于关键字查询的聚焦爬虫程序使用元数据指导爬虫过程。关键字数据集用于创建有效的查询,得到的结果反馈给系统。印度一个名为Sandhan[6]的旅游和健康项目就是一个例子,它是一个多语言平台。这一项目旨在利用N-gram方法辨识网页的语言。出于培训目的,使用区域、非区域和健康查询。Tang等人。[7] 提出了一种针对医学信息相关性和检索到的网页质量的有针对性的检索方法。它们使用关联反馈爬虫,使用逐例查询。Altingovde等人。[8] 构造了一个查询引擎,这一引擎允许对提取的数据进行关键字和高级查询。最终生成了一个特定于域的Web门户,它可以从后端数据库中提取信息。

3 研究与实现方法

本节详细讨论了工作背后的动机、设计和实现方法的架构。

3.1 动机

这项工作可以看作是我们以前工作的延伸[9]。最后一个开发的爬虫涉及到开发一个基于URL排序的聚焦Web爬虫。爬虫程序将输入作为包含以下内容的文件:印度姓氏列表、印度城市和印度主要研究所名称列表以及种子url。我们上一个工作的基本架构如图1所示。

最初,应用了一种DFS爬网技术,爬虫程序从种子URL开始,继续盲目地爬网链接到网页的下一个URL,直到达到一定的深度。与网页上的关键字数据库匹配的关键字数将被计算在内。具有最大匹配关键字数的网页被认为是最相关的。

本文对上述工作进行了扩展。上面的爬虫从每个域收集的前10个最相关的网页被选中。从这些网页中,优先关键字列表是从这些url中出现最多次数的单词生成的。由此生成的优先级关键字列表用于在爬网的每个步骤中对url进行优先级排序。它用于排序种子URL,并进一步将获得的URL与用户感兴趣的主题相匹配。

图1 一种基于DFS的聚焦网络爬虫

3.2 爬虫设计与环境组件配置

图2显示了提议的爬虫程序及其工作流程图。当用户提供一组种子URL并选择其中一个种子URL进行探索时,它就开始了。搜索结果是使用google应用程序编程接口(API)和seed URL上的搜索接口获得的,在这两种情况下,关键字数据集都用于起草查询。结果被收集并合并,计算基于加权标签的每个网页的适应度值。根据适应度值对网页进行优先排序,并由网络爬虫进行搜索。接下来,我们将详细讨论主要组件。

1)初始种子:种子url是开始爬网过程的url。初始种子数据库包含一组URL。

2)搜索界面:从选择的种子URL,接下来我们尝试在相应的网页中找到搜索界面。它包括查找任何搜索框以及单选按钮、复选框、文本框等。

3)使用关键字拍摄查询:为此,使用了一个名为Selenium的工具。在网页上找到搜索界面后,将为关键字列表中的每个单词起草查询。

4)谷歌API调用:如果网页上没有对应于seed URL的搜索界面,则会为Google上的每个关键字传递关键字查询。使用Google的advanced search选项,查询的域被限制为种子URL。之所以这样做,主要是因为首先观察到;有些网站上可能没有搜索界面。其次,seed-URL网页搜索的结果与Google限制域搜索的结果不同,即使搜索界面使用Google搜索。因此,要合并所有结果,使用Google API。

5)所收集的顶级结果:所有关键字查询的顶部结果都是为seed URL和Google API搜索收集的。

6)合并两个结果:然后,从seed URL关键字搜索和Google API搜索收集的结果合并到每个关键字的一个列表中。重复的链接将从列表中删除,从而给出搜索中的实际相关链接。

7)适应值计算:合并列表中每个网页的适应度值首先根据其标记结构创建网页的文档对象模型(DOM)树,如图3所示。在这个步骤中,每个标签的权重被分配并作为输入提供给爬虫程序。下面讨论两种计算适应值的方法。

8)区分URL的优先级:然后,根据网页的适应度值,根据优先级队列中的适应度值对url进行优先级排序。

9)基于优先级的爬取网页:现在基于优先级,爬虫程序按照url的优先级顺序获取网页。

图2 拟议爬虫工作流程图

图3 为示例HTML网页创建的DOM树

最大权重法:将根到叶路径上的最大权重指定为路径分数。网页上所有路径权重之和就是网页的适合度值。即路径分数=max(第1祖先的权重,第2祖先的权重,第2祖先的权重.....第n个祖先的权重)。以图三中的数据为例,其中一条路径的分数将是:路径分数=(“strong”标签的权重,“段落”标签的权重,“主体”标签的权重,“html”标签的权重)

K级重量:在这种方法中,在计算页面的适应度值时,考虑了从根到叶路径中所有标记的权重和相关度。

3.3 实施细节

提出的基于关键字查询的Web爬虫是用Python实现的。使用的主要库有BeautifulSoup、Selenium客户端API和WebDriver、Google搜索API、正则表达式模块、Urllib2。

4 结果和讨论

这一部分将介绍对各种网站上的测试运行的讨论和分析。作为我们主要项目的一部分,我们测试了拟议的网络爬虫,以找到在印度以外工作的印度裔院士的网页。作为爬虫程序的输入,将准备关键字列表。这个爬虫在25所外国大学的网站上运行,寻找印度裔院士。作为一个样本,我们代表威斯康星大学的结果。

图4 威斯康星大学的样本结果

图5 计算分数对应的网页

在图四中,分数1表示使用最大父方法的分数,分数2表示使用K级方法计算的分数。图5表示大学的相应网页。

基于URL排序与基于查询的Web爬虫对比

在我们之前的工作中,基于URL排序的Web爬虫[9]在爬过许多其他网页后,在一定深度后找到了相关的URL,而在我们的基于查询的爬虫中,我们只在第一深度找到了各种国外大学网站的相关链接,如图6所示。

图6 基于URL排序与基于查询的Web爬虫

网页关联度计算:K级法与最大祖先法对比

网页相关性计算是任何一个网络爬虫最重要的方面之一。它让我们知道网页信息对我们的爬虫有多重要。我们构造了两种相同的方法,结果如图7所示。如果我们只使用关键字的出现作为网页关联性的标准,它并不能给我们完整的图片。考虑到网页的HTML结构,我们提供了另一个参数,以结构化的方式比较这些网页。

图7 使用两种方法计算网页相关性(领域:普林斯顿)

解释

1. 在域内,由于网页结构相似,k层方法优于max方法。它还包括文本标记字段的每个祖先的权重,包括文本字段的深度,给出了一个关于网页相关性的好主意。

2. 在域间,max方法更好,因为两个域的结构可能不相似,所以考虑每个文本字段的最加权祖先标记来计算页面相关性,可以很好地了解页面的相关性。

5 结论

本文讨论了一种基于关键词查询的网页快速爬虫算法。感兴趣的网页是独立于它们在网站中所处的级别进行爬网的。基于查询的爬虫比以前的BFS爬虫在所需时间和精度方面更有效。页面关联计算器使用相关网页的DOM结构。该方法在确定网页的相关性时,将网页与元标记一起考虑。讨论了计算网页相关性的K层方法和最大祖先方法。从结果和讨论中可以看出,K层方法更适合域内计算,最大祖先方法更适合域间计算。

6 参考文献

[1]Brin, S., Page, L. (2012) “Reprint of: The anatomy of a large-scale hypertextual web search engine.” Comput. Networks. 56 (18): 3825–3833. doi:10.1016/j.comnet.2012.10.007.

[2]Kumar, M., Bhatia, R., Rattan, D. (2017) “A survey of Web crawlers for information retrieval.” Wiley Interdiscip. Rev. Data Min. Knowl. Discov. e1218. doi:10.1002/widm.1218.

[3]Shokouhi M, Chubak P, Raeesy Z. (2005) “Enhancing focused crawling with genetic algorithms.” In Information Technology: Coding and Computing, 2005. ITCC 2005. International Conference on 2005, IEEE Apr 4, 2: 503-508.

[4]Chakrabarti, S., Van Den Berg, M., Dom, B. (1999) “Focused crawling: A new approach to topic-specific Web resource discovery.” Comput. Networks. 31 (11), 1623–1640. doi:10.1016/S1389-1286(99)00052-3.

[5]Ipeirotis, P.G., Agichtein, E., Jain, P., Gravano, L. (2007) “Towards a query optimizer for text-centric tasks”. ACM Trans. Database Syst. 32 (4): 21 doi:10.1145/1292609.1292611.

[6]Priyatam PN, Vaddepally SR, Varma V. (2012) “Domain specific search in indian languages.” In Proceedings of the first workshop on Information and knowledge management for developing region 2012 Nov 2, ACM: 23-30.

[7]Tang, T.T., Hawking, D., Craswell, N. and Griffiths, K. (2005) “Focused crawling for both topical relevance and quality of medical information.” In Proceedings of the 14th ACM intern

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[234365],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。