一种具有点击流分析应用的集中趋势并行Web爬虫的体系结构外文翻译资料

 2021-12-17 10:12

英语原文共 16 页

一种具有点击流分析应用的

集中趋势并行Web爬虫的体系结构

Fatemeh Ahmadi-Abkenari, Ali Selamat

软件工程研究组,计算机科学系,计算机科学与信息系统学院

马来西亚科技大学,81310UTM柔佛巴哈鲁校区,柔佛州,马来西亚

摘要:

网络的快速发展给通用的单进程爬虫带来了许多挑战,这其中包括了搜索结果中存在一些不相关的答案以及万维网巨大维度的覆盖范围和扩展问题。因此,需要更多强大并且令人信服的算法,在适当的时间内产生更精确的并具有相关性的搜索结果。由于在多进程爬虫中使用基于链接的Web页面重要性衡量标准是具有相当大的通信开销的,并且在整个系统上并不能产生精确的答案集合,所以在搜索引擎中使用这些指标来进行度量,并不是一个绝对的解决方案,来确定整个搜索系统设置的最佳搜索答案。因此,应该考虑使用链接独立的网页重要性指标度量,来管理获取的URL队列中的优先级规则。本篇论文的主要目的是为集中的结构化并行Web爬虫提出一个适当的加权体系结构,该体系结构采用了基于链接的和基于点击流的网页重要性指标来进行度量。在我们拥挤的UTM大学网站的受限边界网络区域上进行了实验,实验结果证实了该指标所提出的效率。

  1. 介绍

万维网的维度正在以不可预测的速度扩展。这导致的结果是,搜索引擎遇到许多的挑战,例如如何向用户产生更准确并且是最新的搜索结果,并且及时的做出合适的响应。集中式单进程爬虫是搜索引擎的一部分,它遍历了Web图并从初始URL或者种子URL中来获取所有的URL,并将它们保存在队列中,然后以迭代的方式(根据重要性衡量标准)选择第一个最重要的K URLs来进行进一步的处理。另一方面,并​​行爬虫是一个多线程爬虫,在将爬下来的网站分成不同的段时,每个并行代理都负责一个网页的分数。由于Web规模庞大,单进程爬虫无法达到可接受的下载速率,因此在搜索引擎体系结构中使用并行爬虫是可扩展的。此外,不同的并行代理,可以在地理位置较远的地方运行,并且在不同区域下载需要的界面。因此,应用并行爬虫,可以减少网络上的负载。

采用一个适当的网页重要性衡量标准是每一个爬虫的性能瓶颈。用的最多的类别是基于链接的重要性衡量标准。此类标准的问题在于,由于并行代理之间发现的链接的信息会持续传输,所以基于这些指标计算出并行搜寻器中的页面重要性会产生更多的通信开销。此外,对网页重要性的决定并不反映页面的实际分数,因为计算的结果仅基于已由不同并行代理访问的Web的子集。这导致的结果就是,在下载更多网段并发现更多链接时,边界中URL的计算重要性将受到很大影响。因此,在下载的Web页面中应用独立的重要性度量标准将是一个合适的解决方案。

由于我们将采用基于点击流为衡量标准的启发式算法,因此我们假设有一个标准,这本标准是允许授权的抓取工具具有访问服务器日志文件的合法权限。在本文中,我们首先回顾了并行抓取工具、聚焦抓取工具和现有网页重要性指标的文献。然后,我们简要讨论基于点击流的度量标准,因为它已在配套文件中进行了详细讨论。由于在提出新的网页重要性度量标准时,应引入新的爬网程序体系结构来应用此度量标准,所以这方了便在焦点并行爬网程序的体系结构中应用基于点击流的度量标准。

  1. 并行爬虫

并行爬虫程序的一个合适的架构,是并行代理程序之间重叠的下载页较低的架构。此外,每个并行代理的责任区内下载页面的覆盖率都很高。但是,整体并行搜寻器的质量或其获取最重要页面的能力不应低于集中式搜寻器的质量。为了实现这些目标,需要并行代理之间的信息交换措施。虽然这种通信产生了不可避免的开销,但是为了优化整体性能,应该考虑这些目标之间的令人满意的折衷。

选择适当的Web分区功能是并行搜寻器中另一个值得关注的问题。Web有三种分区功能,分别是基于URL哈希、基于站点哈希和分层方案。在基于URL散列的函数中,根据每个URL的散列值来完成对每个并行代理的页面分配。因此,具有相同哈希值的URL将分配给同一个并行代理,而不管其域名如何。在此方案下,网站中的不同页面由不同的并行代理进行爬网。在基于站点哈希的功能中,基于站点名称的哈希值将网站中的所有页面分配给一个代理程序。在分层方案中,根据国家,语言或URL扩展的类型等问题来进行Web分区。因此,基于站点哈希的分区功能来设计并行搜寻器对于链路结构的位置保留和分区的平衡大小是合理的。

基于链接的并行爬虫的文献中,关注的另一个问题是并行进程之间的作业划分模式。作为防火墙,交叉和交换的工作分工有不同的模式。在第一种模式下,每个并行代理仅检索其部分内的页面,并忽略指向外部的那些链接。在第二种模式下,并行代理主要下载其分区内的页面,如果自身部分中的页面已完成,则它遵循分区间链接。在交换模式下,并行代理不遵循分区间的链接。相反的是,每个并行代理相互通信以通知相应的进程让其负责遵循的分区间的链接存在。因此,除了具有通信开销之外,基于交换模式的并行爬虫并没有重叠,具有可接受的覆盖范围并且具有合适的质量来进行质量优化。因此,在最佳情况下,基于链路的并行爬虫在整个搜索系统上会产生相当大的通信开销。由于其与链接枚举的独立性,采用基于点击流的衡量标准可能是并行爬虫在这一方面有前途的解决方案。

  1. 聚焦的爬虫

在频谱的另一端,有两种不同类型的爬虫,称为聚焦和未聚焦。未聚焦爬虫的目的是搜索整个Web以构建其索引。因此,他们面临着创建、更新和维护大规模数据库的繁重工作。而有针对性的爬虫通过选择性地寻找预定义主题分类的相关页面,来限制其在语义Web区域上的功能,并避免不相关的Web区域,以努力消除搜索结果中的不相关项并保持索引的合理维度。一个聚焦爬虫可以限制爬行边界的概念是很有吸引力的,因为“覆盖单个星系比试图覆盖整个宇宙更实际并且更有用”。

传统聚焦爬虫的核心要素是分级器和蒸馏器。当分级器基于纳维贝叶斯算法检查每个Web文档的内容与主题分类的相关性时,蒸馏器通过HITS 算法的修改版本,在相关的Web区域内找到中心的页面。这两个组件共同确定了基于优先级的队列(爬行边界)中现有URL的优先级规则。

在我们使用的方法中,我们在聚焦爬虫中应用新的链接来作为独立网页重要性的衡量标准,因为这种受限边界框架的搜索结果比通用爬虫更准确。此外,我们将框架扩展为并行以实现更高的下载速率并解决可扩展性问题。由于聚焦爬虫限制了其在Web的特殊区域上的功能,因此其索引和词汇表数据库远小于通用爬虫的数据库。因此,可以用更合适且及时的方式执行管理和更新功能。因此,我们在这项研究中的意图是构建一个专注的垂直爬虫,以便在 UTM大学网站的受限边界网络区域进行工作。我们的搜索系统的元素将在第8节中讨论,并对传统的聚焦爬虫结构进行了全面修改。

  1. 链接相关网页的重要性衡量标准

有很多中网页的重要性指标,每个都从不同的角度查看页面的重要性,如传出或传入链接枚举,上下文分析或位置角度,包括HITS(超文本诱导主题搜索),前向链接计数,反向链接计数,PageRank(搜索引擎使用的一种网页重要性评估方式,PageRank的值决定了网页在搜索结果中的排名),对PageRank的各种修改,位置度量和内容查询相似性检查度量等。其中,最着名的类别是依赖于链接的指标。

超文本诱导主题搜索(HITS)度量标准是在其中心和权限分数中查看网页的重要性。具有高中心分数的网页是指向具有高权限分数的网页的页面,具有高权限分数的网页是具有高中心分数的网页所指向的页面。这两个分数之间的关系及其相互影响已在方程式(1)(2)中显示。在这些方程中,a(i)是第一页的权威得分,h(i)是第一页的中心得分,E是网络图中的一组边。

这个HITS衡量标准存在着主题漂移问题, 它未能检测到主机之间相互增强的关系,并且在区分Web环境中基于引用的链接与自动生成的链接方面存在缺陷。由于集线器页面指向的页面不一定围绕原始主题,因此形成了主题漂移的问题。当一个主机中的一组文档指向另一个主机上的一个文档时,会出现第二个问题。结果,第一主机上的页面的中心得分和第二主机上的页面的权限得分将增加。但这种引用不能被视为来自不同的来源。最后,Web 创作工具自动生成一些链接,这些链接不能被视为基于引用的链接。虽然文献包括对HITS 算法的一些修改,例如检测微型集线器的研究,忽略与同一根的链接,基于某种文本分析方法或使用锚文本与该度量的组合对链接赋予权重,但没有证据证明这些尝试取得了圆满成功。

转发链接计数指标检查来自页面的发出链接,其概念是具有高前向链接得分的页面是中心页面。此度量标准存在此缺陷,因为页面创建者可以简单地从Web页面链接许多目标以误导爬行程序。

PageRank作为对反向链接计数的修改,简单地计算到页面的链接,根据等式计算加权的传入链接。其中页面t 1至t n指向页面p并且页面t i具有c i作为其外出链接的数量,并且d 是阻尼因子,其呈现随机访问下一页面的概率。因此,PageRank或IR(p)的计算方法如公式(3)所示。

TimedPageRank算法增加了时间维度通过考虑时间的函数 f ( t ) (0 ⩽ f ( t ) ⩽ 1) 代替阻尼因子的d。TimedPageRank的概念是在页面上的上网的我有两个选择:(1)随机选择一个概率为f(ti)的外向链接,(2)跳转到一个没有链接的随机页面,概率为1-f(ti)。对于网站中的全新页面,使用网站中其他页面的TimedPageRank的平均值来作为其值。

PageRank会在索引中被已爬网的Web部分的每页链接的计算中受到影响。事实上,到目前为止,没有任何爬虫可以声称索引接近整个Web的一半。因此,爬虫能够计算IR #39;(p)而不是真实的IR(p)。此外,大规模并且维护和刷新的Web图的稀疏链接矩阵非常昂贵。另一个缺点是存在诸如广告相关链接之类的噪声链接不在具有引用目标的链接之中。因此,这些类型的链接可能误导链接相关的爬虫。

表面Web或可见Web指的是Web爬虫能够索引和导航的Web部分。相反,被称为暗网的网络的另一部分对于传统的爬虫来说是不可见的。由于隐藏的Web内容具有少量或没有传入链接,因此即使它们包含权威内容,它们也无法在基于链接的爬网程序中获得高分。具有大量链接的页面大多是较旧的页面,在Web上存在时它们累积链接。因此,在PageRank的视角下,新的高质量页面容易被忽视。还有更多的PageRank修改版本是为了增强这个度量,将页面包含在暗网中,从表单页面作为入口点开始到深色网络页面的另一个区域。

如前所述,TimedPageRank算法将时间维度添加到PageRank,以尝试将新的高质量页面留意到搜索结果中。但问题是指标仍然依赖于链接。而且,经典PageRank的一个问题是它的迭代性质。也就是说,经过多少次迭代后,结果可能会更加可信。对经典PageRank 算法进行了一些修改,以通过提出几种分析算法收敛标准的方法来最小化迭代次数,这超出了本文的范围。

  1. 其他网页的重要性衡量标准

  1. 问题陈述

在考虑有关基于链接的网页重要性指标的文献时,可以得出结论,在并行搜寻器中应用此类指标不是绝对的解决方案,因为:

  • 每个页面的计算重要性在观察期内不是永久性的,因为该值取决于Web的下载部分。换句话说,爬虫对节点的传入链接数的了解是基于下载的索引和它已经知道的页面。因此,页面的等级与其真实等级不同,因为对于爬虫来说,网络的其他部分是未知的。
  • 由于维护了Web图的大型稀疏链接矩阵,基于链接的度量的成本相当可观。
  • 检测Web上最近上传的权威页面是基于链接的指标的一个障碍,因为该页面的传入链接数量很少。
  • 在Web的黑暗面检测权威Web页面是基于链接的度量的另一个缺点。

由于基于点击流的爬虫与链接枚举无关,因此上面列出的所讨论的障碍都不会保留在基于点击流的爬虫中。它不是保留大型稀疏链接矩阵,而是处理简单的文本日志文件。识别新更新页面的问题将通过规则 5 来回答,其中如果更新的页面具有良好的上下文相似性,则它将有机会在搜索结果集中获得一个位置。

  1. 基于点击流的网页重要性衡量标准

  1. 爬虫建筑

  1. 搜索结果集中的URL排序规则

  1. 实验

  1. 结论

在本文中,我们提出了基于点击流分析和上下文分析方法的爬虫边界优先级衡量标准,这些方法是针对聚焦结构化并行爬虫所提出的架构。选择此框架的原因是聚焦爬虫的特定主题搜索有边界限制,并且与集中式爬虫相比,它能够更准确地回答用户的信息需求并且可以优化并行爬虫的下载速率。

为实现此目标,需要定义一个标准,这个标准就是基于授权的且基于点击流的爬虫程序,有权访问配置的服务器日志文件。由于每个并行代理在计算网页在其职责范围内的重要性时独立于其他代理,因此在点击流分析的基础上,计算网页重要性优于并行爬虫中的其他重要性衡量标准。因此,由于基于点击流的重要性衡量标准的链接独立性,传输所需的链接数量信息不会产生通信开销。此外,在应用基于点

资料编号:[4752]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。