基于布局的网页相似性排名计算外文翻译资料

 2022-07-17 02:07

英语原文共 20 页,剩余内容已隐藏,支付完成后下载完整资料


基于布局的网页相似性排名计算

摘要:在本文中,我们提出了一种考虑网页间视觉相似性的排名方法结构和基于视觉的功能。在整个研究过程中,我们的目标是理解和表达网页视觉结构与人们通过线框设计专注于布局相似性的方式一样。该进行的研究由两部分组成。在第一部分,结构相似性分析与建议“布局组件”的概念以及DOM树的视觉检查。这样,五种类型的结构布局组件被提出并揭示。此外,由于空格是重要的,因此也使用空格视觉线索在网页的视觉感知中。第二部分是基于计算机视觉的方法定向梯度直方图(HOG)用于揭示局部视觉线索的边缘方向。在特征提取阶段之后,将提取的特征直方图映射到保持空间信息的多层次和多分辨率包特征表示方法,即空间金字塔匹配。在通过这种方式,实现了三个目标:(1)网页的可视布局被映射并在多分辨率模式中进行比较; (2)删除了视觉分割的中间过程;和(3)高效且容易生成可比较的网页布局签名。我们还进行了一项涵盖312的问卷调查科目。这有助于我们创建一个基准数据集,其中包含从个人收集的相似度分数。所以迄今为止,文献中还没有面向网页布局相似性排序的语料库。我们建议的方法在五大和十大检索结果中取得了显着的排名表现。根据调查结果在比较研究中,我们的方法胜过了文献中的一些结构和基于视觉的研究。同这个成就,网页可以被用作查询项目来查找其他类似的网页考虑到他们是网页,而不是图像或其他任何东西。

关键字:网页布局、布局相似性、相似性排名、袋子的功能、空间金字塔匹配、定向梯度的直方图

引言

定义和检测网页之间的相似度 - 最多广泛使用和新时代的终极信息传达者自从面向Web的信息抽取成为重要课题之后,检索和挖掘已经发展。实际上,网络中的相似性搜索页面可以在不同领域(例如认知,心理学和计算机科学)的范围内以不同的观点处理。

迄今为止,影响网页相似性的各种属性一直存在包括文字内容(Tombros&Ali,2005; Kleinberg,1999),链接结构(Tombros&Ali,2005; Dehmer2006),语义内容(Joshi&Liu,2009),文档结构(Bartik,2012)和外观/视觉布局(Hara等,2009; Bartik,2012; Joshi&Liu,2009; Kudelka等,2010; Alpuente&Romero,2010; Zhang等,2013)。简而言之,基于文本的相似性研究旨在寻求内容匹配,而面向文档结构的研究探索HTML文档中标签,链接和DOM结构的相似性。此外,基于视觉布局的方法基于标识 - 定义和检测部分或全局视觉相似之间网页。 Michailidou等人。 (2008)研究了复杂性,审美外观和认知之间的密切关系

关于网页的清晰度和结构布局的组织。如结果,就网页而言,他们发现布局直接影响人们对各种形式的感知。因此可以这样说网页的布局构成了一个入口点人类的看法构成了一个可利用的信息来源。因此,视觉布局本身在许多方面受到了严格的审查针对不同目的的研究,例如视觉块重要性学习(Song等人,2004),页面分割和信息抽取(Kang&Choi,2008; Cao et al。,2010),高效的网络搜索(Cai et al。,2004)反网络钓鱼(Rosiello等,2007; Zhang等,2013),视觉相似比较(Song,2011)和高效的网页存档(Law等人,2012)。网页不仅可以用作信息传递者,还可以用作信息传递者也构成了企业的基本和不可忽视的部分之一

身份。这是一个众所周知的事实,精心布置的网页设计和用户界面的质量在电子商务中提供更多信用积极的第一影响力(Mouml;ller等,2012; Robins&Holmes,2008)。Reinecke等人(2013)指出越来越多的研究相关到网站美学的经济效果。同样,与网页视觉吸引力有关的问题(例如可信度和可信度)经济影响)提高了新颖性和发展的价值网页设计中用户交互的新方法。但是,这种情况也导致了网页布局抄袭的增加。为了节省金钱和时间,一些网站开发人员喜欢复制和粘贴目标网站的源代码或进行逆向工程构建原始网页的精确或类似的视觉布局。此外,竞争对手倾向于受到某人的启发或窃取其他设计如果获得成功。除了灵感,抄袭提供非法利润并损害企业形象。这应该还要指出的是,设计抄袭并不总是一个有意识的决定的网页开发人员。网页设计指南产生了一个趋势设计的一致性。不过,这种情况可能会导致网页设计师被指控抄袭(Martine&Rugg,2005)。为了在成员政府,DMCA数字千年版权法案中应对这个问题(2016年)(数字千年版权法案)为原创设计和内容所有者提供版权保护。这样,在证明的情况下布局或内容抄袭,托管公司负责取下非法网站。在这一点上,布局剽窃检测机制的必要性变得突出。同样,没有任何通知,原始设计所有者不能知道剽窃者网站。在这方面,一个搜索引擎调查和索引视觉相似之间的网页是必需的。过去十年已经见证了相当数量旨在利用网络间视觉相似性检测的研究用于不同目的的页面,例如网络钓鱼检测或页面归档。然而,据我们所知,没有研究它试图在网页时检索视觉上类似的网页被查询。因此,这项研究的主要目标是开发一个根据他们的视觉相似性对网页进行排名考虑与人类视觉相似性判断的一致性。加上这个想法,它的目的就是填补这个空白,并使之成为可能

网页布局本身被用作查询项目。因此,没有任何通知的必要性,网页设计师,公司和法律模板所有者将能够通过查询剽窃者的网页来查看剽窃者的网页真正的网页。

关于上述问题,我们建议进行研究应该沿着三条线进行。我们工作的第一行开始问题是“我们怎样才能以某种方式呈现网页是有区别的并且与人类的认知一致吗?“。针对这个问题,我们利用线框作为感知表示模式。拉蒙等人。 (2016)将线框定义为一个面向版面,初始设计和快速开发的环境。请注意,线框处理内容元素在空间上的方式放置在页面上,无论使用哪种颜色。根据Reinecke等人(2013年)和Michailidou等人。 (2008),视觉布局对人类感知的影响比颜色更大。两个网页具有相似或相同布局结构的页面可能完全不同彩色。因此,在这项研究中,我们正在处理视觉相似性问题纯粹从布局相似的角度来看。这导致了

我们提案的中心思想,旨在理解和表达网页的可视化结构通过揭示其线框设计,因为它是最初设计诞生的地方。结果,我们的方法的设计是为了捕获基于布局的视觉相似性而不涉及基于颜色的特征。

我们提议的第二行涉及计算方面网页之间的视觉相似性。文献中的大多数作品利用(1)位于DOM树中的结构信息(Cai等人,2003; Rosiello等,2007)或(2)基于视觉的特征(Law等,2012),以便提取视觉比较的代表性特征。同样,这两种方法也有其积极和消极的后果。前者可以直接进入HTML内容,基于视觉的方法已经被广泛使用,尤其是在基于视觉相似性的钓鱼检测研究中有能力分析整个网页的截图。然而,基于视觉的方法可能对精确的探索造成限制由于网页涉及比普通照片更多的构图差异(Reinecke et al。,2013),所以网页布局结构更为复杂。

因此,我们结合了两种方法的优势,正如所做的那样Law等人。(2012年)。通过基于结构的分析,由于上述困难,我们首先呈现了网页,并且以空白的方式将叶面节点和空白节点分类为五种类型的视觉词(文本,静态图像,动画,表单元素和空白)特征(BoF)表示。通过这种方式,我们提取了网页的线框设计,并且根据确切的布局外观显示了CSS框模式,而不管任何细节如颜色,文本大小和字体面。在基于视觉的部分,我们使用了面向方向梯度描述符(HOG)的直方图(Dalal&Triggs,2005),通过考虑网页截图中渐变的边缘方向和强度分布来揭示网页的视觉线索。随着使用的HOG描述符,我们提取了方向bin overpage区域,以便将它们用作描述性视觉特征。在特征提取阶段之后,我们采用了一种名为空间金字塔匹配(SPM)的特殊BoF方法(Lazebnik et al。,2006),它考虑到它们嵌入特征的空间排列,可以比较两个特征集之间的相似性。正如Lazebnik等人所述。 (2006)中,SPM将整个2D特征空间逐渐分割为多级金字塔上相同大小的单元格,并在每个单元格中生成局部特征的柱状图。这些概念在第3节展开。随着SPM的使用,抽取的结构和基于视觉的特征被嵌入到单独的SPM金字塔中,以分别生成高效且易于比较的页面布局签名结构和基于视觉的方案。此外,基于布局的相似性已经在不同的细节层面上进行了研究,如模糊,概述,灵感和精确匹配。我们研究的第三行涉及所提出方法的评估。根据我们所知,存在的nocorpus或数据集是为评估页面布局相似性相关研究而建立的。因此,我们设计了一个包含4组40个网页的新型语料库,并进行了一个包含312个参与者的问卷调查,以生成一个地面实况数据集。在统计显着性检验后,我们根据问卷调查研究得到的平均人类认知度对排名进行了排序。在下一阶段,实现绩效的结果通过考虑相关性和排名的平均归一化等级(ANR)度量来衡量。因此,本文进行了以下贡献: - 除了其他研究外,我们还提出了一种新的网页排名方法根据它们的布局相似性; - 建议使用Wireframing作为测量布局相似度的表示方案; - 可以使用页面布局作为网页检索的查询项目; - 通过使用这种方法,删除视觉分割的需求; - 我们通过调查问卷生成了一个有效且经过统计学验证的数据集,以便评估网页视觉相似性导向的研究。此数据集可以进一步用于各种目的; - 基于生成的数据集的综合实验显示,线框表示以及嵌入的结构和视觉特征在SPM中,由于其显着的r值,在网页视觉相似性比较中是非常合理的本文的其余部分安排如下。第2节简要介绍了网页视觉相似性研究的相关工作。第3节介绍了我们方法的基础。第4节详细介绍了所有方面的建议方法。第五部分报告了实验装置以及语料库的生成和性能评估。第六部分讨论了获得的结果和系统参数-96A.S。 Bozkir,E. Akcapinar Sezer Int。 J.人机管理学110(2018)95-114ters。最后,第7部分总结了该论文,并指出了未来研究的几个方

相关研究

在应用文献中已经提出了各种方法网页视觉相似度。蔡等人。 (2003年)制定了一个基于愿景页面分割算法(VIPS)通过使用DOM树将网页分割成语义相关和非重叠的块。

然而,Kang&Choi(2008)后来报道,VIPS算法经常导致错误的块分割。作为一种替代方法为了应对基于DOM树分析的困难,Takama和Mitsuhashi(2005)开展了一项研究,利用图像处理和图形匹配方法对网页进行比较。首先,他们申请将网页截图分割成边缘检测方法不同的类别(例如图像,文本)并将检测到的实体映射到二分图的边缘。其次,他们衡量了学位在图转换的转换成本方面的相似性。然而,使用基于视觉的分割方法的研究具有a

共同的缺点。他们要求网页具有坚实的背景颜色和矩形布局,易于操作。尽管如此,今天的网页设计趋势可能涉及渐变背景颜色和导致基于视觉的方法的非矩形布局遇到不可抗拒的限制。与DOM树或基于视觉的不同研究,Flesca等人。 (2007)提出,时间序列冲动可以构成网页结构的代表方式,两个网页之间的相似性可以通过傅里叶变换计算。之一通过揭示DOM树的布局结构,来自Rosiello等人的以钓鱼攻击为目标的例子。 (2007年)。他们开发了一个名为“DOMAntiPhish”的应用程序,该应用程序构建源自DOM树的常规子图并按顺序比较HTML标签分析和检索网页之间的布局相似性。但是,它受到HTML混淆方法的困扰。为了解决这个问题,陈等人。 (2009)应用了对比上下文直方图(CCH)方法到网页的快照,以便他们可以描述图像内容和聚集了关键点。匹配过程通过使用建立获得的描述符之间的欧几里得距离。除了它们的检测准确率非常好之外,整个系统的速度也很低因为他们实时分析网页快照。

在另一项研究中,Law等人(2012)提出了一种学习视觉相似性的方法,以检测是否连续版本的网页页面相似或不相似。他们利用基于视觉的密集SIFT Lowe(2004)描述符在页面截图和VI-DIFF返回的差异树上调查了结构和视觉相似性(Pehlivan等,2010)算法。此外,他们利用顶部最大的1000个像素的截图与大多数的假设互联网用户只是通过查看来做出相似判断网页的顶部。作为尝试将DOM树信息和基于视觉的组合反钓鱼方法,张等人。 (2013)利用了源自视觉分割和DOM树分析的空间布局特征。之后,他们采用了R树方法来索引空间特征进一步进行空间查询。这样,当出现可疑的钓鱼页面时被查询,其布局特征被提取出来并与一个比较基于R树的索引。尽管他们的方法建立了有效的结果它有两个缺点。首先,分割是通过寻找块之间的视觉差距来完成的,这可能是由于这个问题造成的陈述今天的网页设计趋势。其次,张等人。(2013)的方法基于相应的块匹配,并且高度重叠的块有时会产生不匹配。 Zeng等人(2013年)提出通过提取布局树来识别视觉上相似的块的算法通过视觉分隔符。此外,他们已根据权重块通过利用树编辑来测量相似度距离。在另一项研究中,Bozkir&Sezer(2014)引入了一个网页提取DOM树源信息的相似度检测方法,并结合袋特征方法。与此相反研究中,我们在本文中做出了三项重要贡献:(1)为当前和今后的研究建立了详细且经过验证的地面实况数据集进一步的研究,(2)基于视觉的方法,名为HOG,已被纳入以捕获布局的相似性,(3)进行了详细的实验以显示所提出的方法的准确性以及与其他方法。

由于所述的基于DOM的分析和以上所述的缺点提到纯视觉分割过程中的困难方法,我们首先假设线框是视觉比较的心理和计算表示方案。接下来,我们是将基于视觉的方法的力量与结构和功能相结合来自渲染结果的空间信息。中号正确地说,我们提出通过在空间金字塔匹配中嵌入提取的特征来生成有效的,可比的和容易理解的视觉布局签名。这样就消除了分割的必要性。 Methods3.1。包含特征和空间金字塔匹配特征的核函数包(BoB)适用于计算机视觉导向任务,在文本检索领域长期使

全文共14819字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[9244],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。