大数据挖掘外文翻译资料

 2022-04-12 08:04

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


大数据挖掘

吴信东 美国电子电气工程师协会会士

朱兴全、吴共庆、丁薇 美国电子电气工程师协会高级会员

摘 要 大数据关注的是海量、复杂以及不断增长的数据集,并且这些数据集拥有多样而独立的数据源。伴随着网络、数据储存和数据收集技术的快速发展,大数据正在科学与工程的各个领域中迅猛发展,比如物理、生物和生物医学等。本文提出了一种描述大数据革命特点的HACE定理,并从数据挖掘的角度提出了一种大数据处理模型。这种数据驱动模型包括信息来源的需求驱动集合、挖掘与分析、用户兴趣建模以及安全隐私研究。我们还分析了数据驱动模型以及大数据革命的热点问题。

关键词 大数据;数据挖掘;异质性;自治数据源;复杂与发展关联

1引言

2012年,莫言荣获诺贝尔文学奖,这或许是该类别最具争议的一个奖项。谷歌搜索“莫言获得诺贝尔奖”后,网上出现了1050000个词条(截止2013年1月3日)。莫言最近回应称,“我很感激所有的赞扬与批评”。在超过31年的写作生涯中,莫言究竟收到了怎样的赞扬与批评?随着网络和新闻媒体中持续涌现出各种各样的评论,我们能否实时地归纳出各种媒介上的所有观点,包括最新的、被交叉引用的评论?对大数据处理而言,这类总结性程序是一个非常好的例子。因为,这些信息来源于多元异构并且具有复杂和演化关系的自治数据源。

这些例子说明大数据时代已经到来[37]、[34]、[29]。如今,世界上每天都会产生2.5万亿字节的数据并且其中90%的数据都是近两年内产生的[26]。自从19世纪早期发明信息技术以来,人类的数据生成能力从未如此强大过。另一个例子是,2012年10月4日,美国总统奥巴马与州长罗姆尼之间的首场总统辩论在两小时内引发了超过1000万条推文[46]。在这些推文中,引发最多讨论的某些评论实际上揭示了公共利益,例如关于医保与补助的话题。这钟线上讨论提供了一种察觉公众利益与生成实时反馈的新方法,并且要比一般的广播、电视等媒介更具吸引力。另一个是关于公共图片分享网站Flicker的例子,从2012年1月到3月,Flicker平均每天收到了180万张照片[35]。假设每张图片的大小为2兆(MB),这就需要每天使用3.6 TB的存储空间。事实上,正如一句老话:“一张图片胜过千言万语”,如果我们掌握了相关技术,那么Flicker上数十亿图片将会成

为探索人类社会、社交活动、公共事务、灾害等等的巨大宝藏。

以上的例子显示出,大数据应用正在不断崛起。其中,数据收集发展得十分惊人,超出了通常使用的软件工具在“可容忍的运行时间”内捕获、管理和处理的能力。“对于大数据应用来说,最根本的挑战是探索大量的数据,并提取有用的信息或知识[40]。”在许多情况下,知识提取过程必须非常高效且接近实时,因为存储所有观测到的数据几乎是不可行的。例如,在射电天文学中,平方公里阵列(SKA)[17]在一个中央5公里范围内由1000到1500个15米的盘子组成。它比现有任何射电望远镜都精准100倍,可以解答有关宇宙的基本问题。然而,如果使用40g (GB)/秒的数据量,那么来自SKA的数据将变得非常大。虽然研究人员已经证实了一些有趣的模式,例如,从SKA数据中可以发现一些短暂的无线电异常[41],但现有的方法只能以离线的方式工作,不能实时处理这个大数据场景。因此,前所未有的数据量需要一个有效的数据分析和预测平台来实现对这些大数据的快速响应和实时分类。

本文的其余部分结构如下:在第2节中,我们提出了一个HACE定理来建模大数据特征。第3节总结了大数据挖掘的关键挑战。第4部分概述了该领域的一些关键研究项目和作者的国家研究项目。第5节讨论了相关的工作,而第6节为总结。

图1所示。盲人和巨象:每个盲人的局部(有限)观点导致了一个有偏见的结论。

2大数据特征:HACE定理

HACE定理。大数据以大容量、异构、自主的分布式和分散控制源开始,并寻求在数据之间探索复杂和发展的关系。

这些特征使得从大数据中发现有用的知识成为一个极端的挑战。在一定意义上,我们可以想象,一些盲人正摸一个巨象的大小(见图1),而这头巨像好比“大数据”。每个盲人的目标是根据他在过程中收集的信息,画出大象的图画(或得出结论)。因为每个人的视野都局限于他所在的地区,所以盲人会独立地得出结论:大象“感觉”就像一条粗绳、一根管子或一堵墙,这取决于每个人所处的区域。更复杂的是,如果我们假设:1)大象不断快速增长并且外形不断变化,2)每个盲人都可能根据自己的(或许不可靠和不准确)信息来源,得出一些关于大象的偏见(例如,一个盲人可以同另一个盲人互相交换想法,可交换知识本身就带有偏见)。在这个场景中探索大数据,就相当于从不同来源(盲人)聚合不同的信息,以帮助绘制出最好的图片,实时地揭示出大象的真实姿态。的确,考虑到每个人可能使用不同的语言(异构和多样化的信息来源)以及他们甚至可能在信息交换过程中出现隐私泄露的担忧,这个任务并不像要求每个盲人描述对大象的感受,然后请专家来画一个视图组合那样简单。

2.1异构而多维的海量数据

大数据的一个基本特征是海量数据异构且多维。这是因为不同的信息收集者更倾向按照自己的模式或协议来记录数据,而不同应用同样会导致不同的数据呈现方式 。例如,在生物医学世界,每一个人都可以用简单的人口信息来表示,比如性别、年龄、家庭疾病史等等。图像或视频可以用来表示每个人的X射线检查和CT扫描结果,因为它们提供了医生进行详细检查的视觉信息。对于DNA或基因组相关的测试,微阵列图像和序列则可以表示遗传编码信息,因为这是我们当前技术获取数据的方式。在这种情况下,异质性特征是指同一个体的不同类型的表征,而不同的特征是指代表每一个观察所涉及的特征的多样性。假设不同的组织(或健康从业者)可能有他们自己的模式来指代每个病人,如果我们试图通过将来自所有来源的数据组合在一起来实现数据聚合,那么数据的异质性和不同的维度问题将成为主要的挑战。

2.2分布式和分散控制的自治源

分布式和分散控制的自治数据源是大数据应用程序的主要特征。每个数据源都是自治的,能够在不涉及(或依赖)任何集中控制的情况下生成和收集信息。这类似于万维网(WWW)设置,每个Web服务器提供一定数量的信息,并且每个服务器都能够完全自主地运行,而不依赖其他服务器。另一方面,如果整个系统必须依赖于任何集中控制单元,那么大量数据也会使应用程序很容易受到攻击或发生故障。诸如Google、Flicker、Facebook和Walmart等大型大数据相关应用程序都在全球各地部署了大量的服务器农场,以确保对本地市场的持续服务和快速响应。这样的自主来源不仅是技术设计的解决方案,也是不同国家/地区立法和监管规则的结果。例如,沃尔玛的亚洲市场在季节性促销、最畅销商品和顾客行为方面与北美市场有着本质上的不同。更具体来讲,地方政府规章也对批发管理过程产生影响,并导致对当地市场的数据显示和数据仓库进行重组。

2.3复杂而不断演化的关系

随着大数据的体量不断变大,数据背后的复杂性和关系也在持续增加。在数据集中信息系统的早期阶段,寻找最佳的特征值来表示每个观察是人们研究的重点。这类似于使用一些数据字段,比如年龄、性别、收入、教育背景等等,以描述每个人的特征。这种类型的样本特征描绘方式本质上把每个个体视为独立个体,而不考虑其社会关系,这是人类社会最重要的因素之一。我们的朋友圈可能是由基于共同爱好的朋友或是亲戚组成。这种社会联系不仅存在于我们的日常活动中,而且在网络世界中也很流行。例如,Facebook或Twitter等社交网站的主要特点是社交功能,如好友关系和关注(在Twitter中)。个体之间的相关性使整个数据描绘和任何推理过程都变得复杂。在样本特征描绘中,个体在共享相似特征值时被认为是相似的,而在样本特征关系中,即使两个个体可能在特征域中根本就没有共同点,但也可以通过他们的社会关系连接在一起。在一个动态的世界里,代表我们外在的特征以及社会关系的纽带也可能随着时间、空间和其他因素的变化而不断发展。这个难点正成为大数据现实应用的一部分,解决的关键在于应该考虑复杂的(非线性的、多对多的)数据关系,以及不断演变的变化,最终才能从大数据收集中挖掘出有用的模式。

3大数据挖掘的挑战

一个智能学习数据库系统在处理大数据时,关键在于数据量的猛增以及为上述HACE定理提出解决方式。 图2展示了大数据处理框架的概念性视图,其中包含了从内部到数据访问和计算(第一层)、数据隐私和领域知识(第二层)和大数据挖掘算法(第三层)三个层次。

图2所示。大数据处理框架:研究的挑战形成了一个三层结构,围绕着“大数据挖掘平台”(tier I),它侧重于底层数据的访问和计算。信息共享和隐私的挑战以及大数据应用领域和知识构成层II,集中于高级语义、应用领域知识和用户隐私问题。在实际的挖掘算法中,最外围的圆圈显示了第三层的挑战。

第一层的挑战是数据访问和算术计算程序。由于大数据常常存储在不同的位置,并且数据量可能会持续增长,因此一个有效的计算平台必须将分布式大规模数据存储考虑到计算中。例如,典型的数据挖掘算法要求所有数据加载到内存。然而,这一点逐渐成为一个明确的大数据技术障碍。即使我们拥有保存所有计算数据的超大内存,但获取不同位置的移动数据的成本依旧高昂(例如,密集的网络通信和其他IO成本)。

针对不同大数据应用程序的语义和领域知识是第二层的核心挑战。在挖掘过程中,这些信息可以提供额外的好处,也会给大数据获取增添技术壁垒(第一层)和挖掘算法(第三层)。例如,根据不同领域的应用程序,数据生产者和消费者之间的数据隐私和信息共享机制可以显著不同。对于像水质监测这样的应用,共享传感器网络数据可能不会被阻止,而发布和共享移动用户的位置信息对于大多数应用程序来说显然是不可接受的。除了上述隐私问题之外,应用程序域还可以提供额外的信息,以帮助或指导大数据挖掘算法设计。例如,在市场购物篮交易数据中,可能是针对不同的时间和/或空间限制,每个交易都被认为是独立的,而被发现的知识通常是通过寻找高度相关的项目来表示的。另一方面,在社交网络中,用户是链接的并且共享依赖结构。然后由用户社区、每个小组的领导者和社会影响人物等来代表知识。因此,理解语义和应用程序知识对于低级数据访问和高级挖掘算法设计都很重要。

在第三级,数据挖掘挑战集中于算法设计,以解决大数据量、分布式数据分布以及复杂动态数据特征所带来的困难。第三层的圆圈包含三个阶段。首先,利用数据融合技术预处理稀疏、异构、不确定、不完整和多源数据。其次,在预处理后对复杂动态数据进行挖掘。第三,对本地学习和模型融合获得的全球知识进行测试,并将相关信息反馈到预处理阶段。然后根据反馈调整模型和参数。在整个过程中,信息共享不仅是每个阶段顺利发展的保证,也是大数据处理的目的。

接下来,我们将详述图2中三层框架所面临的挑战。

3.1第一层:大数据挖掘平台

在典型的数据挖掘系统中,挖掘过程需要计算密集型计算单元进行数据分析和比较。因此,一个计算平台需要至少有两种类型的资源:数据和计算处理器。对于小型数据挖掘任务来说,一个包含硬盘和CPU处理器的台式电脑就能够完成挖掘任务了。

实际上,大量数据挖掘算法是针对这类问题设置而设计的。对于中等数据挖掘任务来说,数据通常很大(还可能是分布式的)并不能与内存相匹配。常见的解决方案依赖于并行计算[43]、[33]或者集中挖掘以从不同来源采集并集合数据,然后利用平行计算程序(如信息传递接口)来执行挖掘过程。

对于大数据挖掘而言,因为数据规模远远超出了私人电脑(PC)可以处理的能力,所以一个典型的大数据处理框架需要依靠集群计算机高性能计算平台,并且数据挖掘任务需要在大量的计算节点上通过运行一些并行编程工具,如MapReduce或企业控制语言(ECL)来部署(也就是:集群)。

软件组件的作用是确保单个数据挖掘任务(例如从拥有数十亿记录的数据库中找到查询的最佳匹配项目)被分成许多小任务,每个任务都运行在一个或多个计算节点上。例如,这篇文章中的世界上最强大的超级计算机泰坦,它部署在田纳西州的橡树岭国家实验室,包含18688个节点,每个节点都有一个16核CPU。

对于融合了硬件和软件组件的庞大大数据系统而言,如果没有核心行业股东的支持,是很难得到的。事实上,几十年来,公司一直基于关系数据库中存储的事务性数据进行业务决策。大数据挖掘提供了超越传统关系数据库的机会,可以较少依赖结构化的数据,如博客、社交媒体、电子邮件、传感器和可以挖掘有用信息的照片。IBM、Oracle、Teradata等大型的商业智能公司都有自己的特色产品,来帮助客户获取和组织这些不同的数据源,并与客户的现有数据进行协调,以找到新的见解同时利用隐藏的关系。

3.2第二层:大数据语义以及应用知识

大数据中的语义和应用知识是指与法规、策略、用户知识和领域信息相关的许多方面。这一层最重要的两个问题包括:数据共享和隐私、领域和应用知识。前者提供了如何维护、访问和共享数据的解决方案,而后者侧重于回答诸如“什么是底层应用程序?”和“用户想从数据中发现什么知识或模式?”等问题。

3.2.1信息共享和数据隐私

信息共享是所有涉及多方的系统的最终目标[24]。虽然分享的动机很明确,但现实世界普遍的担忧是大数据应用与敏感信息有关,比如银行交易和医疗记录。简单的数据交换或传输不能解决隐私问题[19], [25], [42]。例如,了解人们的位置和他们的喜好,你可以提

全文共24834字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[14071],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。