英语原文共 11 页

大数据的数据挖掘

摘要

大数据涉及具有多个自治源的大容量，复杂，不断增长的数据集。随着网络，数据存储和数据收集能力的快速发展，大数据现在正迅速扩展到所有科学和工程领域，包括物理、生物和生物医学科学。本文介绍了一个HACE定理，它描述了大数据革命的特征，并从数据挖掘的角度提出了大数据处理模型。这种数据驱动模型涉及信息源的需求驱动聚合、挖掘和分析，用户兴趣建模以及安全和隐私考虑。我们分析了数据驱动模型以及大数据革命中的挑战性问题。

引言

莫言博士获得2012年诺贝尔文学奖。这可能是这一类别中最具争议的诺贝尔奖，因为莫言是中国人，生活在社会主义国家，并得到中国政府的支持。在Google上搜索“Yan Mo Nobel Prize”，我们在互联网上获得1,050,000个网络指针（截至2013年1月3日）。 “对于所有赞美和批评，”莫最近说，“我很感激。”莫在他31年的写作生涯中实际上得到了什么样的赞美和批评？随着评论不断涌现在互联网和各种新闻媒体上，我们能否以实时方式总结不同媒体的各种意见，包括批评者的更新，交叉引用的讨论？这种类型的摘要程序是大数据处理的一个很好的例子，因为信息来自具有复杂和不断发展的关系的多个异构自治源，并且不断增长。

上面的例子可以很好的说明：大数据的时代已经到来^{[37], [34], [29]}。每天创建2.5个五十亿字节的数据，当今世界90％的数据都是在过去两年内生成的^[26]。自19世纪早期信息技术发明以来，我们的数据生成能力从未如此强大和巨大。另一个例子是，2012年10月4日，美国总统巴拉克·奥巴马与州长米特·罗姆尼之间的首次总统辩论在两小时内引发了超过1000万条推文^[46]。在所有这些推文中，产生最多讨论的具体时刻实际上是他们彼此在阐述公众利益的时刻，例如关于医疗保险和代金券的讨论。这种在线讨论提供了一种新的方式来感知公众利益并实时产生反馈。与诸如无线电或电视广播之类的通用媒体相比，这些方式更具有吸引力。另一个例子是Flickr，一个公共图片共享网站。2012年2月到3月每天平均能收到180万张照片^[35]。假设每张照片的大小为2兆字节（MB），则每天产生3.6 TB的存储空间。作为“一张图片胜过千言万语”，只要我们具备有利用巨额数据的能力，Flicker上的数十亿张照片将会是我们探索人类社会、社会事件、公共事务、灾难等的宝库。

上述示例展示了大数据应用程序的兴起，其中数据收集能力已经大大增加，并且超出了常用软件工具在“可容忍的经过时间”内捕获、管理和处理的能力。大数据应用程序面临的最根本挑战是探索大量数据并为将来的行动提取有用的信息或知识^[40]。在许多情况下，知识提取过程必须非常有效并且接近实时，因为存储所有观察到的数据几乎是不可行的。例如，射电天文学中的平方公里阵列（SKA）^[17]在中心5公里区域内包含1,000到1,500个15米的射电盘，它提供的灵敏度比任何现有的射电望远镜都高出100倍，回答了许多有关宇宙的基本问题。但是，SKA生成的数据非常大，能达到40千兆字节（GB）/秒。虽然研究人员已经证实可以从SKA数据中发现有趣的模式，例如瞬态无线电异常^[41]，但现有方法仍无法处理这些大数据。因此，这些前所未有的数据量需要有效的数据分析和预测平台，以实现对此类大数据的快速响应和实时分类。

图1：盲人和巨人：每个盲人的局部（有限）视图导致偏见的结论。

在本文的其余结构如下。在第2节中，我们提出了一个HACE定理来模拟大数据特征。第3节总结了大数据挖掘的主要挑战。第4节概述了该领域的一些关键研究计划和作者的国家研究项目。相关工作在第5节中讨论，我们在第6节中总结了论文。

2. 大数据特征：HACE定理

HACE定理：大数据从具有分布式和分散控制的大容量，异构，自治源开始，试图探索数据之间复杂和不断发展的关系。

这些特征使得从大数据中发现有用的知识成为极大的挑战。从一个非常天真的角度上讲，我们可以想象一些盲人正试图评估一头巨型大象（见图1），这将成为这方面的大数据。每个盲人的目标是根据他在评估过程中收集到的部分信息来绘制大象的图片（或结论）。因为每个人的观点都局限于他的当地区域，所以每个盲人都会独立地得出大象“感觉”像绳子，软管或墙壁，这取决于他们每个人被限制在哪个区域，这并不奇怪。为了使问题更加复杂，让我们假设（a）大象正在迅速成长并且其姿势也在不断变化，并且（b）盲人在交换有关他们各自对大象的感受的信息时也相互学习。在这种情况下探索大数据相当于聚合来自不同来源（盲人）的异构信息，以帮助绘制最佳图像，以实时方式揭示大象的真实姿态。事实上，这项任务并不像要求每个盲人描述他对大象的感受，然后让专家用合并的观点绘制一张图片那么简单，要考虑到每个人可能说不同的语言（异构和多样化的信息来源），或者他们认为在信息交换过程中这些信息可能会存在隐私问题。

2.1 具有异构和多样维度的巨大数据

大数据的一个基本特征是由异构和多样性维度表示的大量数据。这是因为不同的信息收集者使用他们自己的模式进行数据记录，不同应用程序的性质也导致数据的不同表示。例如，生物医学世界中的每个人都可以通过使用简单的人口统计信息来表示，比如性别、年龄、家庭疾病史等。每个人的X射线检查和CT扫描都可以通过使用图像或视频来表示结果，它们为医生提供视觉信息以进行详细检查。微阵列表达图像和序列被用于表示遗传密码信息来进行DNA或基因组的相关测试，这是我们当前技术获取数据的方式。在这种情况下，异构特征指的是同一个体的不同类型的表示，不同的特征指的是表示每个单个观察所涉及的各种特征。想象一下，不同的组织（或健康从业者）可能有自己的模式来代表每个患者，如果我们试图通过组合来自所有来源的数据来实现数据聚合，数据异构性和多样化的维度问题就将成为主要挑战。

2.2 具有分布式和分散式控制的自治源

具有分布式和分散式控制的自主数据源是大数据应用的主要特征。作为自治，每个数据源都能够生成和收集信息，而不涉及（或依赖）任何集中控制。这类似于万维网（WWW）设置：每个Web服务器提供一定量的信息，并且每个服务器能够完全运行而不必依赖于其他服务器。另一方面，如果整个系统必须依赖任何集中控制单元，那么大量的数据也使应用程序易受攻击或故障的影响。对于那些主要的大数据相关应用公司，例如Google，Flicker，Facebook和Walmart，他们在全世界部署了大量服务器场，以确保为当地市场提供不间断服务和快速响应。这些自治资源不仅是技术设计的解决方案，也是不同国家/地区的立法和监管规则的结果。例如，在季节性促销，顶级销售商品和客户行为方面，沃尔玛的亚洲市场与其北美市场本质上不同。更具体地说，当地政府法规也对批发管理过程产生影响，最终形成了当地市场的数据表示和数据仓库。

2.3 复杂和不断发展的关系

当数据量增加时，数据下的复杂性和关系也会增加。在数据集中信息系统的早期阶段，重点是找到代表每个观察的最佳特征值。这类似于使用诸如年龄、性别、收入、教育背景等的许多数据字段来表征每个人。这种类型的样本特征表示将每个人视为一个独立的实体，而不考虑他们的社会联系，这是人类社会最重要的因素之一。人们根据他们共同的爱好或生物关系的联系形成朋友圈。这种社会联系不仅存在于我们的日常活动中，在虚拟世界中也非常流行。例如，主要的社交网站：Facebook或Twitter，主要以社交功能为特征，这些社交功能包括朋友关系和关注者（在Twitter中）。个体之间的相关性会使整个数据表示和推理过程复杂化。在样本特征表示中，如果个体共享相似的特征值，则认为个体是相似的，而在样本-特征-关系表示中，两个个体可以通过他们的社交联系连接在一起，即使他们可能在任何功能域内都没有共同点。在动态世界中，用于表示个体的特征和用于表示我们联系的社会关系也可能在时间，空间和其他因素方面上得到发展。这种复杂性正在成为大数据应用程序的一部分，其中关键是要考虑复杂（非线性，多对多）数据关系以及数据的不断变化，以期望从大数据集中发现有用的模式。

图2：大数据处理框架：研究挑战形成三层结构，围绕“大数据挖掘平台”（第一层），侧重于低级数据访问和计算。信息共享和隐私以及大数据应用领域和知识的挑战构成了第二层，它集中于高级语义，应用领域知识和用户隐私问题。最外面的圆圈显示了实际挖掘算法的第三层挑战。

3. 大数据的数据挖掘挑战

对于处理大数据的智能学习数据库系统^[52]来说，最关键的就是能够扩展到特大量的数据，并为上述HACE定理的特征因素提供处理机制。图2显示了大数据处理框架的概念视图，包括从内到外的三层，数据访问和计算（第一层），数据隐私和领域知识（第二层）以及大数据挖掘算法（第三层））。

第一层面临的挑战集中在数据访问和实际计算过程上。由于大数据通常存储在不同的位置并且数据量可能不断增长，因此有效的计算平台必须考虑分布式大规模数据存储以进行计算。例如，虽然典型的数据挖掘算法要求将所有数据加载到主存储器中，但这对大数据来说已成为明显的技术障碍，因为即使我们确实有一个超大的主存储器来容纳所有数据进行计算，但跨不同位置移动数据是非常昂贵的（例如，需要密集的网络通信和其他IO成本）。

第二层的挑战围绕着不同大数据应用的语义和领域知识。此类信息可为采矿过程提供额外的好处，但也会为大数据访问（第一层）和挖掘算法（第三层）增加技术障碍。例如，不同领域的应用程序，数据生成者和数据使用者之间的数据隐私和信息共享机制可能会有很大差异。可以不鼓励为水质监测等应用共享传感器网络数据，但对于大多数应用来说，释放和共享移动用户的位置信息显然是不可接受的。除了上述隐私问题之外，应用程序域还可以提供额外信息以引导大数据挖掘算法设计，使其受益。例如，在市场购物篮交易数据中，每个交易被认为是独立的，并且所发现的知识通常是通过找到高度相关的项目来表示，可能关于不同的时间和/或空间限制。另一方面，在社交网络中，用户被连接并共享依赖性结构。用户社区，每个小组的领导者以及社会有影响者等代表着不同的领域知识。因此，理解语义和领域知识对于低级数据访问和高级挖掘算法设计都很重要。

在第三层，数据挖掘挑战集中在以解决大数据量，分布式数据分布以及复杂和动态数据特征带来的困难的算法设计上。第三层的循环包含三个阶段。首先，通过数据融合技术对稀疏，异构，不确定，不完整和多源数据进行预处理。其次，在预处理之后开采复杂和动态的数据。第三，测试通过本地学习和模型融合获得的全局知识，并将相关信息反馈到预处理阶段，然后根据反馈调整模型和参数。在整个过程中，信息共享不仅是每个阶段顺利发展的保证，也是大数据处理的目的。

在下文中，我们针对图2中的三层框架阐述了挑战。

3.1 第一层：大数据挖掘平台

在典型的数据挖掘系统中，挖掘过程需要计算密集型计算单元进行数据分析和比较。因此，需要计算平台能有效地访问至少两种类型的资源：数据和计算处理器。对于小规模数据挖掘任务，包含硬盘和CPU处理器的单台计算机足以实现数据挖掘目标。实际上，许多数据挖掘算法被设计用于处理这种类型问题。对于中等规模的数据挖掘任务，数据量通常很大（可能是分布式的），并且不能适合主存储器。常见的解决方案是依靠并行计算^{[43], [33]}或集体挖掘^[12]来抽取和汇总来自不同源头的数据，然后使用并行计算编程（例如消息）通过接口进行挖掘。

对于大数据挖掘，由于数据规模远远超出单个个人计算机（PC）可以处理的容量，典型的大数据处理框架将依赖于具有高性能计算平台的集群计算机，其中数据挖掘任务将由在大量计算节点（即集群）上运行的一些并行编程工具来完成，例如MapReduce或ECL（企业控制语言）。软件组件的作用是确保单个数据挖掘任务（例如，从具有数十亿个样本的数据库中查找最佳匹配）被分成许多小任务，每个小任务在一个或多个计算节点上运行。例如，在撰写本文时，世界上最强大的超级计算机Titan，部署在美国田纳西州的橡树岭国家实验室，包含18,688个节点，每个节点都有一个16核CPU。

如果没有关键的工业股东的支持，这样一个融合了硬件和软件组件的大数据系统几乎不可用。事实上，几十年来，公司一直根据存储在关系数据库中的交易数据做出业务决策。大数据挖掘提供了超越其关系数据库的机会——可以依赖结构较少的数据，这些数据包括网络日志、社交媒体、电子邮件、传感器和可以挖掘有用信息的照片。主要的商业智能公司，如IBM、Oracle、Teradata等，都有自己的产品，以帮助客户获取和组织这些不同的数据源，并协调客户的现有数据，以找到新的见解，并利用隐藏的关系。

3.2 第二层：大数据语义和应用知识

大数据中的语义和应用知识涉及法规、政策、用户知识和域信息相关的许多方面。这一层面最重要的两个问题包括（1）数据共享和隐私；（2）领域和应用知识。前者提供了如何维护，访问和共享数据的问题的答案;而后者侧重于回答诸如“什么是底层应用程序？”和“用户打算从数据中发现的知识或模式是什么？”等问题。

3.2.1 信息共享和数据隐私

信息共享是涉及多方的所有系统的最终目标^[24]。虽然共享的动机是明确的，但现实世界关注的问题是大数据应用程序与敏感信息相关联，例如银行交易和医疗记录，因此简单的数据交换或传输无法解决隐私问题^{[19], [25], [42]}。例如，了解人们的位置和他们的偏好，可以启用各种有用的基于位置的服务，但随着时间的推移，公开披露个人的行为会对隐私产生严重后果。为了保护隐私，两种常见的方法是（1）限制对数据的访问，例如向数据条目添加认证或访问控制，因此敏感信息只能由有限的用户组访问；（2

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

大数据的数据挖掘外文翻译资料

2.1 具有异构和多样维度的巨大数据

2.2 具有分布式和分散式控制的自治源

2.3 复杂和不断发展的关系

3.1 第一层：大数据挖掘平台

3.2 第二层：大数据语义和应用知识

3.2.1 信息共享和数据隐私

您可能感兴趣的文章

登录

注册

找回密码

2.1 具有异构和多样维度的巨大数据

2.2 具有分布式和分散式控制的自治源

2.3 复杂和不断发展的关系

3.1 第一层：大数据挖掘平台

3.2 第二层：大数据语义和应用知识

3.2.1 信息共享和数据隐私

您可能感兴趣的文章