应用于大数据分析的K-means算法的实现外文翻译资料

 2021-12-27 22:01:08

英语原文共 26 页

介绍

如今,伴随着网络技术、社交媒体、移动通信以及传感器设备的发展,数据的规模以无法预料的速度持续膨胀着。例如,推特用户每天产生超过7000万条推文,大小超过每日8TB。ABI研究所预测到2020年,将会有超过300亿的硬件设施互相关联起来。这些大数据在医疗保健、生物、交通运输、在线广告、能源管理以及金融服务等领域有着巨大的潜在商业价值。然而,传统的方法在这大量的数据面前开始行不通了。

大数据的概念是由Gartner所定义的,大数据的“大”包括“规模大”、“速度大”以及“种类大”,这便需要新的处理模式来发掘其中的价值,提高决策速度,产生可选方案。根据这些定义,大数据并非仅由其规模的大小来决定是否为大数据,也因此当你使用传统的方法来处理大数据时,你将对其不一般的规模、种类,速度感到非常棘手。大数据的这些定义及特征决定了它的潜在的可能性,然而,要发掘并利用这种可能性就必须想办法改进传统的方法或是研究发展出新的方法来处理这些大数据。

概因大数据其内在的潜力,现在社会上广泛认为大数据将会带来一场改变我们的生活、工作乃至思考的方式的变革。这种变革的主要目的在于运用大量的数据来进行知识的发掘和给出更好的决策。能否挖掘出大数据的价值,在于是否拥有有效的数据分析技术,Jagadish et al 认为数据分析技术将会是大数据变革中的核心部分。

数据分析技术包含多种方法、技术,以及工具,例如文本分析、商业智能、数据可视化以及统计数据分析。而本篇文章将把机器学习视作数据分析中的一个基本组成要素来进行着重分析。McKinsey Global机构宣称,机器学习将成为大数据变革中的一位主要的驱动者。而之所以这么宣称的理由在于,他们认为机器学习能够从数据中进行学习,并帮助进行数据洞察、决策以及预测。这种能力是建立在统计数计上的,有些类似于统计数据分析,它们都可以从数据中发现一定的趋势。然而,机器学习并不需要明确的统计证明亦能完成相关任务。根据可用数据的自然特征,机器学习的任务可以分为主要的两类:无监督学习,即输入和预计输出结果都已知,系统会学习将输入和输出进行配对;有监督学习,即期望结果为未知,系统将根据数据自行发现其结构。分类和回归是有监督学习的一种例子:在分类这一任务中,输出结果采用离散值(类标签)。而在回归这一任务中,输出时连续的。分类算法的其中一个例子是k-近邻算法,逻辑回归,以及支持向量机。而回归算法的例子则包括支持向量回归,线性回归以及多项式回归。一些算法可以同时运用在分类和回归任务中,比如神经网络。无监督学习包括聚类算法,在聚类算法中,每一类中的项目有着相近的近似标准,K-means便是这种算法中的一种。预测性分析依赖于机器学习来建立一个模型,用过去的数据尝试着预测未来。许多算法,包括支持向量回归、神经网络以及朴素贝叶斯皆可用于此目的。

在工业中的AI技术革新是 IEEE Intelligent Systems 一个新的组成部分,而这第一篇文章将阐释一些基本的概念问题,并展现一部分AI在大数据领域中的实际应用(AI早已被广泛运用在促进获取和构建大数据的工作中,同时也被用于分析大数据以获取关键信息)。在接下来的文章中,我们将展示一些分析新兴项目的学习例子以及将AI和大数据结合起来的方法。

什么是大数据?

Michael Cox 和 David Ellsworth 曾首次运用 big dataliterally 项目使大量的科研数据显得更加直观(也曾使用过 large data 项目)。近期,关于大数据的定义变得多样了起来。这其中,最广为人知的版本或许是来自IBM的定义:大数据的特点在于其特征性可用三个“V”词汇来进行描述,以用于研究环境或事件或其他事物,而这三个词分别是体积,种类以及速度。

“体积”是指从其源头生成提取的大量的数据。例如,来自IoT(物联网)的数据也包含在大数据中。按照最初的设想,IoT(物联网)指的是从大量硬件及传感器网络中通过互联网获取的数据。RFID标签出现在通过供应链运输货物时捕获交易数据的库存物品上。大数据也可指从社交媒体如Facebook或Twitter上获取的爆炸式增长的信息。

“种类”指的是运用不同种的数据分析环境或事件。在物联网上,数以百万的硬件设施源源不断地产生着数据,这不仅意味着海量的数据,同时也意味着表征着不同情况的不同类型的数据。例如,依旧以RFID为例,病人身上的心脏监控器和电话提供的地址信息都是不同种类的结构化数据。然而,硬件设施和传感器并非仅有的数据来源。人们在网上生产着极大量的结构化或非结构化的数据。网页浏览数据,取自鼠标的点击序列,是一种结构化数据。然而,同时也存在着大量非结构化数据。例如,Pindron曾于2011年提出,世界上存在着5.55亿个网站和超过一亿个博客,这些网站和博客中包含着许多非结构化数据,例入非结构化的文本、图片、音频以及视频。因此,出现了大量的来自“物、人网”和“所有网络”的数据结合。

“速度”,数据的“速度”随着时间的推移在飞速地增长着,这一点对于结构化数据和非结构化数据来说都是一样的,也因此我们需要更加频繁地对这些数据作出选择和决断。随着整个世界变得愈发全球化和发达,也随着物联网的建立,关于全世界的事物的数据获取和选择决断的频率正在不断上升。在未来,社交媒体的使用速度和频次都将上升。例如,现在每天有超过2.5一次推特转发。一个推特转发将引导另一个推特转发,使得其速度不断上升。在未来,不同于传统的贩卖数据的数据商店,大数据将具有更多地动态性。通过大数据作出的决断,将最终反过来影响到下一步的数据获取和数据分析,给其“速度”增加更高的一个维度。

大数据不仅是“体积、种类、速度”,而是三者一定比例的结合。因此,随着分布式和并行计算的发展,得以处理更大容量的数据,尤其是通过谷歌的MapReduce应用,大数据受到了广泛关注。

Mapreduce 和 Hadoop

Mapreduce 已经被谷歌用于制作大规模的应用。受Lisp中的map和reduece函数的启发,Map-Reduce 将一个应用分解为数个小规模的问题加以解决,这其中的每一个小问题都能通过电脑集群中的一个节点进行求解。在“map”阶段,将子问题传给电脑集群中的节点,在“reduce”阶段则将不同的子问题的结果合并起来。Map-Rreduce提供了一个接口或者说平台,使得电脑集群能够进行分布式和并行式计算。Map-Reduce 被谷歌用于大量的项目中,包括数据挖掘和机器学习。

Hadoop,以一个男孩的玩具大象命名,是一个开源版的Map-Reduce。显然,目前雅虎是Hadoop最大使用者、开发者以及测试人员——每月有超过五亿的使用人员,同时每天有超过数十亿的使用了不同种拍字节数据的交易。举一个Map-Reduce的应用例子,想象雅虎的前端页面被分解成不同的类别,例如广告(针对用户进行优化),热门视频(针对内容进行优化),新闻(受内容管理影响)等等。而这其中每一个类别都能被不同的电脑集群解决。

在未来,在那些领域中,问题将被进一步分解,以更快速地得到解决。

Map-Reduce 能够扩展处理路径以通过更大量的处理器处理更大体量的数据。因此,一些由数据体量增长、速度增长引起的问题将可通过使用并行式方案加以解决。

AI的贡献

就像是大数据一样,AI是用以应对数据不断增长的体量、种类、速度的。在应对大量数据的情况下,人工智能可以通过计算机解决困难的模式识别、学习以及其他任务。例如,世界上超过一半的股票交易是由基于AI的系统完成的。另外,AI同样对促进数据速度有所帮助,AI能加快计算机作出决断的速度并因此影响其他的决断。例如,既然绝大部分的股票交易由AI系统完成,也因此交易的速度有所提升,因此一个交易就可以更快速的影响到下一个交易。最终,数据的种类的数量并非简单地将问题进行分布式和并行式处理就得以下降。相对的,通过使用AI和其他分析手法将非结构化数据进行抓取、结构化并加以理解,使得数据的种类数量有所下降。

结构化数据的生成

AI领域的研究人员在很长的一段时间里都对于设计用于分析非结构化数据的应用程序很感兴趣,同时也感兴趣于对数据进行分类和结构化——这样就可以利用得出的信息更直观地理解过程或者与建立与其他软件之间的接口。例如,Johan Bollen 和 Huina Mao 发现关于道琼维斯工业指数的股票预测可以通过考察整个股票市场的“情绪”来进行改善——这显然是一种非结构化的概念,但却是基于谷歌给出的结构化数据得出的。

在另一种应用中,企业已经开始调查非结构化数据的影响,比如企业的声誉。例如,Scott Spangler 和他的同事们评估了一些企业是如何分析一定范围内的不同类型的数据来对一系列活动提供持续的监控的,这其中包括生产关于企业或产品的声誉的解决方案和建议,与此同时在另一个方面的工作中,作为例子,我调查了监控,财务审计 其他数据流(欺诈检测)。

将数据进行结构化的方法有多种 。Philip Hayes 和 Steven Weinstein 开发了一种用于 Reuterrsquo;s News Service 的系统来帮助进行个人新闻文章的分类。 最终系统将未结构化的新闻类文章分类为近700种,并能够分辨超过17000家企业的名字,准确率高达85%。另一方面,研究者尝试从一个新的途径来分析博客、推特和其他文本中蕴藏的发布者的情绪。这些不同的观点中的特征可用来开展多种多样的项目研究。例如,当一个广告被投放之后,我们可以得到许多结构化的交易信息,例如广告在何时何地投放,以及其他信息。这些交易信息可以与以往的非结构化信息一一比对,例如这些广告在推特中被提及的次数,以及这些推文中所蕴含的否定或支持的情感。除此之外,人工智能的研究经常能够检验哪些数据能够被结构化。例如,Efthymios Kouloumpis和他的同事们对大量推文进行了研究并发现推文的标签和其中的表情符号可以有效地用于探明其中蕴含的情感。一旦数据被结构化之后,企业就会试图用数据挖掘的方法来探明这些类型的大数据,然而有一些限制的存在阻碍了这种分析。

当前人工智能算法的一些限制

Xindong Wu和他的同事们总结出了十大最佳数据挖掘算法。但不幸的是,那些可用的算法集经常是非标准的,主要是用于研究的。算法可能缺少文档、支持以及清晰易懂的示例。更甚者,在很长一段时间里对AI的关注和研究局限于通过单个计算机来实现。对于大数据,我们需要AI能够适应集群的机器或者可在MapReduce形式的结构上进行逻辑设置,例如像Hadoop那样。也因此,对于利用人工智能算法来更有效率地进行企业大数据设置这一点可能存在限制。

然而,最近MapReduce被用于开发人工智能算法的并行处理方法。Cheng-Tao Chu和他的同事们将MapReduce引入机器学习,以促进各种人工智能学习算法的并行编程能力。他们的方法展示了一个特点,即他们可用被他们成为求和方法的形式来编写算法,以从子问题中提取足够的统计数据并加以聚合和解决。利用并行式方法,他们可以通过增加处理器来获得线性加速。

而与这发展向一致的是,除了Hadoop,现在还有一个具有推荐挖掘,集群以及分类功能的机器学习库,被称为Mahout。据说,这个机器学习库可以与Hadoop结合起来用于促进企业使用人工智能和机器学习来在并行式环境下分析大量不同类数据的能力。

不同机器学习算法之间的并行化

人工智能研究人员越来越倾向于将人工智能集群到并行计算中去。例如, Tim Kraska和他的同事们正在从事此类工作。与此同时,还有其他人员开始了关于分布式环境中的机器学习的研究。然而,人工智能研究人员或许对并行式项目并不熟悉。因此,人工智能团队与并行计算研究人员开始了共同合作的努力。

作为MapReduce方法中的一部分,“map”的部分为各个节点提供了子问题用于进一步的研究分析,这一工作提供了实现并行化成为的能力。不同的人工智能方法和不同的分析单元可能会影响Map-Reduce方法解决和分解问题的程度。然而,在某些例子中,为单机环境开发的算法可以很轻易地扩展到并行式处理的环境中。

尽管Hayes和Weinstein中的系统是在MapReduce之前开发的,但我们依然可以预见到它在这样的环境下的实现。由于该算法可以独立地对新闻故事进行分类,因此一种用于将数据分解为子问题的算法是在每个集群中分别地处理新闻故事。而另一个例子中,Soo-Min Kim和Eduard Hovy分析了句子层面上的情绪数据,以此提取除了非结构化数据中的结构化数据。如果句子是独立处理的,那么可以在句子层面上产生子问题。类似的,如果分析单元是标签或表情符号,那么可以为这些东西生成子问题。如果需要完成的任务是对交易或者其他数据块进行监控,那么个人交易和数据块可以按并行化的方式分别处理。因此,我们可以看到,为单机环境所设计的人工智能算法可能具有用于并行化的子问题结构。

前沿项目

人工智能和大数据相结合的前沿项目有很多。

然而,第一,不幸的是,一些机器学习算法的特征——例如以遗传算法为首的迭代算法——会使它们在MapReduce环境下更难以运行。因此,许多研究人员比如Abhishek Verma以及他的同事们正在研究基于Hadoop的遗传算法以及其他遗传算法的设计、实现以及使用,

第二,伴随着大量的数据,也会有着许多的“坏数据”随之诞生——它们可能是错误信息,可能是不完整的信息,也可能有着不同的错位的精确度。人工智能可以用于分辨“好数据”和“坏数据”或者利用“坏数据”来建立数据的认知环境。例如,坏数据可能意味着存在与预设所不同的上下文认知环境,有一种可能的情况就是数据

资料编号:[3405]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。