大数据的几何和拓扑处理外文翻译资料

 2022-01-06 09:01

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


大数据的几何和拓扑处理

Vaacute;clav Snaacute;scaron;el a, Jana Nowakovaacute; a,lowast;, Fatos Xhafa b, Leonard Barolli c

a 计算机科学系,电子工程和计算机科学学院,vscaron;b-奥斯拉瓦技术大学,17。利斯特帕杜15/172捷克共和国奥斯特拉瓦-普卢巴7033

b 西班牙巴塞罗那,c/Nord,omega bld,c/jordi girona,1-3,08034

c 福冈理工学院资讯与传播工程学系3-30-1日本福冈811-0295

亮点

bull; 对大数据的几何和拓扑方法的最先进的概述。

bull; 对大数据的几何和拓扑方法的趋势。

bull; 大数据可视化。

bull; 对目前的技术和今后处理这些应用的趋势的讨论。

关键字:

大数据,工业 4.0,拓扑数据分析,持久同调,降维,大数据可视化。

摘要

现代数据科学使用拓扑方法来寻找数据集的结构特征,然后再进一步监督的或非监督的分析。几何和拓扑学是分析大规模几何以来的数据量可以看作是距离函数的研究。数学形式主义是为了结合几何和拓扑技术而发展起来的带有点云数据集,即有限的点集。然后从不同的分支调整工具研究点云数据集的几何和拓扑学。点云是有限的样本从几何物体上取下的,也许带有噪音。拓学为定性提供了一种形式语言数学,而几何主要是定量的。因此,在拓扑学中,我们研究了接近或接近,不使用距离。拓扑空间之间的映射称为连续的,如果它保存了近度结构。几何和拓扑方法是我们分析的工具高度复杂的数据。这些方法创建所有数据的摘要或压缩表示帮助快速发现数据中特定模式和关系的特性。建设的想法属性的整个域的摘要涉及到理解拓扑之间的关系以及利用各种特征的数据构建的几何对象。

在各种消除噪音、减少模型、重建可行性的方法中的共同线索,和盲源分离,是用更低的维度近似来代替原始数据通过矩阵或多向阵列分解或分解得到的表示。另外这些转换是特征概括或子集选择方法的重大挑战。大数据将通过关注可伸缩特性选择来考虑。低维近似值表示用于大数据可视化。

拓扑学和大数据之间的交叉领域将带来巨大的机遇和挑战,对于大的数据社区。本调查旨在汇集最新的大数据几何和拓扑方法的研究成果。

正文

导言

海量数据随处可见,因为在各种实际应用中,大量的有价值的、精确的和不确定的数据可以很容易地收集或高速生成。社会、医疗、科学和工程数据的网上储存、管理、处理和可获得性的爆炸性增长,是由于我们需要从根本上了解产生这些数据的过程。据预测,到2020年,所产生的数据量可能达到44ztabyte[1]。随着存储能力、处理能力、带宽容量和传输速度的指数增长,这些数据的巨大体积和复杂性推动了技术进步的实现。部分原因是由于新的实验方法,部分原因是由于高能计算技术的增加。大量的数据(大数据)过于复杂,无法由传统的处理应用来管理。现在,它包括从多个领域和资源生成和收集的巨大、复杂和丰富的结构化和非结构化数据。管理大量数据的挑战包括提取、分析、可视化、共享、储存、转移和搜索这些数据。目前,传统的数据处理工具及其应用无法管理大数据。因此,迫切需要开发有效和高效的大数据处理技术。大数据具有体积、速度、种类、准确性和价值等五个特点。体积是指用于处理和分析的数据的大小。速度与数据的增长和使用速度有关。变化是指用于处理和分析的数据的不同类型和格式。准确性关系到结果的准确性和数据的分析。价值是数据处理和分析提供的附加值和贡献。

现代数据科学在进一步的监督或非监督分析之前,使用所谓的拓扑方法来寻找数据集的结构特征。几何和拓扑学是分析大量数据的非常自然的工具,因为几何可以看作是距离函数的研究。除了距离函数的异质性外,另一个问题与大的有限数据集上的距离函数有关。为了结合几何和拓扑学技术而发展起来的数学形式主义处理点云,即有限集合的点装备有接近或接近或距离的函数[3,4]。然后它将几何和拓扑学的各个分支的工具用于研究点云[5]。点云是从几何物体上提取的有限样本,可能带有噪声。

几何和拓扑方法是分析高度复杂数据的工具。这些方法创建所有数据特征的摘要或压缩表示,以帮助快速发现数据中的模式和关系。

大数据分析的一个非常实际的问题是,目前使用的方法基于模型创建,模拟创建的模型,然后评估,原始数据是否对应于使用创建的模型获得的数据----模型验证不能应用。本文所描述的过程对于解决物理等经典问题是非常有用的,因为这些问题的理论背景已经得到了足够的研究和理解,因此可以对其进行重构以适应模型的需要。对于大的数据处理来说,第一个问题是我们无法定义可以测试的数据特征的具体假设。因此,对于大数据问题,不能使用与经典物理问题相同的方法。因此,本研究的主要目的不是要定义一个模型,而是要能够准确地自动挖掘出大数据集的有趣特征。在许多情况下,要检查的数据往往是基于不容易用传统方法捕获的形状[9]。

在消除噪音、减少模型、可行性重建和盲源分离的各种方法中的共同线程,除了这些转换之外,对于大数据的特征总结或子集选择方法的一个重大挑战将通过关注可缩放的特征选择来考虑。低维近似表示用于大数据可视化,以便能够以可理解的形式可视化数据。这种方法——维数缩减也可以理解为特征压缩的一种方法,见图6。
全文结构如下:第二节简要介绍了大数据技术。在下面的第三部分中,给出了一个简单的动机例子。第四节介绍了一个简短的数学背景。这一部分包含了拓扑学、度量空间、同调和持久同调理论、流形和莫尔斯理论的简要回顾。在下面的第5节中,介绍了对同调和持久同调理论的简要回顾。大数据可视化将在第7节讨论。接下来是描述和介绍新的透视大数据挑战的部分。本文以第9节的结论结束。

当下的大数据技术

数据的储存、传送、分析和可视化的方式随着时间的推移而不同;人类活动的所有领域的兴起总是与技术可能性的增加有关,如政治形势、社会经济安排的发展和工业。这个在当时被称为有史以来最大的会计操作,可以被认为是第一个主要的数据项目[10–13]。如前所述,政治形势对科技的兴起总是有很大的影响,而科技发展的主要动力一直是战争和金钱。二战期间,英国在1943年发明了一个机器巨像来破译德国的密码。该装置以每秒5000个字符的速度搜索加密信息中的模式,被称为第一台数据处理机器。近年来,海量数据一直是最大的趋势之一,导致研究以及工业和政府应用的增加。高性能计算和高分辨率传感能力的不断改进导致了空前规模和复杂性的数据。数据被认为是一种强大的原材料,可以影响多学科研究。

2.1数据存储

我们面临着数据的浪潮;数据的数量如此之大,以至于许多人从来没有看过大量的信息。数据的下一个有问题的方面是它的很大一部分是多余的,例如一个视频由于许多现有的视频格式,其分辨率和多种语言的字幕[19]占用了很多空间,从信息的角度来看,这是必要的,但通常它不会带来任何新的东西。数据的存储方式已经发生了变化:1965年,美国政府决定建立首个数据中心,存储1.75亿套指纹和7.42亿纳税申报单,并将数据存储在磁带上[20]。如今已经不能用了。传统上,持久性数据仍然是使用硬盘存储的(hdd)[21],这些数据有其所有的缺点,例如访问时间的界限,寿命受到机械(移动)部件的限制,以及具有更快访问速度的dram(易失内存)。目前的趋势是用固态驱动器(ssd)取代hdd,作为一种非挥发性存储器(nvm)[22,23]。其他类型的nvm,现在也在上升,它们是相变存储器(pcm)和忆阻器。这些将被集成为内存总线上的字节/可寻址内存,或者直接堆在芯片上(3d-stacking)[24]。

2.2数据传输

如今,云计算和云数据存储非常流行。用户没有时间,也不想维护数据存储和计算硬件,所以最简单的方法就是向云[25]发送数据。然而,这种现代技术也有其局限性——通信容量和安全性[26,23]。云计算仍然被认为是一个热门趋势。

2.3数据处理/分析

下一个问题不是在哪里存储数据,而是如何存储数据以及使用什么平台来分析数据。结构化数据管理的经典方法分为两部分:第一部分是数据集的存储,第二部分是存储数据检索的相关数据库。大规模的结构化数据集管理通常基于数据仓库和数据集市,两者都是基于标准查询语言(sql)。sql更可靠,像雨燕云和sqlstream这样的直接和分析平台运行在它上面[23]。此外,最近,为了避免使用关系数据库管理系统(rdbms)[27],不仅经常使用sql(nosql)数据库方法。使用nosql数据库的最流行的管理系统是hbase,Apache Cassandra,simpredb,谷歌巨头,Apache Hadoop,memchacedb和Voldemort[23]。

大数据的分析方法仍在研究中。为了处理大数据,云计算,然后颗粒计算、生物系统计算都在考虑之中。

3.动机事例

统计物理学的一般问题如下:给定原子或分子的大量集合,给定这个粒子集合的组成成分之间的相互作用规律,给定动态演化的规律,我们如何预测由这些原子或分子组成的物质的宏观物理性质?
典型的基于特征的模型[28,29]寻找一个现象的最极端的例子,并用这些例子来表示数据,但是要描述一个大的系统,这个模型是不合适的。统计物理中这个问题的解决方案是基于特征总结或子集选择方法。

不难看出直径为D的N维球的体积应该用公式vnd N表示,其中vn为常数且不依赖于D,例如,半径1和1lt;UNKgt;lt;UNKgt;之间的圆球环的体积等于,对于固定和任意小的lt;UNKgt;,但增加N,它接近BN。20维的西瓜,半径20厘米,1厘米厚的皮近三分之二。

这一情况在统计机制中起着重要作用。例如,考虑一下由N个原子组成的储集层中最简单的气体模型,我们可以假定它是质量为2的物质点(在适当的单位系统中)。我们用物理欧几里得空间中所有分子的速度的N个三维向量(v 1,hellip;,VN)表示气体的瞬时状态;也就是说,用三维坐标空间r 3N的一个点表示。r 3N中向量长度的平方具有直接的物理解释为系统的能量(原子的动能之和)

Vn 1 minus; (1 minus; e)n, (1)

图一.描绘数据不确定性的大数据源[6,7]

对于正常条件下的宏观气体体积,N的大小为1023(阿伏加德罗数),因此气体的状态只能在一个巨大维度的球体上描述,他的半径是能量的平方根。
我们可以得出结论,一个大系统(大数据)的模型必须基于特征摘要或压缩或子集选择方法。
越来越多的voip、社交媒体和传感器数据[6,7]强调了处理这些数据来源固有的不确定性的方法的必要性。目前约80%的数据不确定,见图1。我们可以通过应用拓扑方法来面对不确定性的问题。组件或孔的数量不是随小的变化而变化的。在数据非常不确定的情况下,这对应用程序至关重要。

4.数学背景

在本节中,我们总结了本文其余部分中提出的大数据处理所必需的理论概念。

4.1拓扑

拓扑空间[32–34]是与拓扑一起的点的集合;也就是说,称为开集的子集的集合。直观地说,一个集合u是开放的,如果从u中的任何一点出发,朝任何方向前进,都可以移动一点,仍然停留在集合内部。事实证明,开集的概念提供了一个关于如何谈论点的接近性的基本方法,尽管在考虑的拓扑空间中没有明确的定义距离的概念。因此,一旦定义了拓扑,我们就可以引入连续性等性质,连接,和亲密,这些都是基于某种接近的概念。

  1. 空间 (b)拓扑空间 (c)度量空间

一个拓扑空间是满足x的子集的集合x和集合tau;
以下公理:

.

拓扑空间之间的映射F称为连续的,如果每个开集的逆图像是开集。同胚-phism是一个连续的双射,其逆也是连续的。两个拓扑空间(x,tau;x),(y,tau;y)称为同胚-变态,如果存在同胚Fx y。拓扑空间的性质被保留到同胚-态射被称为拓扑不变性。
度量的概念是通过列出的三个性质直接推广欧几里得距离。给定一个非空集x,我们说一个映射D x x r是一个度量,如果它满足以下性质:

对所有 x 和 y, d(x, y) ge; 0 且d(x, y) = 0,当且仅当

x = y,

对于所有点 x , y, d(x, y) = d(y, x),

对于所有点x,y,z, d(x, y) d(y, z) le; d(x, z).

对(x,D)称为度量空间。如果从上下文理解度量D,我们通常会将x称为度量空间。desa对度量作了系统的描述[35,36]。
图2展示了我们如何将云点转换为近度结构(拓扑空间)和距离结构(度量空间)。

4.2流形

曲面的自然的、更高维度的类似物是一个N维流形,它是一个拓扑空间,具有与欧几里得n-空间相同的局部性质。因为它们经常发生并在数学的许多其他分支中有应用,流形当然是拓扑空间最重要的类之一。
一个拓扑流形是一个空间m局部同胚于rn。也就是说,存在一个覆盖一个m的ualpha;被开集伴随着映射phi;alpha;ualpha;rnphi;alpha;是同胚。它的封面叫做图集。这个元组(ualpha;,phi;alpha;)称为图表。这样的局部同态称为ualpha;上的一个坐标系,并使得能够用rn的n元组来识别任意一点的U ualpha;。m是一个有边界的N维流形,如果每个点都有一个邻域同胚于一个或半空间U(U1,hellip;,UN)或UN 0的开集。

假设(ualpha;,phi;alpha;)和(ubeta;,phi;beta;)是流形m的两个图,使得Ualpha; cap; Ubeta;是非空的。

图3.流形上的图表

过度地图

tau;alpha;,beta; : phi;alpha;(Ualpha; cap; Ubeta; ) → phi;beta; (Ualpha; cap; Ubeta; ),

全文共34780字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[2079]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。