大数据与可视化:方法、挑战与技术进步外文翻译资料

 2022-03-22 08:03

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


大数据与可视化:方法、挑战与技术进步

Lidong Wang, Guanghui Wang, Cheryl Ann Alexander3

密西西比河谷州立大学工程技术系、

美国灾害天气国家重点实验室、

中国气象科学研究院、

中国科技和医疗保健解决方案

通讯作者:lwang22@students.tntech.edu

2015年6月27日收到;2015年7月16日修订;2015年7月20日接收

摘要:大数据分析在减少大数据应用程序的数据规模和复杂性方面起着关键作用。可视化是帮助大数据获得完整的数据视图和发现数据值的重要方法。大数据分析和可视化应该无缝集成,以便在大数据应用中发挥最大作用。本文介绍了传统的数据可视化方法,以及一些传统方法在大数据应用中的扩展。讨论了大数据可视化的挑战。介绍了大数据可视化的新方法、应用和技术进展。

关键词:大数据,可视化,交互式可视化,虚拟现实,网络,云计算,信息技术,电信系统

说明:Lidong Wang, Guanghui Wang, and Cheryl Ann Alexander,“大数据:方法和可视化的进展,挑战和技术。“数字技术,第1卷,第1年(2015年):33—38。编号:10.12691 / DT—1—1—7

简介

数据可视化是以某种系统形式表示数据,包括信息单元的属性和变量。基于可视化的数据发现方法允许业务用户将不同的数据源混合起来创建定制的分析视图。先进的分析方法可以集成在桌面、笔记本电脑或平板和智能手机等移动设备上创建交互式和动画图形的方法。表一显示了根据调查的受访者百分比数据可视化的好处。

表一、数据可视化工具的好处

好处

百分比

改进决策

77

更好的ad-hoc数据分析

43

改进协作/信息共享

41

为最终用户提供自助服务能力

36

增加投资回报率(ROI)

34

节省时间

20

减轻负担

15

对于可视化有一些建议:(1)不要忘记元数据。有关数据的数据非常有启发性。(2)参与事项。可视化工具应该是交互式的,用户参与是非常重要的。(3)鼓励互动。静态数据工具不会像交互工具那样领导新发现。

大数据是高容量、高速度和/或高多样性的数据集,需要新的处理形式,以便增强过程优化、洞察发现和决策。大数据的挑战在于数据捕获、存储、分析、共享、搜索和可视化。可视化可视为大数据的“前端”。有以下数据可视化神话:

bull;所有数据必须可视化:重要的是不要过分依赖可视化;一些数据不需要可视化方法来发现它的消息。

bull;只有良好的数据应该是可视化的:一个简单而快速的可视化可以突出数据的一些错误,因为它有助于发现有趣的趋势。

bull;可视化将始终显示正确的决策或行动:可视化无法取代批判性思维。

bull;可视化将导致确定性:数据可视化并不意味着它显示了什么是重要的准确的图片。可视化可以通过不同的效果来操作。

可视化方法用于创建表、图表、图像和其他直观的显示数据的方式。大数据可视化不像传统的小数据集那么简单。传统的可视化方法的扩展已经出现,但远远不够。在大规模数据可视化中,许多研究人员利用特征提取和几何建模在实际数据绘制之前大大减少了数据的规模。当可视化大数据时,选择适当的数据表示也是非常重要的。

本文的目的和目标是通过引入传统的可视化方法,并将其扩展到大数据的处理,讨论大数据可视化的挑战,分析大数据可视化技术的进展,提出大数据可视化的新方法和新进展。

在这项研究中,作者首先寻找与数据可视化有关的论文,并通过大学图书馆系统出版了近几年。在此阶段,作者主要总结了传统的数据可视化方法和在这方面的新进展。接下来,作者搜索与大数据可视化相关的文件。这些论文大多发表在过去三年,因为大数据是一个较新的领域。在这一阶段,作者发现大多数传统的数据可视化方法不适用于大数据。传统的可视化方法在处理大数据方面的扩展远远不够。作者关注于大数据可视化的挑战,以及新方法、技术进步和开发大数据可视化的工具。

传统的数据可视化方法

据可视化方法经常被使用。他们是:表格、直方图、散点图、折线图、条形图、饼图、面积图、流程图、气泡图、多个数据系列或组合图、时间线、维恩图、数据流图、实体关系图等。此外,一些数据可视化方法已被使用,尽管他们不知道相比上述方法。另外的方法是:平行坐标图、树图、锥树、和语义网络等。

并行坐标用于绘制各个维度上的单个数据元素。当显示多维数据时,并行坐标非常有用。图1平行坐标。TreeMap是可视化的层次结构的一种有效方法。每个子矩形的大小代表了一项措施,而色彩是经常用来表示数据的另一种方法。图2显示了一个树状图的一系列选择的流媒体音乐和视频在社交网络社区跟踪。锥树是另一种显示层次数据的方法,如三个维度的组织体。树枝以球果的形式生长。语义网络是不同概念之间逻辑关系的图形表示。它生成有向图,节点或顶点的组合,边或弧,以及每个边上的标签。

图1 、平行坐标法

图2 、从流媒体服务的一个社交网络的轨道选择树形视图

图3、数据集直方图与顶层地图的交互冲突和连接

可视化不仅是静态的,它们也可以是交互式的。交互式可视化可以通过缩放(放大和缩小)、概述和细节、缩放和平移、聚焦、上下文或鱼眼来实现。交互式可视化的步骤如下:

1、选择:根据用户兴趣对数据实体或子集或部分数据或整个数据集进行交互选择。

2、链接:它用于在多个视图之间关联信息,图3中给出了一个例子。

3、过滤:它帮助用户调整显示的信息量,减少信息量,关注感兴趣的信息。

4、重新安排或重新映射:因为空间布局是最重要的视觉定位,重新安排信息的空间布局是生产不同的见解非常有效

新的数据库技术和有前途的基于Web的可视化方法对于降低可视化生成的成本和帮助改进科学过程至关重要。由于基于Web的链接技术,可视化改变了数据的变化,这大大减少了努力保持可视化的及时和最新的。这些“低端”可视化常常被用于商业分析和开放的政府数据系统,但它们通常没有用于科学过程中。许多可视化工具科学家们不允许像这些基于Web的工具那样进行实时链接。

大数据可视化面临的挑战

可伸缩性和动态性是视觉分析中的两大挑战。表二显示了静态数据和动态数据根据数据大小的研究状况。对于大动态数据,A类问题或B类问题的解决方案通常不适用于A和B问题。

表二、视觉分析的研究现状与挑战

数据类型

小型、中型

大型

抽象类型

好研究

开发问题类型A

动态数据

开放问题类型B

极具挑战性的(A和B)gt;gt;A B

基于可视化的方法面对大数据“four vs”带来的挑战,并将其转化为以下机会:

bull;大量:这些方法被开发为处理大量数据集,并从大量数据中获得意义。

bull;多样化:这些方法被开发成根据需要组合许多数据源。

bull;速度:通过这些方法,企业可以用实时流处理代替批处理。

bull;价值:该方法不仅允许用户创建有吸引力的信息图表和热图,而且创造商业价值的获得大数据的见解。

大数据的可视化具有多样性和异构性(结构化的、半结构化的和非结构化的)是一个大问题。速度是大数据分析的理想因素。在大数据中设计一种高效索引的可视化工具并不容易。云计算和先进的图形用户界面可以与大数据相结合,更好地管理大数据的可伸缩性。

可视化系统必须与非结构化数据形式(如图、表、文本、树和其他元数据)相抗衡。大数据通常具有非结构化格式。由于带宽限制和功率要求,可视化应该更接近于数据,以便有效地提取有意义的信息。可视化软件应以现场方式运行。由于数据量大,大规模并行化的需求是可视化中的一个挑战。并行可视化算法面临的挑战是将问题分解为可并发运行的独立任务。

在大数据时代,有效的数据可视化是发现过程的关键部分。针对大数据量高维、高维的挑战,有不同的降维方法。然而,它们可能并不总是适用的。更有效地可视化的维度越多,识别潜在的有趣模式、相关性或离群值的机会就越高。对于大数据可视化也存在以下问题:

bull;视觉噪声:数据集中的大多数对象彼此相对太大。用户不能将它们分割为屏幕上的独立对象。

bull;信息丢失:可见数据集的减少可以使用,但会导致信息丢失。大的图像感知:数据可视化方法不仅受限于设备的长宽比和分辨率,而且受物理感知极限的限制。

bull;图像变化率高:用户观察数据,无法对数据变化的数量或显示的强度作出反应。

bull;高性能要求:由于低可视化速度要求,在静态可视化中几乎没有注意到——高性能要求。

感知和交互的可伸缩性也是大数据可视化的挑战。显示每个数据点可以在绘图和可能破坏用户的感知和认知能力;通过抽样或过滤减少数据可以省略有趣的结构或异常。查询大型数据存储可能会导致高延迟,破坏流畅的交互。在大数据应用中,由于大数据量大、维数高,难以进行数据可视化。目前大多数大型数据可视化工具在可伸缩性、功能性和响应时间方面表现不佳。不确定性会导致对有效的不确定性感知的巨大挑战,并在视觉分析过程中出现。

关于可视化和大数据的一些挑战或问题的潜在解决方案已提出:

1、满足速度的需要:一种可能的解决方案是硬件。增加内存和强大的并行处理可以使用。另一种方法是将数据放入内存,但使用网格计算方法,其中使用了许多机器。

2、理解数据:一个解决方案是拥有适当的领域专门知识。

3、处理数据质量:在数据治理或信息管理过程中确保数据是干净的。

4、显示有意义的结果:一种方法是将数据聚集到一个更高级别的视图中,其中较小的数据组是可见的,数据可以被有效地可视化。

5、处理异常值:可能的解决方案是从数据中删除异常值或为离群值创建单独的图表。

四、大数据可视化的一些进展

至于如何在大数据时代设计可视化,可视化方法应该首先提供概览,然后允许缩放和过滤,并提供需求的详细信息。可视化在使用大数据获取客户的完整视图方面起着重要的作用。关系是许多大数据场景的一个重要方面。社交网络可能是最突出的例子,而且很难用文本或表格格式理解;然而,可视化可以使新兴网络趋势和模式明显。一个基于云计算的可视化方法,可视化的社会网络用户的内在关系。该方法可以直观地呈现用户的社交关系,基于相关矩阵来表示一个层次的社会网络的用户节点之间的关系。此外,该方法使用基于云的Hadoop进行可视化的分布式并行处理,有助于加快社交网络的大数据量。

大数据可视化可以通过多种方法来实现,如每个显示显示多个视图、因素数目动态变化、以及过滤(动态查询过滤器、星形字段显示和紧密耦合)等。根据数据标准对12种可视化方法进行了分析和分类:(1)大数据量,(2)数据变化,(3)数据动态。

树图型:它是基于空间填充层次数据可视化。

圆包装型:这是一个直接的替代树图。除了作为原始形状的事实外,它还使用圆,它也可以从更高的层次结构中包含到圆中。

光束型:它使用树图可视化和转换为极坐标系统。主要的区别是可变参数不是宽度和高度,而是半径和弧长。

平行坐标型:它允许视觉分析扩展到不同对象的多个数据因素。

流图型:这是一种堆叠面积图,流离失所导致流动和有机形状的中心轴。

环形网络图型:数据对象放在周围一圈,根据他们的相对率曲线相连。不同的线宽和颜色饱和度通常是用来测量物体的相对性。表3和表4显示了分类。表3表明哪种方法可以处理大容量数据、各种数据以及随时间变化数据。根据表4,可视化方法可以根据大数据类进行分类。

表3. 可视化方法的性质

方法名

大数据量

数据类型

数据动态

树图型

-

-

全文共9060字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[15868],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。