信息可视化与可视化数据挖掘外文翻译资料

 2022-08-09 09:08

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


信息可视化与可视化数据挖掘

Daniel A. Keim, Member, IEEE Computer Society

摘 要

历史上从未有过像今天这样海量的数据。挖掘和分析海量数据变得越来越困难。信息可视化和可视化数据挖掘有助于处理海量信息。可视化数据挖掘的优点是用户直接参与到数据挖掘过程中。在过去的十年中,人们发展了大量的信息可视化技术来支持对大型数据集的挖掘。本文提出了一种信息可视化和可视化数据挖掘技术的分类方法,该方法基于被可视化的数据类型、可视化技术以及交互和失真技术。我们举几个例子来说明这种分类方法,其中大多数涉及特定章节中介绍的技术和系统。

关键词:信息可视化;可视化数据挖掘;可视化数据挖掘;分类

目 录

第1章 导言

硬件技术的进步使得今天的计算机系统能够存储大量的数据。伯克利大学的研究人员估计,每年大约1Exabyte(100万兆字节)的数据都会被产生,其中很大一部分是以数字形式提供的。这意味着,在未来三年内产生的数据将比以往人类历史中的所有数据还要多。数据通常通过传感器和监控系统自动记录。即使是日常生活中的简单交易,如信用卡支付或使用电话,也通常由计算机记录。通常情况下,许多参数会被记录下来,从而产生具有高维性的多维数据。之所以收集所有已知领域的数据,是因为人们认为它是一个潜在的有价值的信息来源,能够提供竞争优势(在某些时候)。然而,找到隐藏在其中的有价值的信息是一项困难的任务。在当今的数据管理系统中,只能查看相当小的一部分的数据。如果数据是以文本形式呈现的,则可以显示的数据量在大约100个数据项的范围内。但是当处理包含数百万个数据项的数据集时,这就像是大海中的一滴水。无法充分探究因其潜在的用处而收集的大量数据,因此数据变得无用,数据库成为数据“垃圾”。

1.1 可视化数据挖掘的好处

要使数据挖掘有效,就必须将人类纳入数据挖掘过程中来,并将人类的灵活性、创造力和常识与当代计算机的巨大存储容量和计算能力结合起来。可视化数据挖掘的目的就是将人类融入到数据挖掘过程中来,将其感知能力应用于当今计算机系统中可用的大型数据集中。可视化数据挖掘的基本思想是将数据以某种可视化的形式呈现出来,使人们能够洞察数据,得出结论,并与数据直接交互。可视化数据挖掘技术在挖掘性数据分析中被证明具有很高的应用价值,在挖掘大型数据库方面也具有很大的潜力。当对数据知之甚少且挖掘目标模糊时,可视化数据挖掘尤为有用。由于用户直接参与到挖掘过程中,因此在必要时需要自动进行挖掘目标的转换和调整。

可视化数据挖掘过程可以看作是一个假设生成过程:数据的可视化可以让用户洞察数据并提出新的假设。假设的验证也可以通过可视化数据挖掘来完成,但也可以通过来自于统计或机器学习的自动技术来完成。除了用户的直接参与外,与统计或机器学习中的自动数据挖掘技术相比,可视化数据挖掘的主要优势是:

    • 可视化数据挖掘可以很容易地处理高度非均匀和具有噪声的数据,
    • 可视化数据挖掘是直观的,不需要理解复杂的数学或统计算法或统计参数。

因此,可视化数据挖掘通常能够更快地进行数据挖掘,并且通常提供更好的结果,特别是在自动算法实效的情况下。此外,视觉数据挖掘技术为挖掘结果提供了更高的可信度。这一事实对视觉探测技术提出了很高的要求,并使得它们与自动挖掘技术结合在一起是必不可少的。

图1 信息可视化技术的分类

1.2 视觉挖掘范式

可视化数据挖掘通常遵循三个步骤:首先是概览、缩放和过滤,然后是按需细节(这被称为信息寻求咒语[1])。首先,用户需要获得数据的概述。在概述中,用户识别感兴趣的模式,并关注其中的一个或多个。为了分析模式,用户需要研究并获得数据的详细信息。可视化技术可用于数据挖掘过程的所有三个步骤:可视化技术可用于显示数据的概述,允许用户识别感兴趣的子集。在这一步中,重要的是在使用另一种可视化技术关注子集的同时保持概览可视化。另一种方法是概览可视化变形,以便关注感兴趣的子集。为了进一步挖掘感兴趣的子集,用户需要一个向下钻研的能力,以便获得有关数据的详细信息。请注意,可视化技术不仅为所有三个步骤提供了基本的可视化技术,而且是步骤之间的桥梁。

第2章 可视化数据挖掘技术分类

信息可视化侧重于缺乏固有的二维或三维语义的数据集,因此也侧重于缺乏抽象数据到物理屏幕空间的标准映射的数据集。有许多著名的可视化数据集的技术,如x-y图、线图和直方图。这些技术对数据挖掘很有用,但仅限于相对较小的低维数据集。在过去的十年中,大量新的信息可视化技术得到了发展,使得多维数据集的可视化不需要固有的二维或三维语义。在最近的几本书[2]、[3]、[4]、[5]中可以找到这些方法的详细概述。这些技术可以根据三个标准进行分类(见图1)[6]:要可视化的数据、可视化技术以及使用的交互和变形技术。

要可视化的数据类型[1]可以是

  • 一维数据,例如在ThemeRiver中使用的时间数据(参见[7]中的图2);
  • 二维数据,如Polaris(见[8]中的图3(c)和MGV(见[9]中的图9)中使用的地理地图;
  • 多维数据,例如Polaris中使用的关系表(参见[8]中的图6)和Scalable Framework(参见[10]中的图1);
  • 文本和超文本,例如在ThemeRiver中使用的新闻文章和Web文档(参见[7]中的图2)。
  • 层次结构和图形,例如MGV中使用的语音通话和Web文档(参见[9]中的图13)和Scalable Framework(参见[10]中的图7);
  • 算法和软件,如Polaris中使用的调试操作(参见[8]中的图7)。

所使用的可视化技术可分为

  • 标准二维/三维显示,如条形图和x-y图以及Polaris中使用的(见[8]中的图1);
  • 几何变换显示,如风景和平行坐标以及Scalable Framework中使用的(见[10]中的图2和12);
  • 基于图标的显示,如针形图标和星形图标以及MGV中使用的(参见[9]中的图5和6);
  • 密集像素显示,例如递归模式和圆段技术(参见图3和4)[11]以及MGV中使用的图形权杖(参见[9]中的图4);
  • 堆叠显示,例如树状图[12]、[13]或尺寸堆叠[14]。

分类的第三个维度是使用的交互和变形技术。交互和变形技术允许用户直接与可视化内容交互。它们可分为:

  • 交互式投影,如GrandTour系统中使用的[15];
  • 交互滤波,如Polaris所用(参见[8]中的图6);
  • 交互式缩放,如MGV和Scalable Framework所用(参见[10]中的图8);
  • 交互变形,如Scalable Framework中使用的(参见[10]中的图7);
  • 互动链接和刷,如Polaris所用(参见[8]中的图7)和Scalable Framework(参见图[10]中的12和14)。

注意,我们要可视化的数据的类型的分类、可视化技术以及交互和变形技术这三维可以假设为正交的。正交性意味着任何可视化技术都可以与任何交互技术以及任何数据类型的变形技术结合使用。还要注意,特定的系统可能被设计来支持不同的数据类型,并且可能使用多种可视化和交互技术的组合。

第3章 要可视化的数据类型

在信息可视化中,数据通常由大量的记录组成,每个记录又由许多变量或维度组成。每个记录对应于观察、测量、交易等。例如客户属性、电子商务交易和物理实验。属性的数量可能因数据集而异:例如,一个特定的物理实验可以用五个变量来描述,而另一个可能需要数百个变量。我们称变量的数目为数据集的维数。数据集可以是一维、二维、多维的,也可以具有更复杂的数据类型,例如文本/超文本或层次结构/图。有时,我们会区分密集(或网格)维度和可能具有任意值的维度。根据具有任意值的维数,数据有时也称为单变量、双变量等。

图2 平行坐标可视化 copy;IEEE.

3.1 一维数据

一维数据通常有一个密集的维度。一维数据的一个典型例子是时间数据。请注意,对于每个时间点而言,它都可以关联一个或多个数据值。例如股票价格的时间序列(示例参见图3和图4)或在ThemeRiver中使用的新闻数据的时间序列(参见[7]中的图2-5)。

3.2 二维数据

二维数据有两个不同的维度。一个典型的例子是地理数据,其中两个不同的维度是经度和纬度。X-Y图是一种典型的显示二维数据的方法,而地图是一种特殊的显示二维地理数据的X-Y图。例如Polaris(见[8]中的图3(c))和MGV(见[9]中的图9)中使用的地理地图。处理时间或地理数据似乎很容易,但还是要小心。如果要可视化的记录数量很大,时间轴和地图很快就会变得过多,并且可能无助于理解数据。

3.3 多维数据

许多数据集包含三个以上的属性,因此,它们不允许简单的可视化为二维或三维绘图。多维(或多维)数据的例子是关系数据库中的表,通常有几十到几百列(或属性)。由于没有简单的属性到屏幕二维的映射,所以需要更复杂的可视化技术。允许多维数据可视化的技术的一个例子是并行坐标技术[16](参见图2,它也用于Scalable Framework(参见[10]中的图12)。平行坐标将每个多维数据项显示为一条多边形线,该线在与相应维度的数据值相对应的位置与水平维度轴相交。

图3.密集像素显示:递归图案技术 copy;IEEE.

3.4 文本和超文本

并非所有的数据类型都可以用维度来描述。在万维网时代,一种重要的数据类型是文本和超文本以及多媒体网页内容。这些数据类型的不同之处在于它们不容易用数字来描述,因此,大多数标准的可视化技术无法应用。在大多数情况下,在使用可视化技术之前,首先必须将数据转换为描述向量。一个简单转换的例子是单词计数(参见ThemeRiver [7]),它通常与主成分分析或多维标度(例如,参见[17])结合在一起。

3.5 层次结构和图形

数据记录通常与其他信息有某种关系。图被广泛用于表示这种相互依赖关系。图由一组对象(被称为节点)和这些对象之间的连接(被称为边)组成。例如人们之间的电子邮件相互关系、他们的购物行为、硬盘的文件结构和万维网上的超链接。有许多特定的可视化技术处理分层和图形数据。文献[18]对层次信息可视化技术进行了很好的概述,文献[19]对web可视化技术进行了概述,文献[20]对图形绘制的各个方面进行了概述。

图4 密集像素显示:圆线段技术 copy; IEEE.

3.6 算法和软件

另一类数据是算法和软件。应对大型软件项目是一项挑战。可视化的目标是通过帮助理解算法来支持软件开发。例如,通过显示程序中的信息流来增强对书面代码的理解、通过将数千条源代码行的结构表示为图形来支持程序员调试代码。即,通过可视化错误来支持软件开发。有大量的工具和系统支持这些任务。可以在文献[21]中找到一个很好的概述。

第4章 可视化技术

有大量的可视化技术可以用来可视化数据。除了标准的二维/三维技术(如x-y(x-y-z)绘图、条形图、折线图等)外,还有许多更复杂的可视化技术。这些类别对应于基本可视化原理,可以将其组合起来以实现特定的可视化系统。

4.1 几何变换显示

几何变换显示技术旨在寻找多维数据集的“有趣”的变换。几何显示这一类技术包括挖掘性统计的技术,例如散点图矩阵[22],[23]和可以归入“投影追踪”[24]的技术。其他几何投影技术包括Prosection视图[25],[26],Hyperslice [27]和著名的平行坐标可视化技术[16]。平行坐标技术通过使用平行于显示轴之一的k个等距轴将k维空间映射到两个显示维上。轴与尺寸相对应,并从相应尺寸的最小值到最大值线性缩放。每个数据项显示为一条折线,在该点与每个轴相交,该点对应于所考虑的尺寸值(见图2)。

4.2 图标显示

另一类视觉数据挖掘技术是图标显示技术。其思想是将多维数据项的属性值映射到图标的特征。图标可以自由定义:它们可以是小脸[28]、MGV中使用的针形图标(参见[9]中的图5)、星形图标[14]、棒状图标[29]、彩色图标[30]、[31]和TileBars[32]。可视化是通过将每个数据记录的属性值映射到图标的特征来生成的。例如,在简笔画技术的情况下,将二维映射到显示尺寸,而将其余尺寸映射到简笔图标的角度和/或肢体长度。如果数据项在两个显示维度上相对密集,那么生成的可视化效果将显示纹理图案,该纹理图案根据数据的特征而变化,因此可以通过细心的感知来检测。

4.3 密集像素显示

密集像素技术的基本思想是将每个维度值映射为一个彩色像素,并将属于每个维度的像素分组到相邻区域[11]。由于通常情况下,密集像素显示的每个数据值使用一个像素,因此这些技术允许在当前显示器上显示尽可能多的数据(最多约1000000个数据值)。如果每个数据值由一个像素表示,问题主要是如何在屏幕上排列像素。密集像素技术使用不同的排列来达到不同的目的。通过以适当的方式排列像素,得到的可视化结果提供了有关局部相关性、相关性和热点的详细信息。

图5 石油开采数据的尺寸叠加可视化 (used by permission of M. Ward, Worchester Polytechnic szlig; IEEE)

众所周知的例子是递归模式技术[33]和圆段技术[34]。递归模式技术基于像素的一般递归前后排列,特别是针对根据一个属性(例如时间序列数据

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239858],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。