有效的数据可视化原则外文翻译资料

 2022-08-07 02:08

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


有效的数据可视化原则

Stephen.R.Midway1,*

1路易斯安那州立大学海洋学和海岸科学系,巴吞鲁日,LA 70803,USA

*通讯:smidway@lsu.edu

https://doi.org/10.1016/j.patter.2020.100141。

总结

我们生活在一个被视觉效果包围的当代社会,随着软件的选择和电子传播,使得有效的科学视觉效果变得越来越重要。遗憾的是,在各个科学学科中,许多数字都错误地呈现了信息,或者在没有错误的情况下,仍然使用了次优的数据可视化做法。这里介绍的是十条原则,它们可以作为寻求改进其视觉信息的作者的指导。有些原则技术性不强,比如在开始视觉之前确定信息,而其他原则技术性较强,比如不同的颜色组合如何暗示不同的信息。由于科学界往往不正式教授图表制作,而且图表标准也不容易执行,因此科学家有责任了解最佳做法,以便最有效地讲述他们的数据故事。

导言

视觉学习是解释信息的主要形式之一,历史上,视觉学习将图表和图形(见方框1)等图像与阅读文本结合起来。1 然而,关于学习风格的发展建议将视觉学习方式拆分开来,以便认识到文字和图像之间的区别。2 技术也增强了视觉呈现的能力,在快速创建复杂的视觉形成的同时,还能通过数字手段廉价地分发(与纸张、墨水和物理分发相比)。在科学文献中,视觉形成也增加了。除了数字在科学出版物中很常见之外,许多期刊现在还要求提供图文摘要3,或者在推特上用数字来宣传文章。追溯到20世纪70年代,当计算机生成图形开始时,4由期刊封面图片代表的论文比没有封面图片的论文被引用的频率更高。5

快速有效地传达科学信息有很多好处,但是,科学家们往往缺乏设计原则或技术能力来生成有效的视觉效果。回溯到几十年前,克利夫兰6发现《科学》杂志上30%的图表至少有一种类型的错误。其他一些研究也记录了科学数字中广泛存在的错误或低效。7-9 事实上,越来越多的可视化选项的菜单有时会导致信息与其呈现方式之间的不匹配。这些不恰当的配合甚至会产生意想不到的后果,使读者感到困惑,使他们对材料的理解出现倒退。虽然希望在科普作品中,图形的客观错误是少数,但更常见的是次优的图形设计,即当一个设计元素可能没有客观错误,但却无效,以至于限制了信息的传递。

有效的数字表明对数据的理解和解释;无效的数字则表明相反。虽然近年来数据可视化领域有所发展,但信息显示过程不能而且也许不应该完全机械化。就像统计分析往往需要在最佳实践之上的专家意见一样,数字也需要选择,尽管有充分的记录建议。换句话说,一个特定的数字可能没有一个单一的最佳版本。相反,可能有多个有效的版本来显示单一的信息,而图表制作者的工作就是权衡每个版本的优缺点。幸运的是,有许多原则可供选择,最终设计就是选择。7

数据可视化文献包括许多伟大的再资源。虽然有一些资源是针对培养设计能力的,如《自然-通讯》10中的一系列专栏,Wilkinson

的《图形语法》11对图形的结构进行了独特的技术解释。Wilkinson将图形的概念分解为其组成部分--例如,数据、比例、坐标、地理要素、美学--就像传统语法将句子分解为名词、动词、标点符号和其他写作要素一样。这种方法的流行和实用性已经在许多软件包中得到了实现,包括目前在R13中流行的ggplot2软件包12。(尽管这里没有明确采用图形语法的方法,但几何一词与Wilkinson一致地用于指称不同的几何表示,而美学一词与图形语法并不一致,只是用来描述一些视觉上吸引人和有效的东西。)通过了解基本的视觉设计原则及其实施,许多图文作者可能会找到新的方法来强调和传达他们的信息。

十大原则

原则#1 图表优先

第一个原则可能是最没有技术含量的,但非常重要:在你制作一个视觉作品之前,优先考虑你要分享的信息,设想它,并设计它。虽然这看起来很明显,但更重要的一点是,在你使用软件之前,先关注信息和信息,因为软件会以某种方式限制或偏向你的视觉工具。换句话说,不一定要考虑你最终会使用的几何图形(点、线),而是要考虑需要传达的核心信息,以及这些信息的哪些方面会让你的观点变得更加明确。你的视觉目标是要显示一个比较?一个排名?一个构图?这一步可以在头脑中完成,也可以用笔和纸来实现最大的思维自由度。与这个方法类似的是,保存你在科学文献中遇到的你认定为特别有效的数字是个好主意。这些不仅仅是灵感和证据,还能帮助你培养对细节的洞察力和技术能力,从而应用到你自己的数字中。

原则#2使用正确的软件

有效的视觉效果通常需要掌握一个或多个软件。换句话说,如果你使用的是简单的电子表格程序或其他软件,而这些软件并不适合你的需要,那么期望得到复杂的、技术性的、有效的数字是不现实的。签署的协议,以制作复杂的、技术性的和有效的数字。认识到你可能需要学习一个新的软件,或者扩展你已经知道的软件的知识。虽然可以快速简单地制作出高效和美观的人物,但这对一些人来说可能仍然是一个挑战。然而,人物制作和其他任何东西一样是一种方法,为了做到这一点,可能需要学习新的方法论。如果不改变一些东西或学习一些新的东西,你不会期望改进现场或实验室的方法。数据可视化也是一样的,额外的好处是,大多数软件都是现成的,价格低廉,或免费的,许多软件都有大量的在线帮助资源。本文不推广任何特定的软件,并鼓励读者参考其他工作14的软件资源的概述。

原则#3 使用有效的几何图形并显示数据

几何图形是指通常与某一类型的图形同义的形状和特征;例如,条形几何图形可以创建条形图。虽然几何图形可能是一个图形的决定性视觉元素,但直接从一个数据集跳到用少数几个著名的几何图形来配对可能很有诱惑力。这种想法有可能自然而然地发生。然而,几何图形是数据在不同形式下的表现,通常可能有多个几何图形需要考虑。在所有关于几何图形的决定中,都应该考虑到数据与墨水的比率,7 这是数据上使用的墨水与图形中所有墨水的比率。数值高的数据墨水比率是最好的,同时,你可能会惊讶地发现你使用了多少非数据墨水,以及其中有多少是可以去除的。

大多数几何图形可分为几类:数量(或比较)、组合(或比例)、分布或关系船。虽然看似简单,但一个几何图形可能会在多个类别中使用,此外,一个数据集可能会用多个几何图形进行可视化(有时甚至在同一个图中)。优秀的资源存在于选择几何体的详细方法上,15本文只强调了一些比较常见的几何体及其应用。

金额或比较通常用条形图来显示(图1A),尽管还有许多其他的选择,包括克利夫兰点图,甚至热图(图1F)。条形图是最常见的几何图形之一,还有线条,9尽管条形图因其极低的数据密度16(即低数据-墨色比率)而受到关注。只有当数据没有分布信息或不确定性时,才可以使用量的几何图形。条形图的一个好用处可能是显示某物的计数,而条形图的不好用处可能是显示组平均值。许多研究已经讨论了条形图的不当使用,9,17指出:“由于条形图总是从零开始,它们可能会产生误导:例如,条形图覆盖的部分范围可能从未在样本中观察到。”17尽管有很多关于柱状图错误使用的报道,柱状图仍然是数据可视化中最常见的问题之一。

组成或分配可以采取广泛的地理测量方法。虽然传统的饼状图是一种选择,但由于在进行视觉比较时存在固有的困难,饼状图已经不受一些人的青睐18。虽然饼图可能有一些应用,但堆叠或聚类的条形图也是如此

图1.视觉设计实例

(A)当数据为金额时,聚类条形图能有效地显示组内单位(A-C)。

(B)直方图可以有效地显示数据的分布,在这种情况下,数据是由泊松分布中的数值随机抽出的,它使用了一个连续的颜色方案,强调平均值为红色,而离平均值较远的数值为黄色。

(C)散点图,其中黑圈代表数据。

(D)Logistic回归,其中蓝线代表拟合模型,灰色阴影区域代表拟合模型的置信区间,深灰色的点代表抖动数据。

(E)方框图显示按问题答案分组的再调查对象的(模拟)年龄,灰点代表方框图中使用的原始数据。不同的颜色强调了数值的差异。对于每个方块图,方块代表四分位数范围(IQR),粗黑线代表中位数,胡须延伸到IQR的1.5倍。离群值由数据来表示。

(F)四个湖泊5个月内模拟能见度读数的热图。绿色代表低能见度,蓝色代表高能见度。单元格中的白色数字是平均能见度测量值(单位:米)。

(G)按海子计算的模拟温度密度图,其中每季节是大图中的一个小倍数。

所有的数据都是模拟的,任何例子都是虚构的。

(图1A),堆积密度图、马赛克图和树状图提供了替代方案。

分布的几何图形是一类经常未被充分使用的可视化图形,它可以展示高数据密度。最常见的分布信息的几何图形是箱形图19(图1E),它在一个对象中显示了五种类型的信息。虽然在探索性分析中比在最终的再端口中更常见,但直方图(图1B)是另一个强大的几何体,可以揭示数据的信息。小提琴图和密度图(图1G)是其他常见的分布几何图形,尽管存在许多不常见的选择。

关系图是这里所涉及的最后一类视觉效果图,它们通常是几何图形的主力,因为它们包括流行的散点图(图1C和1D)和其他X坐标和Y坐标数据的显示方式。基本的散点图仍然是非常有效的,通过修改点符号、大小和颜色来分层信息是突出附加信息的好方法,而不会脱离散点图。在这里值得一提的是,散点图经常会发展成线状的。

最后,最常见的是建议显示数据。7 即使一个几何体可能是图中的重点,数据通常也可以通过添加和显示的方式来实现,它不影响几何图形,而是为几何图形提供了背景(如图1D和图1E)。数据往往是信息的核心,但在图中,数据往往因其简单性而被忽略。

原则#4 颜色总是有意义的

色彩在可视化中的使用可以是非常强大的,很少有理由不使用色彩。即使作者不愿意为印刷品中的彩色数字付费,大多数期刊仍然允许免费提供数字格式的彩色数字。在一项关于什么使可视化令人难忘的大型研究20中,彩色的可视化被认为具有较高的记忆度,并且七种或更多的颜色是最好的。尽管这项研究中的一些视觉效果是照片,但其他研究21也记录了颜色的有效性。

在今天的数字环境中,色彩是普遍的。这是一件好事,但也带来了色彩被无意应用的风险。几十年前,黑白视觉效果更容易被接受,那时的硬拷贝文件是更加普遍,而彩色印刷代表着巨大的成本。但现在,绝大多数读者都是在电子屏幕上查看科学论文,而电子屏幕上的颜色是免费的。对于那些仍在打印文件的人来说,与几年前相比,彩色印刷可以相对便宜地完成。

颜色代表信息,无论是以直接和明显的方式,还是以间接和微妙的方式。一个使用颜色的直接例子可能是在地图上,水是蓝色的,陆地是绿色或棕色的。然而,绝大多数(非地图)可视化的作品都是以三种方案之一来使用色彩:顺序、分叉或定性。序列式色彩方案是指那些从浅色到深色的方案,通常是由一个或两个(相关的)色调组成,并且经常被用来表达增加暗度的价值(图1B和1F)。分歧色方案是指那些有两个顺序的方案,代表两个极端,通常在中间有一个白色或中性色(图1E)。分歧色方案的一个典型例子是,在两党政治制度下,为了显示投票偏好,将红色到蓝色的色调应用于辖区。最后,当颜色的强度不是最重要的,而是要用不同的、不相关的颜色来表达群体的定性差异时,就会发现定性色彩方案(图1A和1G)。

虽然我们推荐使用色彩并捕捉色彩所传达的力量,但也存在一些技术上的建议。首先,我们总是建议设计出在彩色和黑白格式中都能有效工作的彩色图(图1B和1F)。换句话说,只要有可能,就使用可以转换为有效的灰度的共轭物,以便在转换过程中不丢失任何信息。随着这种方法,颜色可以与符号、线条类型和其他设计元素相结合,以共享颜色所共享的相同信息。使用对色盲读者有效的色彩方案也是一种很好的做法(图1A和1E)。优秀的资源,如ColorBrewer,22可以帮助根据

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[259976],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。