2.6 一些最好的可视化实践
我们完成一个好的可视化的最首要一步是了解努力背后的目标。如何了解可视化是否有其意图?同样重要的是了解观众群以及这种方式是否有帮助。
一旦回答了这些问题并透彻理解可视化的目标,那么下一个挑战就是选择正确的呈现方法。最常用的可视化类型可根据下述内容进一步分类:
比较和排名
相关性
分布
位置定位或地理数据
局部到整体的关系
随时间的变化趋势
2.6.1 比较和排名
比较和排名的方法不止一种,传统的方法使用条形图。条形图是在相同基线上以编码数值为长度的图形。但它并不总是比较和排名的最佳方法。例如,为了展示非洲GDP排名前12名的国家,下面是一种创造性的可视化方式(来源:Stats Legend,Andrew Gelman and Antony Unwin):
2.6.2 相关性
相关性不能保证一种关系,但一种简单的相关性分析是识别不同测度间关系的良好开端。通常需要一种统计方法来确保关系的真实存在。下面的例子是通过构建一个简单的散点图来检测两个因子间关系,比如同一所大学中学生的gpa和tv,gpa和exercise:
我们也可以用其他方法展示相关矩阵。比如,可以用散点图、热力图,或一些特定的案例来展示S&P 100中股票的影响力网。(下面两个图来自Statistical Tools for High Throughput Analysis,网址是:http://www.sthda.com。)需要进一步强调,一个相关矩阵包括数据的矩阵形式。如下面的例子所示,数据通过一个缩放后的颜色图计算相关性。为了解更多细节,我们建议您参考下面的网站:http://www.sthda.com。
相关矩阵被用来研究同一时间多个变量间的依赖性。结果是一张表,包括每一个变量与其他变量的相关系数。热力图源于数据矩阵形式的二维展示。通过很多不同的颜色方案来说图解热力图,每一种方案都有感知优点和缺点。
2.6.3 分布
分布分析展示了数值在区间范围内的分布,因此,在数据分析中非常有用。比如,比较同一个班的学生在家庭作业、期中考试、期末考试和全部课程成绩的得分分布。在这个例子中,我们将讨论使用最普遍的两种图表类型来实现这个目的。一种是直方图(如下图所示),另一种是箱线图或箱须图。
直方图的形状非常依赖于箱子的大小和位置。箱须图特别适用于多元分布。它们将所有数据点(在这个例子中是学生的得分)打包入箱须图中。现在,你可以很容易识别出所有类别中的最小值、25%分位数、中位数、75%分位数和最大值,这些都能同时进行。
Python中有一种便捷的画图方法Plotly它是一种在线分析和可视化工具。Plotly提供在线画图、分析和统计工具,还有Python、R、Julia和JavaScript的科学绘图库。直方图和箱线图的案例请见:https://plot.ly/python/histograms-and-box-plots-tutorial。
2.6.4 位置定位或地理数据
地图是展示位置定位数据的最佳方法。地图最适用于与另外一个图配对的情况,该图详细说明了地图的展示内容(比如条形图按从大到小排序,线图展示趋势,等等)。比如,下面的地图展示了不同大洲之间地震的强度:
2.6.5 局部到整体的关系
饼图适用于展示局部到整体的关系,但还有其他方式。分组的条形图适用于比较类别中每个元素与其他元素,以及所有类别的元素。然而,分组使区分每个组的整体差异变得更难。下图是累积柱形图。
累积柱形图适用于展示整体差异,这是因为它们在视觉上聚集同一个组中的所有类别。不足之处是比较单个类别大小变得更难。这种累积方式也展示出一种局部到整体的关系。
2.6.6 随时间的变化趋势
最常用类进行数据分析的可视化方法是展示一段时间的变化趋势。在下面的例子中,2009~2015年穿戴式设备的初创公司投资情况被画成图。该图表明,该项投资在几年中持续增长;而在2013年,只有43起总价值$166百万的交易,所有年份中最高点是2014年61起总价值$427百万的交易,相比仅一年前。