用艺术的眼光探索数据之美

简介: 独特的数据可视化技术,用于深入了解数据。当我们观想它时,它的美就显现出来了。

独特的数据可视化技术,用于深入了解数据。当我们观想它时,它的美就显现出来了。可视化是一种更方便的方式,可以一目了然地了解大量数据。在深入分析的情况下,我们应该用数据图形表示技术的思想。我们经常使用bar charts, histograms, pie charts, boxplots, heatmaps, scatter plots, line plots等等这些典型的图,这些图对于数据可视化是必不可少的。除了这些被广泛使用的情况外,还有许多精湛的情节却很少被使用。当我们考虑分析数据并以艺术方式表示时,这些图有助于发现洞察。

1 平行坐标图

实际上,我们最多可以可视化 3 维数据。但有时,我们需要可视化超过 3 维的数据才能获得洞察力。我们经常使用 PCA 或 t-SNE 来降维并绘制它。在降维的情况下,可能会丢失大量信息。在某些情况下,我们需要考虑所有需要,平行坐标图有助于做到这一点。

9cd38189f86637036c550b9f2b402d5e.png

看上面的图片。水平线(平行轴)代表鸢尾花的特征(Petal length, Sepal length, Sepal width, Petal width) 。类别是Setosa, Versicolor and Virginica。上图将物种编码为Setosa →1、Versicolor →2 和 Virginica →3。每个平行轴包含最小值到最大值(例如,花瓣长度从 1 到 6.9,萼片长度从 4.3 到 7.9,等等)。例如花瓣长度轴,表明该品种的花瓣长度Setosa 与其他两个品种相比较小,且Virginica 最高。所以,通过这张图,我们可以很容易地得到数据集的整体信息。

3ee57b71949c0b75ddd0d36b352f5f28.png

2 六角装箱图

六角装箱是用六边形二维数值的密度直观地表示数据点的过程。

3e224825baabe0ce9ccfa9581778c99e.png

利用上面的数据集来绘制的六边形分箱图。如果仔细观察,我们会发现总面积被分成了无数个六边形。每个六边形覆盖特定区域。我们注意到六边形有颜色变化。六边形有的没有颜色,有的是淡绿色,有的颜色很深。根据图右侧显示的色标,颜色密度随密度变化。比例表示具有颜色变化的数据点的数量。六边形没有填充颜色,这意味着该区域没有数据点。

3 等值线图

二维等高线密度图是另一种可视化特定区域中数据点密度的方法。这样做是为了找到两个数值变量的密度。例如,下图显示了每个阴影区域中有多少数据点落入。

0dc46e523d19b2000bcf69d84e17dd82.png

4 QQ-plot图

QQ 代表 Quantile — Quantile plot (Quantile/percentile 是一个范围,在这个范围内,指定百分比的数据已经下降。例如,第 10 个 quantile/percentile 表示在该范围下,找到了 10% 的数据,找到了 90%超出范围)。这是一种直观地检查数值变量是否服从正态分布的方法。

142266ad90b387a40a46742663d901a4.png

(a) 样本分布 (b) 标准正态分布

图(a)是样本分布;另一方面,(b)是标准正态分布。对于样本分布,数据范围为10 到 100 (100% 数据在 10 到 100 之间)。但对于标准正态分布,100% 的数据在范围内-3 到 3 (z-score)。在 QQ 图中,两个 x 轴值均分为 100 个相等的部分(称为分位数)。如果我们针对 x 和 y 轴绘制这两个值,我们将得到一个散点图。

fd42eac69d19134d2e96d7b6b4d0bd15.png

散点图位于对角线上。这意味着样本分布是正态分布的。但是,如果散点图位于左侧或右侧而不是对角线,则表明样本不是正态分布的。

5 小提琴图

小提琴图与箱线图相关。我们从小提琴图中获得的另一个信息是密度分布。简单来说就是一个结合了密度分布的箱线图。因此,让我们将其与箱线图进行比较。在小提琴图中,小提琴中间的白点表示中点。实心框表示四分位数间距 (IQR)。上下相邻值是异常值的围栏。超出范围,一切都是异常值。下图显示了比较。

56cd7e75623c4ade827676f73452e943.png

我们还可以通过传递列名来绘制不同物种的小提琴图。

8e1730ce4ea1451934d96cc42a41fcdb.png

6 旭日图

它是圆环图或饼图的定制化版本,将一些额外的层次信息集成到图中。

1c717800bb3d0380de90660999bb27e9.png

整个图表被分成一些环(从内侧到外侧)。它包含层次信息,其中内环位于层次结构的顶部,外环位于较低的顺序。

86380d9e1111146d94aa2e5107044ec5.png

如果我们仔细观察数据集,第一列包含一年的季度;每个季度下面有几个月,每个月有几个星期。上面的旭日图描述了这种情况。

小结

数据可视化是数据科学不可或缺的一部分。在数据科学中,我们探索数据。少量数据手动分析还好,但是当我们处理成千上万的数据时,它就变得非常繁重,有时甚至是不可能的。如果我们无法找出数据集的趋势和见解,我们可能无法使用该数据。希望上面的图可以帮助您从美学上可视化数据并深入了解数据。




相关文章
|
6天前
|
算法 程序员
探寻技术之美:代码世界的奇妙旅程
在数字化时代,技术已经渗透到生活的方方面面,而作为程序员,我深深感受到了代码世界的奇妙之处。本文将带领读者一起探寻技术之美,感悟代码背后的精妙之处。
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
【周末闲谈】感受AI时代魅力,创意无界限
【周末闲谈】感受AI时代魅力,创意无界限
41 0
|
7月前
技术人修炼之道阅读笔记(九)揪头发思维
技术人修炼之道阅读笔记(九)揪头发思维
|
9月前
|
程序员
《长安三万里》给程序员的启发
前段时间陪孩子一起看了《长安三万里》,结合这些年自己走过的路,内心有不少感触。不论电影评价怎样,也不论事实如何,单从程序员的角度,来说说三点启发
|
前端开发 程序员 开发者
十年老友记 | @风逐蓝天:编程是一种表达和创作的方式
十年老友记 | @风逐蓝天:编程是一种表达和创作的方式
102 0
|
存储 iOS开发
11个小妙招激发你的灵感
感到自己深陷千篇一律的设计泥潭无法自拔? Stylorouge的Rob O’Connor为你送上下面几条建议帮助你解放自己的想象力。 找不到设计灵感?项目在眼前却不知道如何着手或者找不到合适的入手角度?挣扎着想克服阻拦创意的屏障?
164 0
11个小妙招激发你的灵感