用艺术的眼光探索数据之美

简介: 独特的数据可视化技术,用于深入了解数据。当我们观想它时,它的美就显现出来了。

独特的数据可视化技术,用于深入了解数据。当我们观想它时,它的美就显现出来了。可视化是一种更方便的方式,可以一目了然地了解大量数据。在深入分析的情况下,我们应该用数据图形表示技术的思想。我们经常使用bar charts, histograms, pie charts, boxplots, heatmaps, scatter plots, line plots等等这些典型的图,这些图对于数据可视化是必不可少的。除了这些被广泛使用的情况外,还有许多精湛的情节却很少被使用。当我们考虑分析数据并以艺术方式表示时,这些图有助于发现洞察。

1 平行坐标图

实际上,我们最多可以可视化 3 维数据。但有时,我们需要可视化超过 3 维的数据才能获得洞察力。我们经常使用 PCA 或 t-SNE 来降维并绘制它。在降维的情况下,可能会丢失大量信息。在某些情况下,我们需要考虑所有需要,平行坐标图有助于做到这一点。

9cd38189f86637036c550b9f2b402d5e.png

看上面的图片。水平线(平行轴)代表鸢尾花的特征(Petal length, Sepal length, Sepal width, Petal width) 。类别是Setosa, Versicolor and Virginica。上图将物种编码为Setosa →1、Versicolor →2 和 Virginica →3。每个平行轴包含最小值到最大值(例如,花瓣长度从 1 到 6.9,萼片长度从 4.3 到 7.9,等等)。例如花瓣长度轴,表明该品种的花瓣长度Setosa 与其他两个品种相比较小,且Virginica 最高。所以,通过这张图,我们可以很容易地得到数据集的整体信息。

3ee57b71949c0b75ddd0d36b352f5f28.png

2 六角装箱图

六角装箱是用六边形二维数值的密度直观地表示数据点的过程。

3e224825baabe0ce9ccfa9581778c99e.png

利用上面的数据集来绘制的六边形分箱图。如果仔细观察,我们会发现总面积被分成了无数个六边形。每个六边形覆盖特定区域。我们注意到六边形有颜色变化。六边形有的没有颜色,有的是淡绿色,有的颜色很深。根据图右侧显示的色标,颜色密度随密度变化。比例表示具有颜色变化的数据点的数量。六边形没有填充颜色,这意味着该区域没有数据点。

3 等值线图

二维等高线密度图是另一种可视化特定区域中数据点密度的方法。这样做是为了找到两个数值变量的密度。例如,下图显示了每个阴影区域中有多少数据点落入。

0dc46e523d19b2000bcf69d84e17dd82.png

4 QQ-plot图

QQ 代表 Quantile — Quantile plot (Quantile/percentile 是一个范围,在这个范围内,指定百分比的数据已经下降。例如,第 10 个 quantile/percentile 表示在该范围下,找到了 10% 的数据,找到了 90%超出范围)。这是一种直观地检查数值变量是否服从正态分布的方法。

142266ad90b387a40a46742663d901a4.png

(a) 样本分布 (b) 标准正态分布

图(a)是样本分布;另一方面,(b)是标准正态分布。对于样本分布,数据范围为10 到 100 (100% 数据在 10 到 100 之间)。但对于标准正态分布,100% 的数据在范围内-3 到 3 (z-score)。在 QQ 图中,两个 x 轴值均分为 100 个相等的部分(称为分位数)。如果我们针对 x 和 y 轴绘制这两个值,我们将得到一个散点图。

fd42eac69d19134d2e96d7b6b4d0bd15.png

散点图位于对角线上。这意味着样本分布是正态分布的。但是,如果散点图位于左侧或右侧而不是对角线,则表明样本不是正态分布的。

5 小提琴图

小提琴图与箱线图相关。我们从小提琴图中获得的另一个信息是密度分布。简单来说就是一个结合了密度分布的箱线图。因此,让我们将其与箱线图进行比较。在小提琴图中,小提琴中间的白点表示中点。实心框表示四分位数间距 (IQR)。上下相邻值是异常值的围栏。超出范围,一切都是异常值。下图显示了比较。

56cd7e75623c4ade827676f73452e943.png

我们还可以通过传递列名来绘制不同物种的小提琴图。

8e1730ce4ea1451934d96cc42a41fcdb.png

6 旭日图

它是圆环图或饼图的定制化版本,将一些额外的层次信息集成到图中。

1c717800bb3d0380de90660999bb27e9.png

整个图表被分成一些环(从内侧到外侧)。它包含层次信息,其中内环位于层次结构的顶部,外环位于较低的顺序。

86380d9e1111146d94aa2e5107044ec5.png

如果我们仔细观察数据集,第一列包含一年的季度;每个季度下面有几个月,每个月有几个星期。上面的旭日图描述了这种情况。

小结

数据可视化是数据科学不可或缺的一部分。在数据科学中,我们探索数据。少量数据手动分析还好,但是当我们处理成千上万的数据时,它就变得非常繁重,有时甚至是不可能的。如果我们无法找出数据集的趋势和见解,我们可能无法使用该数据。希望上面的图可以帮助您从美学上可视化数据并深入了解数据。




相关文章
|
1月前
|
人工智能 搜索推荐 算法
编程之舞:从代码到艺术的蜕变
【10月更文挑战第30天】在数字世界的无限舞台上,编程不仅仅是冰冷的逻辑和枯燥的算法。它是创造者手中的画笔,是构建梦想的乐章。本文将带你领略编程背后蕴含的艺术之美,探索如何通过代码示例将技术与创造力结合,从而让程序设计成为一种独特的艺术表达。
38 2
|
5月前
|
设计模式 算法 测试技术
代码之美:从技术实现到艺术创作的思考
【7月更文挑战第26天】在数字世界中,代码是构建一切的基石。它不仅仅是冷冰冰的指令集合,更是连接人类思维与计算机执行的桥梁。本文将探讨如何通过技术实现提升代码的艺术性,使其不仅高效、可靠,同时也具备美感和创造性,从而让编程成为一种艺术创作过程。
|
4月前
|
C++ 容器
【C++航海王:追寻罗杰的编程之路】关于空间配置器你知道多少?
【C++航海王:追寻罗杰的编程之路】关于空间配置器你知道多少?
36 2
|
4月前
|
Python
编程之禅的奇幻之旅:探寻代码世界与生活万象的惊世共鸣,颠覆你的认知!
【8月更文挑战第7天】编程不仅是技术活,更融汇艺术与哲学。它启示我们在生活里追求简洁高效,如Python列表推导式的优雅;教会我们面对挑战时冷静分析,正如调试代码;体现分工合作的重要性,像模块化设计;并鼓励持续优化,提升效能。编程所蕴含的生活智慧,能引导我们创造更美好、有序的人生。
52 1
|
4月前
|
算法 搜索推荐 程序员
代码之美:从技术实现到艺术创作
在数字化时代的浪潮中,编程不仅仅是冷冰冰的代码堆砌,它更像是一种艺术形式。本文将通过探索编程语言的设计哲学、算法的美学以及软件开发过程中的创新思维,揭示编程背后的深层美学价值和创造性思考。我们将一同走进程序员的内心世界,理解他们如何在严谨的逻辑与无限的可能性之间舞蹈,把枯燥的技术实现转变为令人赞叹的艺术创作。
|
4月前
|
程序员
技术感悟:编程之道的艺术与实践
【8月更文挑战第12天】本文旨在探讨编程不仅仅是一种技术活动,更是一种艺术和实践的过程。通过个人的技术成长历程,我们将深入理解如何将编程技能与创新思维相结合,以及如何在不断变化的技术环境中保持学习和进步。文章不包含代码示例,而是侧重于理论的阐述和个人经验的分享,以期为读者提供一种全新的视角来看待编程和技术发展。
编码中的禅意:技术感悟与生活哲学
在数字世界的构建过程中,编程不仅是一系列逻辑指令的堆砌,更是一场心灵的修行。本文将探讨编程实践如何映射出生活的哲学,从代码的简洁性到系统的复杂性管理,反映出生活中追求简约而不简单的智慧。通过个人的技术旅程,揭示在解决程序难题的过程中,如何实现内心的平静与成长,进而提出技术实践中的“禅意”概念,鼓励读者在技术的探索中寻找生活的真谛。
|
6月前
|
设计模式 算法 程序员
代码的诗意:技术与艺术的交织
【6月更文挑战第28天】在数字世界的构建中,编程往往被视为一项枯燥且逻辑性强的技术活动。然而,当我们深入探究时,会发现编程不仅涉及逻辑和算法,还蕴含着一种独特的艺术美。本文将探讨编程如何融合技术性和艺术性,揭示代码背后的诗意及其对创造性思维的促进作用。通过个人的技术感悟,我们将看到,编程不仅是科技的产物,也是人类创造力的展现。
48 1
|
6月前
|
算法 安全 编译器
【C++航海王:追寻罗杰的编程之路】C++11(四)
【C++航海王:追寻罗杰的编程之路】C++11(四)
41 0
|
6月前
|
存储 安全 程序员
【C++航海王:追寻罗杰的编程之路】C++11(一)
【C++航海王:追寻罗杰的编程之路】C++11(一)
46 0
【C++航海王:追寻罗杰的编程之路】C++11(一)