用艺术的眼光探索数据之美

简介: 独特的数据可视化技术,用于深入了解数据。当我们观想它时,它的美就显现出来了。

独特的数据可视化技术,用于深入了解数据。当我们观想它时,它的美就显现出来了。可视化是一种更方便的方式,可以一目了然地了解大量数据。在深入分析的情况下,我们应该用数据图形表示技术的思想。我们经常使用bar charts, histograms, pie charts, boxplots, heatmaps, scatter plots, line plots等等这些典型的图,这些图对于数据可视化是必不可少的。除了这些被广泛使用的情况外,还有许多精湛的情节却很少被使用。当我们考虑分析数据并以艺术方式表示时,这些图有助于发现洞察。

1 平行坐标图

实际上,我们最多可以可视化 3 维数据。但有时,我们需要可视化超过 3 维的数据才能获得洞察力。我们经常使用 PCA 或 t-SNE 来降维并绘制它。在降维的情况下,可能会丢失大量信息。在某些情况下,我们需要考虑所有需要,平行坐标图有助于做到这一点。

9cd38189f86637036c550b9f2b402d5e.png

看上面的图片。水平线(平行轴)代表鸢尾花的特征(Petal length, Sepal length, Sepal width, Petal width) 。类别是Setosa, Versicolor and Virginica。上图将物种编码为Setosa →1、Versicolor →2 和 Virginica →3。每个平行轴包含最小值到最大值(例如,花瓣长度从 1 到 6.9,萼片长度从 4.3 到 7.9,等等)。例如花瓣长度轴,表明该品种的花瓣长度Setosa 与其他两个品种相比较小,且Virginica 最高。所以,通过这张图,我们可以很容易地得到数据集的整体信息。

3ee57b71949c0b75ddd0d36b352f5f28.png

2 六角装箱图

六角装箱是用六边形二维数值的密度直观地表示数据点的过程。

3e224825baabe0ce9ccfa9581778c99e.png

利用上面的数据集来绘制的六边形分箱图。如果仔细观察,我们会发现总面积被分成了无数个六边形。每个六边形覆盖特定区域。我们注意到六边形有颜色变化。六边形有的没有颜色,有的是淡绿色,有的颜色很深。根据图右侧显示的色标,颜色密度随密度变化。比例表示具有颜色变化的数据点的数量。六边形没有填充颜色,这意味着该区域没有数据点。

3 等值线图

二维等高线密度图是另一种可视化特定区域中数据点密度的方法。这样做是为了找到两个数值变量的密度。例如,下图显示了每个阴影区域中有多少数据点落入。

0dc46e523d19b2000bcf69d84e17dd82.png

4 QQ-plot图

QQ 代表 Quantile — Quantile plot (Quantile/percentile 是一个范围,在这个范围内,指定百分比的数据已经下降。例如,第 10 个 quantile/percentile 表示在该范围下,找到了 10% 的数据,找到了 90%超出范围)。这是一种直观地检查数值变量是否服从正态分布的方法。

142266ad90b387a40a46742663d901a4.png

(a) 样本分布 (b) 标准正态分布

图(a)是样本分布;另一方面,(b)是标准正态分布。对于样本分布,数据范围为10 到 100 (100% 数据在 10 到 100 之间)。但对于标准正态分布,100% 的数据在范围内-3 到 3 (z-score)。在 QQ 图中,两个 x 轴值均分为 100 个相等的部分(称为分位数)。如果我们针对 x 和 y 轴绘制这两个值,我们将得到一个散点图。

fd42eac69d19134d2e96d7b6b4d0bd15.png

散点图位于对角线上。这意味着样本分布是正态分布的。但是,如果散点图位于左侧或右侧而不是对角线,则表明样本不是正态分布的。

5 小提琴图

小提琴图与箱线图相关。我们从小提琴图中获得的另一个信息是密度分布。简单来说就是一个结合了密度分布的箱线图。因此,让我们将其与箱线图进行比较。在小提琴图中,小提琴中间的白点表示中点。实心框表示四分位数间距 (IQR)。上下相邻值是异常值的围栏。超出范围,一切都是异常值。下图显示了比较。

56cd7e75623c4ade827676f73452e943.png

我们还可以通过传递列名来绘制不同物种的小提琴图。

8e1730ce4ea1451934d96cc42a41fcdb.png

6 旭日图

它是圆环图或饼图的定制化版本,将一些额外的层次信息集成到图中。

1c717800bb3d0380de90660999bb27e9.png

整个图表被分成一些环(从内侧到外侧)。它包含层次信息,其中内环位于层次结构的顶部,外环位于较低的顺序。

86380d9e1111146d94aa2e5107044ec5.png

如果我们仔细观察数据集,第一列包含一年的季度;每个季度下面有几个月,每个月有几个星期。上面的旭日图描述了这种情况。

小结

数据可视化是数据科学不可或缺的一部分。在数据科学中,我们探索数据。少量数据手动分析还好,但是当我们处理成千上万的数据时,它就变得非常繁重,有时甚至是不可能的。如果我们无法找出数据集的趋势和见解,我们可能无法使用该数据。希望上面的图可以帮助您从美学上可视化数据并深入了解数据。




相关文章
|
4月前
|
安全
技术探索的旅程:从困惑到顿悟
在技术的浩瀚海洋中,每一位探索者都会面临无数的挑战与困惑。本文通过作者个人的技术感悟,分享了从初入职场的迷茫到成为团队核心成员的心路历程,以及在这个过程中积累的宝贵经验。文章旨在启发读者,无论面对何种技术难题,只要保持学习的热情和坚持不懈的精神,总能找到解决问题的方法。
|
2月前
|
人工智能 搜索推荐 算法
编程之舞:从代码到艺术的蜕变
【10月更文挑战第30天】在数字世界的无限舞台上,编程不仅仅是冰冷的逻辑和枯燥的算法。它是创造者手中的画笔,是构建梦想的乐章。本文将带你领略编程背后蕴含的艺术之美,探索如何通过代码示例将技术与创造力结合,从而让程序设计成为一种独特的艺术表达。
40 2
|
4月前
|
JavaScript 前端开发 Java
技术探索之旅:从迷茫到顿悟
本文记录了作者在技术领域的探索历程,从初入行的迷茫、尝试新领域的勇气,到不断学习和提升后的顿悟。通过个人经历,展现了技术成长的曲折与收获。
|
6月前
|
设计模式 算法 测试技术
代码之美:从技术实现到艺术创作的思考
【7月更文挑战第26天】在数字世界中,代码是构建一切的基石。它不仅仅是冷冰冰的指令集合,更是连接人类思维与计算机执行的桥梁。本文将探讨如何通过技术实现提升代码的艺术性,使其不仅高效、可靠,同时也具备美感和创造性,从而让编程成为一种艺术创作过程。
|
8月前
|
算法 程序员
探寻技术之美:代码世界的奇妙旅程
在数字化时代,技术已经渗透到生活的方方面面,而作为程序员,我深深感受到了代码世界的奇妙之处。本文将带领读者一起探寻技术之美,感悟代码背后的精妙之处。
|
5月前
|
人工智能 搜索推荐
Science研究揭GenAI双刃剑:GenAI让个人创作出彩却令集体创意趋同
【8月更文挑战第19天】近期《Science》刊载的研究揭示了GenAI对个人创作与集体创意的双刃剑效应。GenAI能显著增强个人创作力,为艺术家提供新颖灵感,协助设计师优化作品,并通过个性化反馈帮助作家提升技能。然而,它也可能导致集体创意趋同,削弱多样性与创新。为平衡二者,研究建议鼓励创作者独立性、加强跨领域合作并建立多元评价体系。论文详情参见:https://www.science.org/doi/10.1126/sciadv.adn5290。
58 1
|
5月前
|
Python
编程之禅的奇幻之旅:探寻代码世界与生活万象的惊世共鸣,颠覆你的认知!
【8月更文挑战第7天】编程不仅是技术活,更融汇艺术与哲学。它启示我们在生活里追求简洁高效,如Python列表推导式的优雅;教会我们面对挑战时冷静分析,正如调试代码;体现分工合作的重要性,像模块化设计;并鼓励持续优化,提升效能。编程所蕴含的生活智慧,能引导我们创造更美好、有序的人生。
54 1
|
5月前
|
算法 搜索推荐 程序员
代码之美:从技术实现到艺术创作
在数字化时代的浪潮中,编程不仅仅是冷冰冰的代码堆砌,它更像是一种艺术形式。本文将通过探索编程语言的设计哲学、算法的美学以及软件开发过程中的创新思维,揭示编程背后的深层美学价值和创造性思考。我们将一同走进程序员的内心世界,理解他们如何在严谨的逻辑与无限的可能性之间舞蹈,把枯燥的技术实现转变为令人赞叹的艺术创作。
|
7月前
|
算法 开发者
代码之美:技术感悟与编程艺术
【6月更文挑战第28天】在数字世界的构建中,代码不仅仅是冷冰冰的指令集合,更是开发者智慧与情感的结晶。本文将深入探讨编程背后的艺术性,揭示如何通过技术感悟提升代码质量,以及在日复一日的编码实践中如何保持创新与热情。
|
8月前
|
前端开发 JavaScript UED
Web前端开发:探索技术与艺术的交融
Web前端开发:探索技术与艺术的交融
79 1