数据可视化:理论与技术

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
简介: 良好的数据可视化不仅仅是呈现数字,而是试图围绕故事阐明我们的数据。在讲故事的同时使我们的数据栩栩如生,并在原始信息与现实世界的影响和见解之间建立联系。
推荐:使用 NSDT场景编辑器 快速搭建3D应用场景

在由大数据和复杂算法主导的数字环境中,人们会认为普通人迷失在数字和数据的海洋中。

不是吗?

然而,原始数据和可理解的见解之间的桥梁在于数据可视化的艺术。

它是指引我们的指南针,是指导我们的地图,是解码我们每天遇到的大量数据的解释器。

但是,良好的可视化背后的魔力是什么?

为什么一个可视化会启发而另一个可视化会令人困惑?

今天,我们将回到基础,并尝试了解数据可视化的基础知识。

让我们一起来探索吧!👇🏻

打破数据可视化的基础

掌握如何有效地讲故事是数据科学家最难掌握的技能之一。如果我们在字典中检查术语数据可视化,我们会发现以下定义:

“将信息表示为图片、图表或图表,或以这种方式表示信息的图片的行为”

这基本上意味着数据可视化旨在从数据集中制作一个故事,以易于理解、吸引人和有影响力的形式呈现见解。

数据可视化,或者让数据在图表和图形中看起来不错,可能看起来不像机器学习之类的东西那么酷。

但是,这确实是数据科学家工作的关键部分。

在当今数据驱动的世界中,数据可视化就像帮助我们看清事物的眼镜。而且,对于那些不精通数字和算法语言的人来说,它提供了一种理解复杂数据叙述的有效方法。

任何图表始终由两个主要组件组成:

1. 数据类型

我敢打赌,您将数据视为数字,但数值只是我们可能遇到的几种数据类型中的两种。每当我们可视化数据时,我们总是需要考虑我们正在处理的数据类型。

除了连续和离散数值之外,数据还可以以离散类别的形式、日期或时间的形式以及文本的形式出现。

当数据是数字时,我们也称之为定量,当它是分类的时,我们称之为定性

因此,任何显示的数据始终可以在以下类别之一中描述。

图片由作者提供。分类摘自 O'Reilly 的数据可视化基础。

一旦我们明确了我们拥有什么样的数据,我们就需要了解如何将这些数据编码到最终图表中。

2. 编码信息:视觉词典

可视化编码是数据可视化的核心。它将抽象的数字翻译成图形表示,这是我们都很流利的语言。

尽管有许多不同类型的数据可视化,乍一看,散点图、饼图和热图似乎没有太多共同之处,但所有这些可视化都可以用一种通用语言来描述,该语言捕获数据值如何转换为纸上的墨迹或屏幕上的彩色像素。

但。。。正如您已经必须意识到的那样...

有数千种编码数字的方法!

主要有两组:

  1. 视网膜编码:从形状、大小、颜色和强度来看,这些都是我们眼睛立即捕捉到的元素。 它们是元素固有的。

图片来源:作者

  1. 空间编码: 它们利用我们大脑皮层的空间意识来编码信息。这种编码可以通过比例中的位置、定义的顺序或使用相对大小来实现。

图片来源:作者

有了前面解释的所有编码,我们可以在一个图表中使用所有这些编码,但读者很难快速掌握所有信息。使用多个编码重载图表可能会造成混淆,因此每个图表 1 或 2 个视网膜编码是最佳的。

永远记住,少即是多,所以总是尝试创建极简主义和易于理解的图表。

把它想象成调味一道菜——撒上盐和胡椒可能会增强它,但倒入整个盐瓶可能会破坏味道。

所以现在...应该选择哪种编码?

我的朋友们,这取决于你想编织的故事。

所以你最好问问...

什么有效,什么无效?

虽然我们可以使用的视觉武器库非常庞大,但并非所有武器都适合每场战斗。

考虑哪种编码最适合哪种变量。

  • 连续数据变量(如体重和身高)可在通用秤上找到最佳表示形式。
  • 离散的,如性别或国籍,在用颜色或空间区域描绘时会发光。

某些图表的直观性背后有一些原因。它们背后有两个主要理论。

1. 格式塔理论

使用技术的人有时会忘记事物的人性方面。格式塔原则是心理学的规则,解释了我们的大脑如何看待模式

其中一些规则有助于我们理解为什么我们将看起来相似的事物分组或注意到突出的事物。

  1. 相似: 格式塔相似性意味着我们的大脑将看起来相似的事物分组。这可能是因为它们的位置、形状、颜色或大小。这广泛用于热图或散点图。

图片来源:作者

  1. 关闭: 边框内的对象(如线条或共享颜色)看起来就像它们属于一起。这使它们从我们看到的其他事物中脱颖而出。我们经常在表格和图形中使用边框或颜色对数据进行分组。

图片来源:作者

  1. 连续性: 当单个元素连接在一起时,我们的眼睛认为它们属于一起。即使他们看起来不同,这条线也让我们把他们视为一个群体。这在折线图中被广泛使用。

图片来源:作者

  1. 接近: 我们认为,如果事物彼此接近,它们就属于同一组。为了表明事物属于一起,请将它们放在一起。使用一点空间可以帮助分隔不同的组。这通常用于散点图或节点链接图。

图片来源:作者

因此,在进行可视化时,格式塔原则及其相互作用非常重要。

2.比例油墨的原理

在许多不同的可视化场景中,我们通过图形元素的范围来表示数据值。

通常的做法是使用单词墨迹来指代可视化效果中偏离背景颜色的任何部分。这包括线条、条形、点、共享区域和文本。

例如,在条形图中,我们绘制从 0 开始并以它们表示的数据值结束的条形。在这种情况下,数据值不仅编码在柱线的端点中,而且还编码在柱线的高度或长度中。

如果我们绘制的柱线以不同于 0 的值开始,那么柱线的长度和柱线端点将传达相互矛盾的信息。

图片来源:作者

在所有这些情况下,我们需要确保没有不一致。这个概念被伯格斯特罗姆和韦斯特称为比例墨水原理

“当阴影区域用于表示数值时,该阴影区域的面积应与相应的值成正比。

在试图操纵数据时,违反这一原则的情况很常见,尤其是在大众媒体和金融界。

每当我们使用图形元素(例如矩形、任意形状的阴影区域)或任何其他具有已定义视觉范围的元素(可能与显示的数据值一致或不一致)时,都会发生类似的问题。

良好可视化的本质

美学和功能之间的惊人平衡至关重要。严格遵守伯格斯特罗姆的比例墨水等原则,但不以牺牲可读性为代价。

虽然有些编码可能看起来不太有效,但可以故意选择它们来表达或唤起情感。

在我们这个数据流不断增加的时代,制作有意义的视觉叙事的重要性怎么强调都不为过。尤其是在尝试将我们的见解传达给非数据专业人员时。

良好的数据可视化不仅仅是呈现数字,而是试图围绕故事阐明我们的数据。在讲故事的同时使我们的数据栩栩如生,并在原始信息与现实世界的影响和见解之间建立联系。

作为技术专家和数据爱好者,它是我们的艺术,我们的语言,也是我们与整个世界的桥梁。


原文链接:https://www.mvrlink.com/data-visualization-theory-and-techniques/

目录
相关文章
|
前端开发 测试技术
你发现一个bug,如何定位这个是前端还是后端缺陷?建议收藏
你发现一个bug,如何定位这个是前端还是后端缺陷?建议收藏
765 0
|
11月前
|
存储 安全 Linux
【开源指南】用二叉树实现高性能共享内存管理
本文介绍了一种使用C++实现的共享内存管理方案,通过借鉴Android property的设计思路,采用二叉树结构存储键值对,提高了数据检索效率。该方案包括设置和获取接口,支持多进程/线程安全,并提供了一个简单的测试示例验证其有效性。
434 101
|
算法 程序员 编译器
美丽的代码:规范go应用代码注释
【6月更文挑战第30天】本文介绍注释应与代码同步,避免误导,且关键点解释。使用LLVM构建编译器示例展示Go语言规范。注释虽有局限,但在解释复杂逻辑、业务规则时仍有其价值。程序员需平衡注释与代码的关系,创造更优的代码。
1193 0
美丽的代码:规范go应用代码注释
|
6月前
|
机器学习/深度学习 算法 自动驾驶
《从GRPO看强化学习样本效率的飞跃!》
在强化学习领域,样本效率一直是亟待解决的难题。传统算法如Q学习需海量样本才能让智能体学会有效行为模式,尤其在复杂环境中,这成为应用瓶颈。群组相对策略优化(GRPO)应运而生,通过生成动作序列并进行相对评估,摒弃了价值网络,显著提升了样本利用率和计算效率。GRPO在实际应用中展现了巨大优势,如DeepSeek团队利用其大幅减少了训练样本和成本,提高了模型性能。这一创新为资源受限场景及更多领域的强化学习应用打开了新大门。
400 0
《从GRPO看强化学习样本效率的飞跃!》
|
11月前
|
安全 程序员 编译器
【实战经验】17个C++编程常见错误及其解决方案
想必不少程序员都有类似的经历:辛苦敲完项目代码,内心满是对作品品质的自信,然而当静态扫描工具登场时,却揭示出诸多隐藏的警告问题。为了让自己的编程之路更加顺畅,也为了持续精进技艺,我想借此机会汇总分享那些常被我们无意间忽视却又导致警告的编程小细节,以此作为对未来的自我警示和提升。
1159 95
|
10月前
|
Python
Python 中,逻辑运算符用于组合多个条件表达式
Python 中,逻辑运算符用于组合多个条件表达式
247 1
|
弹性计算 监控 Cloud Native
云原生最佳实践系列 4:基于 MSE 和 SAE 的微服务部署与压测
通过MSE(微服务引擎)、SAE(Serverless应用引擎)、ARMS(应用监控服务)、PTS(性能测试服务)等产品,实现微服务的无服务化部署、监控和弹性伸缩。
895 96
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解深度学习:从理论到实践
【9月更文挑战第23天】深度学习,作为人工智能领域的一颗璀璨明珠,已经引领了无数科技的突破与创新。本文将深入浅出地介绍深度学习的核心概念、基础理论以及实战应用,帮助读者构建起对这一前沿技术的整体认识。我们将一起探索神经网络的奥秘,了解如何训练高效的模型,并且通过代码示例具体展示深度学习的强大能力。无论你是科技爱好者,还是志在从事AI研究的学者,这篇文章都将成为你深度学习之旅的启航点。
389 4
|
9月前
|
算法 数据安全/隐私保护
数字通信中不同信道类型对通信系统性能影响matlab仿真分析,对比AWGN,BEC,BSC以及多径信道
本项目展示了数字通信系统中几种典型信道模型(AWGN、BEC、BSC及多径信道)的算法实现与分析。使用Matlab2022a开发,提供无水印运行效果预览图、部分核心代码及完整版带中文注释的源码和操作视频。通过数学公式深入解析各信道特性及其对系统性能的影响。
|
存储 人工智能 弹性计算
通义万相AI绘画创作评测及图文搭建教程
【7月更文挑战第4天】阿里云的通义万相是AI绘画模型,结合ECS、OSS和API服务,提供无缝创作环境。用户上传图片至OSS,模型通过签名URL下载图片,然后生成AI艺术作品。模型服务具有高性能、易集成的特点,适用于多种场景如设计、广告等。用户可按指示在阿里云官网注册、充值、开通服务并部署。项目评测显示,其集成便捷、响应快、泛化能力强,但仍有改进空间,如增加图像控制选项和批量处理能力。相对于竞品,通义万相在成本、易用性和应用场景上有竞争力,值得推荐。
11491 9