数据可视化效果若干经验与资料分享

简介:  【编者按】本文作者星河里的章鱼喵,文章通过介绍Visualization 即可视化,罗列了数据的展现方式。对于数据分析最困难的一部分就是数据的展示,解读数据之间的关系,清晰有效的传达并且沟通数据信息。

 【编者按】本文作者星河里的章鱼喵,文章通过介绍Visualization 即可视化,罗列了数据的展现方式。对于数据分析最困难的一部分就是数据的展示,解读数据之间的关系,清晰有效的传达并且沟通数据信息。

对于数据挖掘,我们可以通过文中对数据可视化的案例找到分析数据、展现数据的方法和思路。

Data visualization 是一件很有趣的事情。最近在尝试处理数据,便顺手翻了翻 visualization 的进展,然后除了 IBM 大名鼎鼎的的 many-eyes 。

还有一个比较好有意思的网站是visualizing。Visualizing 跟 many-eyes 很像,都是社区形式的网站,用户可以注册然后上传,而且网站还有积累下来的很多数据供用户使用。

当然我不是为了介绍这个网站才写这篇 post 的,写 post 是一个记笔记的过程,如果我不能从中学到什么,就有点浪费时间了。下面进入正题,我尝试总结一下 visualization 的时候的几个可用的经验。

应该使用何种形式来表现数据

从 visualizing.org 的分类中提取出来的有用的形式包括(不过说实话这样分类并不是很好用)

  1. Chart

  2. Time series

  3. Map

  4. Flow

  5. Matrix

  6. Network

  7. Hierarchy

  8. Info-graphic

要可视化的数据可以分几类(我想的不全面,欢迎补充,共同学习)

有一系列对象,他们之间相互有关联

写成 A↔B 粗体的拉丁字母表示一系列对象,比如一系列地点。

这种情况下因为要展示数据之间相互关系,所以实质上是一个 network 图,不过通过一些技巧可以把简单的 network 图变成更好的形式。

方式一:使用转换成 flow 图。通过把对象列出两遍来是的原本应该是一个比较复杂难以看清的 network 变成了清晰易查找的 flow。

这类图中我喜欢的一个是 people moving 的 flow

这个 flow 图非常好的展示了从一个国家移民到另一个国家,上面的截图就是人们移居(migrate,是移民么?)到加拿大的情况,可以看到中国(CH)移民到加拿大的还是比较多的。通过这样的 flow,我们可以很容易很直观的分析数据。

方式二:圈形的 network 图。为什么要做出圈形呢?因为圈形可以使得连线集中在圈内部,而且可以减少数据交叉。通过 interactive design,可以使得连线无交叉。比如这个 Migrants moving money:

这个截图是中国的侨款,也就是中国移民所寄回祖国中国的钱数。可以看排除香港地区,美国是最大的来源。

事实上这种方法与第一种本质是相同的。

方式三:network 图。通过点和连线来关联。例子比如Attractions of Councils: WEF GAC interlink survey

但是这个图实际上并不好。而且有时候,线条是可以去掉的,比如这个国际航班的可视化:

Click a nation to see all connected nations via flights. Click again to see arranged nations based on the distance. Double-click the background to reset.

截图:

方式四:使用 table。不过为了更直观,使用面积等方式来代表数据的大小。

比如 10 个人任意两个人之间相互按照对对方的好感程度打分,为了展示任意两个人 A 和 B 之间相互的好感程度,可以使用颜色柱来展示,选定一个作为两个人好感程度相同,颜色柱之上的颜色表示 A 对 B 的好感大于 B 对 A 的好感,反之亦然。

这里有个 council 之间的例子,截图如下:

层级数据,数据之间可以分成几个层级关系

就是 Hierarchy 图,不过有时候可以省掉连线。

比如这个 soft drink 的 hierarchy 图

从这张截图立刻可以看到 coca-cola 和 pepsi 的庞大,通过原网页可以自由的放大缩小来查看不同的公司的产品。

这样的 hierarchy 图要比单调的并列的整整齐齐的列举要包含了更多的信息,因为圆圈的大小可以表示数据的一个维度,甚至还可以引入颜色等等来表示更多的维度。

简单的两维数据,比如某种现象出现的频数

方式一:使用 Histogram。这是比较经典的选择,即使用矩形或者线条的长度来表示数据的大小。例如这个关于能源的 visualization

方式二:使用树图(Tree map),使用面积表示数据的大小。这里有个 UN 的 Global Pulse Visualization 的例子:

方式三:使用散点,使用散点的大小或者颜色等属性来表示数据的大小。

一个很优秀的例子是学生坐座位习惯的例子,截图:

事实上 tag page 也是属于这类,我们可以通过每个 tag 的大小颜色等等来标示数据的大小。

坐标数据

除了可以使用上面说提到的方式,对于坐标数据,有个特点是可以绘制地图(Map),而 Map 可以与其他形式结合,比如 flow。一个比较好的例子是关于我们坐飞机的一张图,截图如下:

图片上部的地图是飞行的出发城市,下部的地图是终点城市。更多内容可以查看UCSB的这个站点,其中提供了 demo 软件。

不同 visualization 的结合

前些时候,以为天文学家 Goodman 写过一篇关于高维天文数据可视化的论文,其中提到了 linked views 很重要,就是说我们要多种可视化方式联合起来展示数据,我截取论文中一张图片来说明。

不同的 visualization 结合起来对数据进行多角度的呈现,可以使我们对数据有更深刻的理解。所以 data mining 实际上是一个应用非常广泛的专业,一个 data mining 专业的学生在现在这种天文专业被大量数据所轰炸(有篇论文就是说 data tsunami 时代)真是个宝贝啊。

有一个不错的历史方面的数据可视化例子,把时间线和地图集合起来展示的,这个方案实际是一种深层次的 linked views: Conflict History of the World

一些有用的工具

1、http://en.wikipedia.org/wiki/Data_visualization 自然要先查看一下 wikipedia 啦啦啦~

2、visualizing.org 有个列表:

3、http://selection.datavisualization.ch/ 列举了很多有用的工具。

4、https://github.com/blprnt/Kepler-Visualization This is a Processing sketch to visualize data from NASA’s Kepler mission.

5、http://flowingmedia.com/timeflow.html Time Flow is an open-source timeline built to help journalists analyze temporal data. The application offers several view modes–timelime, calendar, list, table–to help explore thousands of data points.

6、http://mapbox.com/ Mapbox is a tool for map making.

Data Visualization 的机构/组织/社区

1、http://envisioningtech.com/

有些不错的 data visualization,比如(图片来自 envisioningtech.com)

2、IBM 的 Many-eyes.com

这个一开始提到了,是个 visualization 的社区。

3、http://datavisualization.ch/

之前提到过它的工具列表了。这个网站是

Datavisualization.ch is the premier news and knowledge resource for data visualization and infographics.

4、http://visual.ly/

一个类似 data visualization 社区的网站。

5、http://visualization.geblogs.com/

来自 GE 的例子。

6、http://oicweave.org/

Web-based Analysis and Visualization Environment


本文所用的数据按照 visualizing.org 所标示,使用 CC BY-NC-SA 协议,除了明确指明的图片,其他图片皆出自 visualizing.org。

好了讲完了,可以用 exoplanets.org 的数据来玩玩。


原文发布时间为:2013-09-1


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
阿里云实时数仓实战 - 用户行为数仓搭建
课程简介 1)学习搭建一个数据仓库的过程,理解数据在整个数仓架构的从采集、存储、计算、输出、展示的整个业务流程。 2)整个数仓体系完全搭建在阿里云架构上,理解并学会运用各个服务组件,了解各个组件之间如何配合联动。 3 )前置知识要求:熟练掌握 SQL 语法熟悉 Linux 命令,对 Hadoop 大数据体系有一定的了解   课程大纲 第一章 了解数据仓库概念 初步了解数据仓库是干什么的 第二章 按照企业开发的标准去搭建一个数据仓库 数据仓库的需求是什么 架构 怎么选型怎么购买服务器 第三章 数据生成模块 用户形成数据的一个准备 按照企业的标准,准备了十一张用户行为表 方便使用 第四章 采集模块的搭建 购买阿里云服务器 安装 JDK 安装 Flume 第五章 用户行为数据仓库 严格按照企业的标准开发 第六章 搭建业务数仓理论基础和对表的分类同步 第七章 业务数仓的搭建  业务行为数仓效果图  
相关文章
|
人工智能 自然语言处理 开发者
AIGC创作活动 | 跟着UP主秋葉一起部署AI视频生成应用!
本次AI创作活动由 B 站知名 AI Up 主“秋葉aaaki”带您学习在阿里云 模型在线服务(PAI-EAS)中零代码、一键部署基于ComfyUI和Stable Video Diffusion模型的AI视频生成Web应用,快速实现文本生成视频的AI生成解决方案,帮助您完成社交平台短视频内容生成、动画制作等任务。制作上传专属GIF视频,即有机会赢取乐歌M2S台式升降桌、天猫精灵、定制保温杯等好礼!
|
存储 人工智能 图形学
GLB/GLTF在线纹理编辑
GLB文件中的纹理数据采用了嵌入式存储的方式,具有较小的文件体积和高效的数据传输,能够提高3D模型的加载速度和渲染质量。
486 1
|
11月前
|
前端开发 JavaScript NoSQL
无界SaaS商群扶持金详解:解决企业融资难缺乏现金流难题
该内容概述了一个复杂的系统转化任务,涉及用户管理、信用评估、数据流量追踪、资金管理等多个模块。技术栈建议使用Node.js或Python作为后端,MySQL或MongoDB作为数据库,React或Vue.js构建前端界面,React Native或Flutter开发移动应用,可选区块链技术实现去中心化管理。提供了一个简化的Node.js后端示例代码,涵盖用户注册、登录及V值管理等功能,强调了安全性、扩展性、测试和部署的重要性。
|
Serverless API 监控
函数计算操作报错合集之部署了SD,但是OpenPose报错,是什么导致的
在使用函数计算服务(如阿里云函数计算)时,用户可能会遇到多种错误场景。以下是一些常见的操作报错及其可能的原因和解决方法,包括但不限于:1. 函数部署失败、2. 函数执行超时、3. 资源不足错误、4. 权限与访问错误、5. 依赖问题、6. 网络配置错误、7. 触发器配置错误、8. 日志与监控问题。
258 1
|
机器学习/深度学习 算法 数据可视化
Python中的聚类分析以及如何使用Sklearn库进行聚类。
【4月更文挑战第20天】在Python的Scikit-learn库中进行聚类分析,包括安装库、导入模块、准备数据、选择算法(如K-means)、创建并训练模型、预测聚类、评估结果及可视化。
455 0
|
数据采集 运维 监控
如何保障业务稳定性?一文详解蚂蚁业务智能可观测平台BOS
本文将从可观测性视角出发,分析云上云下业务稳定性的难点,介绍蚂蚁集团的BOS平台是如何建设完善的解决方案来解决这些实际的痛点难点,并通过多个实践案例分享企业与机构如何利用BOS平台来实现云上云下全链路可观测性的需求。
497 0
如何保障业务稳定性?一文详解蚂蚁业务智能可观测平台BOS
|
Docker 容器
containerd快速安装指南🚀
本指南旨在提供一个简洁有效的方法来安装`containerd`。我们将通过一份易于理解的脚本步骤,指导您完成安装🔧。请根据您的实际需求,适当调整`containerd`版本及其相关依赖。
|
存储 Android开发 iOS开发
指导:大量联系人电话号码怎么导入iphone苹果手机通讯录?
想有没有简单的办法能帮我来快速批量操作完成,在网上查了很多方法都很复杂,搞了半天精疲力尽,在我快要放弃的时候遇到了一个网上常见简便的软件工具,金芝号码提取导入助手。它很轻松就解决了我的问题:大量联系人电话号码怎么导入iphone苹果手机通讯录?当然了安卓手机也是可以导入的,通用。我写了一个详细的图文教程。
3177 0
指导:大量联系人电话号码怎么导入iphone苹果手机通讯录?
|
存储 移动开发 weex
Flutter 新一代图形渲染器 Impeller
Flutter 新一代图形渲染器 Impeller
1064 0
Flutter 新一代图形渲染器 Impeller
|
存储 数据采集 机器学习/深度学习
数据湖和数据中台
简要介绍数据湖的特点和功能,与数据仓库的区别。此外,还介绍了数据中台的作用和功能。
1148 0
数据湖和数据中台