数据可视化,是关于数据视觉表现形式,在大数据领域中,素来有“科学与艺术的结合”的说法。这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
事实上,数据可视化是一个处于不断演变之中的概念,其边界在不断地扩大。这里的变化主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。
数据可视化源于统计学,而且由来已久。
弗罗伦斯·南丁格尔(国际护士节是其生日),除了是人道主义具象化的护士界偶像,更是一名统计学家,其发明的“南丁格尔玫瑰图”被推崇至今。
南丁格尔玫瑰图
出于对资料统计的结果会不受人重视的忧虑,她发展出一种色彩缤纷的图表形式,让数据能够更加让人印象深刻。 这种图表形式有时也被称作「南丁格尔的玫瑰」,是一种圆形的直方图。 南丁格尔自己常昵称这类图为鸡冠花图(coxcomb),并且用以表达军医院季节性的死亡率,对象是那些不太能理解传统统计报表的公务人员。 她的方法打动了当时的高层,包括军方人士和维多利亚女王本人,于是医事改良的提案才得到支持。
南丁格尔在1859年南丁格尔被选为英国皇家统计学会的第一个女成员,她后来成为美国统计协会的名誉会员
今天就来讲一讲如何制作数据可视化报表。
数据可视化的魅力并不在于统计,而是在于表现数据与数据之间的关系。
数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。通常一个数据可视化的表格需要的数据有两个:
1:维度
2:度量(数字)
一个完整的图表是必须同时有维度和度量两个指标的。
对应图表中的指标通常有四个:
1:行
2:列
3:筛选逻辑(变量关系)
4:标记(图形表现)
我们以天通苑地区海鲜餐馆数据为例,在大数据魔镜公开的免费版中制作了一张散点气泡图,旨在表现不同餐馆在不同人均消费和人气间的分布关系。(此次数据为示例数据,并无商业参考价值,图表制作工具为大数据魔镜)
其中人气和人均是度量,地址是维度,以人气和人均生成数轴,以地址为颜色筛选信息,就会以不同地址不同颜色的形式生成气泡分布在各个人气和人均的范围内。
以此类推,我们将筛选的逻辑替换为大小,那么不同地址的信息就会以不同大小的形式展现。
如果着重表现对比情况,且表现数据不存在同属关系(铁桌子与木桌子同属桌子),可以用更直观的大线条大色块图表。比如条形图:
我们将人均提交到列,地址提交到行,以人气为颜色筛选基础,所生成的条形图,除了表现在不同维度(地址)之下,各家餐馆的人均水平,更以颜色区分出了人气高低。这样我们就可以先行从颜色区分出生意比较好的几家餐馆,参考其在市场中占据了哪些档次的消费。可以得出判断在中低档的市场中,这两家对手取得了绝对优势,如果再行入场,未免过度竞争压力,可以优先考虑高端市场,又因为高端市场体量不大,所以更适合精细化运营节省成本做小而美的路子。
类似这样能快速筛选出不同指标的强劲维度所适合的图表还有树状图:
当然在刚开头时,我们就讲,数据可视化的魅力,并不在于统计,而是展示出数据之间的逻辑关系。
所以当我们加入新维度,筛选出主要的对标企业时,并生成可折叠树形图时,我们就可以看到目前主要的对标企业都在干什么:
当要参考的维度足够多,而指标趋于简单时,和弦图和显然会更适合这样的情况。
对于一个报表而言,其展现的逻辑关系是与其维度的数量息息相关的。当维度足够多,就需要更复杂的力布局图形,一般这种图表在各大公司都是收费的,如下图:
此外常见的数据可视化图,还有地图类的图表(地图类示例来自地图慧)
除了色块地图,比较受欢迎的地图类图表还有:
词云图现在也常被媒体拿出来总结舆情:
在乙方公司的收费可视化产品里,还有很多分析更复杂维度的企业用视觉可视化图表:
Gephi
birdeye
Better World Flux
目前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。
尽管看起来只是简单的表格,但实际上数据可视化包含了数据空间、数据开发、数据分析、数据可视化。
数据可视化已经提出了许多方法,这些方法根据其可视化的原理不同可以划分为基于几何的技术、面向像素技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术等等。
但数据可视化的要点从来没有变过,可视化的唯一目的就是为了沟通。然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式,无法达到其主要目的。这就需要多动动脑筋了。
本文作者:麒麟
来源:51CTO