数据可视化发展历程

简介: 数据可视化是数据分析中发展迅速且引人注目的领域之一,它将科学、技术与艺术结合,通过图形讲述数据背后的故事。从早期的统计图表到现代的交互式可视化,它经历了多个发展阶段,逐步成为理解复杂数据的重要工具。如今,数据可视化已广泛应用于科研、医疗、经济等多个领域,成为沟通与决策的关键手段。

image.png


数据可视化是数据描述的图形表示,是当今数据分析发展最快速、最引人注目的领域之一。借助于可视化工具的发展,或朴实,或优雅,或绚烂的可视化作品给我们讲述着各种数据故事。在这个领域中,科学、技术和艺术完美地结合在一起。数据可视化一般被认为源于统计学诞生的时代,并随着技术手段、传播手段的进步而发扬光大; 事实上,用图形描绘量化信息的思想植根于更早年代人们对于世界的观察、测量和管理的需要。本节将探索数据可视化的发展历程。

01、数据可视化的起源

欧洲中世纪晚期是一个孕育着新纪元的时代。经济发展和文艺复兴点燃了欧洲人对人文和科学知识的追求,现代科学开始蹒跚起步。同时地理大发现如同大爆炸一般,把一个有待探索的新世界呈现在西欧人的面前,商人和探险家等满怀着对财富、贸易或者知识的渴望登上了驶向远方的航船。面对未知的新世界,很多新的科技,如绘图学、测量学、天文学等在迅速地更新着人们对世界的认识。
在16世纪,天体和地理的测量技术得到了很大的发展,特别是出现了像三角测量这样的可以精确绘制地理位置的技术。到了17世纪,笛卡儿发展了解析几何和坐标系; 哲学家帕斯卡发展了早期概率论; 英国人John Graunt开始了人口统计学的研究。数据的收集整理和绘制开始了系统的发展。这些早期的探索开启了数据可视化的大门。

02、18世纪——新的图形符号出现

18世纪是一个科学史上承上启下的时代。在这个世纪开始的时候,牛顿爵士已经在苹果树下发现了天体运动的伟大方程,微积分建立起来了,数学和物理知识开始为科学提供坚实的基础; 在这个世纪里,化学也摆脱了炼金术,开始探索物质的组成; 博物学家们继续在世界各地探索着未知的事物。社会生活也在发展,在这个世纪稍晚的年代,英国开始了工业革命,从此社会化大生产深刻地改变了整个世界——技术成为科学的另一条主线,社会管理也走向数量化和精确化。
与这些社会和科技进步相伴,统计学出现了早期萌芽。一些与绘图相关的技术也出现了,如三色彩印(1710)和平板印刷(1798)(后者被当今学者称为如同施乐打印机一般伟大的发明)。数据的价值开始为人们所重视,人口、商业等方面的经验数据开始被系统地收集整理,天文、测量、医学等学科的实践也有大量的数据被记录下来。人们开始有意识地探索数据表达的形式,抽象图形和图形的功能被极大地扩展,许多崭新的数据可视化形式在这个世纪里诞生了。
这些新的图形创新涵盖很多图形领域。在地图中,出现了以等值线(Edmund Halley,1701)以及等高线表示的3D地图(Marcellin du Carla-Boniface,1782)。比较国家间差别的几何图形开始出现在地图上(Charles de Fourcroy,1782)。时间线被历史研究者引入,用来表示历史的变迁(Priestley,1765)。
法国人Marcellin du Carla-Boniface绘制的等高线图(见图1-1),用一条曲线表示相同的高程,对于测绘、工程和军事有重大的意义,成为地图的标准形式之一。

image.png


特别重要的是,在后来被人们作为基本图形使用的饼图、圆环图、条形图和线图也出现了。

03、19世纪前半叶

19世纪前半叶是最好的时代也是最坏的时代。科技在迅速发展,工业革命从英国扩散到欧洲大陆和北美。但是财富的增加并未同步地改善社会生活,各种革命在这个时代里层出不穷。但对数据可视化来说,这是一个快速发展的好时代。随着社会对数据的积累和应用的需求,以及技术和设计的进步,现代的数据可视化——统计图形和主题图的主要表达方式,在这几十年间基本都出现了。
在这个时期内,数据可视化的重要发展包括: 在统计图形方面,散点图、直方图、极坐标图和时间序列图等当代统计图形的常用形式都已出现。在主题图方面,主题地图和地图集成为这个时期展示数据信息的一种常用方式,应用领域涵盖社会、经济、疾病、自然等各个主题。
(1) 主题地图和社会学的发展。
在1801年,英国地质学家William Smith(1769—1839)绘制了第一幅地质图,这幅描绘了英格兰地层的信息图在1815年出版后引起轰动,引领了一场在地图上表现量化信息的潮流。
1826年,法国男爵Charles Dupin发明了使用连续的黑白底纹来显示法国识字分布情况的方法,这可能是第一幅现代形式的主题统计地图。
(2) 霍乱地图与传染病的研究。
19世纪上半叶的欧洲,伴随工业迅速发展的是城市的扩张和人口的增长,但是公共管理并未能与时俱进。城市居民极易受到传染病的侵害。1831年10月,英国第一次暴发霍乱,夺走了5万余条生命。在1848—1849年和1853—1854年的霍乱中,死亡人数更多。霍乱传播因何而来又如何传播?可视化最终给出了答案。
1854年,英国Broad大街大规模暴发霍乱,John Snow对空气传播霍乱理论表示了怀疑,于1855年发表了关于霍乱传播理论的论文。John Snow采用了点图的方式,图中心东西方向的街道即为Broad大街,黑点表示死亡的地点。这幅图揭示了一个重要现象,就是死亡发生地都在街道中部一处水源(公共水泵)周围,市内其他水源周围极少发现死者。通过进一步调查,他发现这些死者都饮用过这里的水。后来证实离这口水泵仅3英尺(1英尺≈0.3048米)远的地方有一处污水坑,坑内滋生的细菌正是霍乱发生的罪魁祸首。他成功地说服了当地政府废弃那个水泵。这是可视化历史上的一个划时代的事件。
(3) 提灯女神的玫瑰图。
玫瑰图即极坐标面积图(Polar Area Diagram),将极坐标平面分为若干角相等但面积不等的区域,适合表示周期循环的数据。这种图形可以被视为饼图的一个变种,又因为每个扇区区域面积不同,又称玫瑰图(也称为风玫瑰图)。
在克里米亚战争期间,南丁格尔通过搜集数据发现,很多人死亡的原因并非是“战死沙场”,而是因为在战场外感染了疾病,或是在战场上受伤,却没有得到适当的护理。
为了解释这个原因,并降低英国士兵的死亡率,她绘制了这幅著名的图,并于1858年送到了维多利亚女王手中。这幅图中一个切角是一个月,其中面积最大的灰色块代表着可预防的疾病。这幅图真的很厉害,为什么呢?第一,它用面积直观地表现出了一个时间段内几种死因的占比,让任何人都能看懂; 第二,它还很漂亮,像一朵玫瑰花一样。它为什么要那么漂亮?因为这幅图的汇报对象以及最终的决策人是维多利亚女王。南丁格尔的故事告诉我们: 数据可视化是为了更好地促进行动,所以要让行动的决策人看懂。

04、19世纪下半叶的黄金时期

19世纪下半叶,系统地构建可视化方法的条件日渐成熟,进入了统计图形学发展的黄金时期。值得一提的是法国人Charles Joseph Minard,他是将可视化应用于工程和统计的先驱者。其最著名的工作是1869年发布的描绘1812—1813年拿破仑进军莫斯科大败而归的历史事件的流图。
这幅拿破仑1812年的远征图被后世学者称为“有史以来最好的统计图表”。这场战争以法国军队的惨败而告终,侵入俄国的42万人最终生还者仅数万。造成法军损失惨重的原因,除了俄罗斯人的顽强抵抗,还有恶劣的自然条件,特别是1812年冬季的严寒。
这幅远征图反映了这场战争全景,其经典之处在于在一幅简单的二维图上,表现了丰富的信息: 法军部队的规模、地理坐标、前进和撤退的方向、抵达某处的时间以及撤退路上的温度。这张图对1812年的战争提供了全面、强烈的视觉表现,如撤退路上在别列津河的重大损失、严寒对法军损失的影响等,这种视觉的表现力用历史学家的文字是难以比拟的。

05、19世纪前半叶

19世纪下半叶,系统地构建可视化方法的条件日渐成熟,进入了统计图形学发展的黄金时期。值得一提的是法国人Charles Joseph Minard,他是将可视化应用于工程和统计的先驱者。其最著名的工作是1869年发布的描绘1812—1813年拿破仑进军莫斯科大败而归的历史事件的流图。
这幅拿破仑1812年的远征图被后世学者称为“有史以来最好的统计图表”。这场战争以法国军队的惨败而告终,侵入俄国的42万人最终生还者仅数万。造成法军损失惨重的原因,除了俄罗斯人的顽强抵抗,还有恶劣的自然条件,特别是1812年冬季的严寒。
这幅远征图反映了这场战争全景,其经典之处在于在一幅简单的二维图上,表现了丰富的信息: 法军部队的规模、地理坐标、前进和撤退的方向、抵达某处的时间以及撤退路上的温度。这张图对1812年的战争提供了全面、强烈的视觉表现,如撤退路上在别列津河的重大损失、严寒对法军损失的影响等,这种视觉的表现力用历史学家的文字是难以比拟的。

06、20世纪上半叶

20世纪上半叶,数据可视化最重要的影响是在天文、物理、生物和其他科学领域中。图形方法被广泛应用在新发现、新思想和新理论的过程中。其中主要包括: ①E.W.Maunder(1904)的蝴蝶图,研究了太阳黑子随时间的变化。他发现1645—1715年太阳黑子的频率有明显减少。图1-2是由NASA按照Maunder方法绘制的蝴蝶图; ②Hertzsprung-Russell图(1911),作为温度函数的恒星亮度的对数图,解释了恒星的演化,成为现代天体物理的奠基之一; ③Henry Moseley关于原子序数的发现(1913),这也是基于大量的图形分析。

image.png


在这个时期稍晚的阶段,统计和心理学上的一些多维数据可视化的思想和方法提供了超越二维图形表现的动力。
在主题图方面,这个时期的一个有意思的创新是关于伦敦地铁图(见图1-3)的设计,并由此产生了Tube Map这样一种交通简图的表现手法。早期的地铁图与普通地图无异,对乘客来说,地理信息充分但远非简明直观。1931年,身为电气工程师的Beck重新设计了伦敦地铁图,使之具有三个比较明显的特点: ①以颜色区分路线; ②路线大多以水平、垂直、45°三种形式来表现; ③路线上的车站距离与实际距离不呈比例关系。其简明易用的特点使其在1933年出版后迅速为乘客接受,并成为今日交通线路图形的一种主流表现方法。

image.png


07、20世纪下半叶至今——数据可视化的创新思维时代
引领这次大潮的首先是一个划时代的事件——现代电子计算机的诞生。计算机的出现彻底地改变了数据分析工作。1957年,出现了第一个用于计算的高级程序语言FORTRAN,从此用于统计数据的高效的计算机处理工具开始慢慢出现。到20世纪60年代晚期,大型计算机已广泛分布于西方的大学和研究机构,使用计算机程序绘制数据可视化图形逐渐取代手绘的图形。计算机对数据可视化的影响是提供了高分辨率图形和交互式图形分析,实现了手绘时代无法企及的表现能力。
其次是唤醒可视化的历史事件是统计应用的发展,这是一个可能缓慢但是坚定地慢慢深入的过程。数理统计把数据分析变成了坚实的科学,第二次世界大战后的工业和科学发展使数据处理这门科学运用到各行各业。统计的各个应用分支建立起来,处理各自行业面对的数据问题。在应用中,图形表达占据了重要地位,比起参数估计、假设检验,明快直观的图形形式更容易被人接受。
下面来看一下这个时期的一些新发展。
(1) 美国统计学家John Tukey是较早认识到统计作为应用学科价值的数理统计学家之一。1962年,John Tukey发表论文呼吁把实践性的数据分析作为数理统计的一个分支。随后,他投身于发展新的、简单有效的图形表现之中,创造了茎叶图(Stem-Leaf Plot)、盒形图(Box Plot)等我们今天常用的图形。
(2) 除了John Tukey的各种描述性数据图形,统计图形领域在这个时期最引人注目的发展是多元数据的可视化。如Andrews Plot(1972)利用有限的傅里叶序列表现高维数据。另外,聚类图和树形图等也在1970年开始应用。
(3) 另一个发展是数据缩减(Data Reduction)的图形技术。多维标度法(Multi Dimensional Scaling,MDS)是一种在低维空间展示“距离”数据结构的多元数据分析技术,是一种将多维空间的研究对象(样本或变量)简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法。多维标度法与主成分分析(Principal Component Analysis,PCA)、线性判别分析(Linear Discriminant Analysis,LDA)类似,都可以用来降维。
(4) 出现了现代GIS(Geographic Information System,地理信息系统)和二维、三维的统计图形交互系统。
对于可视化来说,三维是必要的,因为典型问题涉及连续的变量、体积和表面积(内外、左右和上下)(见图1-4)。然而,对于信息可视化来说,典型问题包含更多的分类变量和股票价格、医疗记录或社会关系类数据中模式、趋势、聚类、异类和空白的发现。

image.png


1986年10月,美国国家科学基金会主办了一次名为“图形学、图像处理及工作站专题讨论”的研讨会,旨在为从事科学计算工作的研究机构提出方向性建议。会议将计算机图形学和图像方法应用于计算科学的学科称为科学计算之中的可视化。
1990年,IEEE举办了首届IEEE Visualization Conference(可视化会议),汇集了一个由物理、化学、计算、生物医学、图形学、图像处理等交叉学科领域研究人员组成的学术群体。2012年,为突出科学可视化的内涵,该会议更名为IEEE Conference on Scientific Visualization。
进入21世纪,现有的可视化技术已难以应对海量、高维、多源、动态数据的分析挑战,需要综合可视化、图形学、数据挖掘理论与方法,研究新的理论模型、新的可视化方法和新的用户交互手段,辅助用户从大尺度、复杂、矛盾甚至不完整的数据中快速挖掘有用的信息以便做出有效决策,从而催生了可视分析学这一新兴学科。该学科的核心理论基础和研究方法目前仍处于探索阶段。从2004年起,研究界和工业界都朝着面向实际数据库、基于可视化的分析推理与决策、解决实际问题等方向发展。随着大数据和人工智能技术的发展,数据可视化开始朝着智能化和自动化的方向发展。智能数据可视化工具可以根据数据的特征,自动选择合适的图形和图表,并对数据进行自动整理和处理。这一阶段的特点是数据可视化工具能更智能地理解用户需求,提供更准确、更有价值的数据分析和数据可视化结果。同时,自动化功能也提高了数据可视化的效率和准确性。
随着数据可视化技术的不断发展和普及,越来越多的人开始接触和使用数据可视化工具。这不仅包括专业的研究人员和开发者,还包括各行各业人员、管理者。数据可视化已经成为一种通用的数据呈现和沟通方式。
目录
相关文章
|
开发框架 移动开发 小程序
uniapp实现上传文件功能
uniapp实现上传文件功能
1147 0
|
机器学习/深度学习 数据采集 人工智能
【技术揭秘】高性能粤语语音识别模型构建方案
随着人工智能技术的飞速发展,语音识别(Automatic SpeechRecognition)的应用越来越广泛,对于多语种多口音语音识别的需求也在日渐增加。虽然语音识别系统的基本原理和框架是不受限于语种的,在建立一个新语种的ASR模型时,还是需要结合到语言本身的特点,才能得到较好的效果。
【技术揭秘】高性能粤语语音识别模型构建方案
|
5月前
|
并行计算 机器人 网络安全
阿里云服务器上部署ROS2+Isaac-Sim4.5实现LeRobot机械臂操控
本文介绍了如何在阿里云上申请和配置一台GPU云服务器,并通过ROS2与Isaac Sim搭建机械臂仿真平台。内容涵盖服务器申请、系统配置、远程连接、环境搭建、仿真平台使用及ROS2操控程序的编写,帮助开发者快速部署机器人开发环境。
1888 4
|
Java API 持续交付
apache nifi 如何进行二次开发?
【10月更文挑战第23天】apache nifi 如何进行二次开发?
624 2
|
数据采集 关系型数据库 MySQL
基于Python对二手车之家的数据采集与分析
本文介绍了基于Python的二手车之家数据采集与分析系统,通过爬虫技术获取数据并利用Pandas和NumPy等库进行数据处理与分析,旨在帮助用户了解二手车市场趋势并制定交易策略。
756 2
基于Python对二手车之家的数据采集与分析
|
存储 小程序 JavaScript
|
存储 机器学习/深度学习 人工智能
全面解析 | 大模型时代如何利用弹性计算服务应对大算力挑战
2023年6月20日,阿里云弹性计算团队与智东西公开课联合出品的系列课程「阿里云弹性计算技术公开课」正式播出,阿里云弹性计算产品专家张新涛作为该系列课程首位主讲人,带来了主题为《大模型时代如何应对大算力挑战》的课程分享,本次课程也在阿里云官网、钉钉视频号、阿里云官方视频号、阿里云开发者视频号、阿里云创新中心直播间&视频号等多平台同步播出。
全面解析 | 大模型时代如何利用弹性计算服务应对大算力挑战
|
编解码
流媒体技术学习笔记之(五)码流、码率、采样率、比特率、帧速率、分辨率、高清视频的概念
码流、码率、采样率、比特率、帧速率、分辨率、高清视频的概念   高清视频主要编码   480P格式:720x480  720P格式:1280x720 【表现体育节目、快速运动的视频时,720P更明显】 1080P格式:1920x1080 【适合普通电视节目、电影等慢速运动的视频时,1080P更明显】 1、码流(码率)           码流(Data Rate)是指视频文件在单位时间内使用的数据流量,也叫码率或码流率,通俗一点的理解就是取样率,是视频编码中画面质量控制中最重要的部分,一般我们用的单位是kb/s或者Mb/s。
6484 0
|
监控 网络协议 测试技术
优秀的 Modbus 从站(从机、服务端)仿真器、串口调试工具
- 监视串行线路或以太网上的通信数据 - 支持多达 28 种数据格式,包括:Signed、Unsigned、Hex、Binary、Long、Float、Double等 - 支持 Modbus 协议地址和 PLC 地址相互切换 - 对任意数量寄存器中的数据绘制实时图表,监控数据的变化趋势 - 支持同时创建多个连接网络和大量从站设备 - 通过多个标签页进行管理,快速在从站设备之间进行切换 - 通过表格的形式管理寄存器,支持添加变量名和注释,支持切换背景与前景颜色 - 导出/导出从站设备寄存器数据到Excel - 内置字节转换工具,方便将Long、Float、Double类型数据转换为寄存器中的数据
598 0
优秀的 Modbus 从站(从机、服务端)仿真器、串口调试工具
|
Python Windows
python 3.8.11 版本下geopandas的安装记录
python 3.8.11 版本下geopandas的安装记录
python 3.8.11 版本下geopandas的安装记录