1.3 数据可视化历史
可视化的历史悠久,最早用墙上的原始绘图和图像,表中的数字以及黏土上的图像来呈现信息。然而,它们并没有被称为可视化或数据的可视化。数据可视化是一个新术语;它传达出可视化不仅仅是以图表的形式展示数据。数据背后的信息应该用效果良好的图表直观揭示出来;图表本身应该帮助读者看到数据结构。
计算机出现前的可视化
在巴比伦时代早期,图片被绘制在黏土上,随后被渲染在纸草上。那些图的目标是给人们提供对信息的定性理解。众所周知,作为一种信息的可视化展示,我们对图片的理解是一种本能,因此理解过程非常轻松。本节只包括可视化历史的部分细节。关于精心设计的细节和例子,我们推荐两个有趣的资源:
数据可视化(http://euclid.psych.yorku.ca/datavis/)
The Work of Edward Tufte and Graphics Press(www.edwardtufte.com/tufte)
1. Minard的俄国战役(1812)
Charles Minard是一位在巴黎工作的土木工程师。他用形象化的图像总结了1812年拿破仑进军莫斯科的行军路线。这幅图很简单,包括可视的时间线、描绘军队大小和方向的地理地图、温度以及地标和地点。Edward Tufte教授曾将这幅图描述为有史以来最好的统计图。
一开始,该楔形的左侧较厚,我们看到战争在波兰边境开始时,军队有422 000名战士。当军队深入俄国,气温变低时,该楔形变窄。这种可视化成功地将许多不同数字和地理汇集为一张图:军队何时变少,为什么变少,以及他们的撤退。
2. 伦敦的霍乱疫情(1831~1855)
在1831年10月,首例霍乱发生在英国,死亡人数超过52 000人。随后,在1848~1849年和1853~1854年间,更多的霍乱疫情造成大量人员死亡。
1855年,John Snow博士绘制出伦敦Broad Street水泵周围的霍乱死亡情况分布图。John Snow博士绘制的这幅图具有里程碑意义,但不幸的是,该图在那段时期末期才设计出来。他的地图上显示了每位死者的位置,并得出一个结论,即霍乱可能源自Broad Street水泵中被污染的水。那个时期前后,图表的使用在经济和国家规划中变得重要起来。
3. 统计图表(1850~1915)
在19世纪中期,可视化的迅速增长已经在整个欧洲得以建立。在1863年,欧洲Galton多元天气图表的其中一页显示了1861年12月的气压、风向、雨水和温度。(来源:The life, letters and labors of Francis Galton, 剑桥大学出版社。)
在这段时期,统计图表成为主流,与此同时,有很多相关的教科书。这些教科书包含图表绘制方法的详细描述,讨论频率和销量选择的影响,以及差异和比率可视化估计的基线。它们也包含在一个图上绘制两个或两个以上时间序列曲线,以实现对历史记录的比较。
4. 数据可视化后期发展
在1962年,John W. Tukey发布了数据分析认知的诉求,作为统计的一个合法分支。不久之后,他开始在探索性数据分析(Exploratory Data Analysis, EDA)专栏下,发明各种各样崭新、简单且和有效的图表,随后是探索性空间数据分析(Exploratory Spatial Data Analysis, ESDA)。后来,Tukey在1977年写了一本书Exploratory Data Analysis。有很多对EDA绘图技术有用的工具,具体如下:
盒形一虚线图(箱线图)
直方图
多元图(源自K线图)
运行序列图
Pareto图(在Vilfredo Pareto后命名)
散点图
多维量表
目标投影追踪
科学计算的可视化作为一个基于计算的重要领域,旨在提高对数据的理解并迅速做出实时决策。今天,医生诊断疾病的能力与视觉有关。例如,现在做髋关节置换手术可以在外科手术前完成髋关节的定制。通过使用非侵入性的三维成像,在手术前完成精确的测量,从而减少手术后身体排异反应的数量(从30%减到仅有5%)。(来源:http://bonesmart.org/hip/hip-implants-specialized-and-custom-fitted-options/。)
作为研究前沿,人类大脑结构和功能的三维可视化具有深远意义。几乎没有其他研究进展改变神经科学和大脑成像技术领域,比如能够看到大脑内部,读取人类活体的大脑。为了在大脑研究中不断取得进展,很多抽象的集成结构和功能信息将很有必要。
硬件性能功耗比例的持续上升表明:我们已经有能力分析DNA序列,并完成视觉上的展示。未来在计算方面的研究进展有望给医学和其他科学领域带来很大的进步。