本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第1章 ,第1.1节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.1 数据分析简史
想要领略数据分析统计和可视化的魅力,一个最好的方法就是回顾这些方法崭露头角的历史。下面的例子生动地展示了使用这些方法前后的对比图,演示了新技术带来的巨大好处。
1.1.1 19世纪的数据分析
20世纪之前,对数据的使用和统计仍然是相对落后的。数据分析虽然早在18世纪就取得了长足的发展,但是彼时大多数科学研究只是用一些基本的描述性统计方法来证明一些假说的正确性。无力从繁杂的数据(几乎所有的真实数据都会有多多少少的噪声)中得出明确的结论,导致了大量的科学辩论聚焦于对数据的看法,而不是数据本身。19世纪,两个医学教授就霍乱的病源展开了一场激烈的辩论,这种细菌感染在当时往往是致命的。
1849年,伦敦霍乱爆发,状况极其惨烈,仅仅一年,就夺走了超过14 000人的生命。人们当时并不了解霍乱的病源,两个医学教授提出了两个相互竞争的理论。其中,William Farr,一位公认的、受人尊敬的流行病学家,坚持认为霍乱是由分解不卫生的物质产生的空气污染引起的(官方称为瘴气理论)。而另一位也十分成功的(不如William Farr出名)流行病学家John Snow则提出,霍乱的传播是因为食用了被“特种动物病毒”(早于细菌和病菌的发现)污染的水。两位学者就此辩论了多年。
Farr在1852年发表了“1848-1849英国霍乱死亡率报告”《Report on Mortality of Cholera in England 1948-49》,他在报告中提供了一张采集于伦敦38个区的数据表,里边包含了8个可能的解释性变量。在这篇文章中,Farr提供了一些相对简单的(在今天看来)统计数据,并且在霍乱死亡数和地区平均海拔之间建立了关系(海拔越低的地区有更多的人死亡)。虽然在Farr收集的8个因素中,有一个是霍乱死亡数和饮用水源之间的关系,但是他断定霍乱与海拔的关系比水源更有意义。Farr的理论具有一定的数据支持和逻辑性,并且被他的同行所接受,在当时被奉若真理。
而John Snow则是公开质疑Farr的理论,并且不遗余力地证明自己的观点。据说他甚至在1854年霍乱大爆发期间挨家挨户地走访伦敦Soho区,收集相关的数据信息。也正是通过这场大爆发的霍乱以及他收集的数据,Snow整理制作了一张至今闻名的图,见图1-1。在这张手绘的Soho地区地图中,Snow在有过霍乱死亡报告的地方做了一些细小的标记。在这个图上叠放一张Broad Street饮用水泵(附近市民会来此获取饮用水)的位置分布图,就能看出标记的点明显地在水泵位置周围增多。有了这个分布图并在Snow坚持不懈的请求下,伦敦终于同意将Soho区处理饮用水的水泵拆除,不久,流行的霍乱在该区消退。然而这些效果也没能够说服那些针对Snow的批评家。一直到Snow 1858年去世以后,霍乱的病源还在争论不休。
这些对霍乱病源的争论使用了包括数据和可视化等技术(远在有计算机出现之前),但是争论双方谁也没能够说服对方。在2003年,英国的统计学家通过使用现代的统计方法去计算Farr在1852年公布的数据,对他和Snow之间的这场争论做了重新检验。他们发现,Farr用来证明霍乱源于空气传播的数据恰恰证明了Snow的观点。他们甚至推测,如果Farr可以用现代的统计学方法处理他收集的数据,Farr肯定会改变自己的观点。幸运的是,读者是能够接触到这些现代的统计方法的。
1.1.2 20世纪的数据分析
就在Farr和Snow关于霍乱的争论之前的几年,伦敦北部Rothamsted一个农业研究所开始进行实验,研究肥料对作物产量的影响。研究人员花费了数十年进行实验并且收集记录了各类实验数据,如作物产量、土壤的测量数据以及天气因素等。他们遵循了一种现代日志记录方法,十分用心地收集和存储了这些数据,但是仍然无法获取到这些数据的全部价值。直到1919年,他们雇用一个年轻有为的统计学家Ronald Aylmer Fisher,希望Fisher通透地分析这些超过70年的数据,来帮助研究所理解这些数据。Fisher接受了这个充满挑战性的任务,很快地扎入到这些混乱的数据里,并且,他发现很难将肥料对作物的影响与其他因素隔离开,比如天气因素或者土壤质量。Fisher在这项挑战性的工作中的发现不仅仅改变了统计学领域,而且改变了20世纪几乎所有的科学领域。
Fisher的发现(对统计学具有革命性贡献的发现之一)是,如果一个实验设计得当,那么不同因素对实验结果的影响不仅可以隔离,也可以分别测量计算。Fisher恰当地设计了这个实验,从而可以将天气因素、土壤质量以及其他影响实验的因素隔离开,和不同的肥料混合物的效果做对比。他的这项工作不仅仅用于农业研究,Fisher在Rothamsted发明的实验方法同样被广泛应用于今天,从医疗到考古挖掘等几乎一切行业。Fisher以及他同事们的工作对20世纪的科学发展起到了革命性的作用。在18世纪,统计学家只是简单地收集数据,然后得出这些统计数据来支持自己的观点。而今,他们有了相应的工具,可以用来设计完善的实验,也可以使用相应的技术来模拟实验因素怎样影响他们的实验和结果。
当前,科学领域包含了统计模型,很多的统计和科学教育聚焦在开发和测试统计模型以及这些模型背后的假设。几乎所有的统计学问题都以“统计模型是怎样的?”为开始,并且以可以使用这个模型来描述问题甚至预测相应结果为结束。这代表着科学研究方法的一个巨大飞跃,现在已经可以完成一些以前根本不可能做的研究。如果没有计算机,恐怕科学研究还停留在考虑怎样让这些技术变成现实,但是目前已十分普及的计算机为数据分析开辟了一个新的领域,这个领域在之前是不可能的和深不可测的。
1.1.3 21世纪的数据分析
Farr和Fisher的事件能够反映之前的数据分析的几个发展阶段,可是却很难仅用单个的人物或者事件来反映当今的数据分析的发展历程。首先令人难忘的是统计学家John Tukey,1962年他就在文章中提到数据分析科学应该不同于统计学(即使数据分析会用到统计学)。他说,比起数学内容,数据分析必须包含更多的科学内容(能说“数据科学”的概念从此诞生么?)。Tukey不仅仅是一位成功的统计学家,还为统计学贡献了无数的规程和技术,他还是将可视化技术应用于描述和探索数据的早期支持者。你会在本章的后续部分继续接触一些Tukey(图克)的工作成果。
让我们跳到2001年Leo Breiman写的一篇论文,他是专注于机器学习算法(在第9章讨论)的统计学家。在论文中他描述了数据分析的新文化,即不要注重定义模拟自然的数据模型,而要注重源于自然的算法模型。这种新文化的演变发展源于计算机科学与工程的发展,与传统统计学有极大的不同(甚至毫无交叉点)。信息时代产生了大量复杂的和充满噪声的数据,同时这些实际的疑难问题也催生了新的分析方法。Breiman在论文中概述的富有革命性的想法是,模型应该由他们的预测准确度来验证,而不是用传统的统计测试来验证(尽管传统测试也不是毫无用处)。
根据文字表面的意思,你可能将“预测准确度”测试理解为收集今天的数据并确定它如何预测明天的世界,可它却并非如此。这个想法是将今天的数据分为两组,用一组数据来生成(或训练)一个算法,然后用另一组数据去验证(或测试)这个算法的预测准确度。为了提高这个分析方法的效果,我们可以把数据分成不同的训练集、测试集,进行生成和验证,多次重复这个过程。尽管这个分析方法还不适用于小的数据集,但是却在现代的大数据集中表现十分优良。
当前信息时代的数据分析和过去Rothamsted的农业领域中数据分析有几个主要的区别。首先,数据样本大小有极大的差距。“经典”统计技术极大地受限于当时计算机的处理能力(在过去,“计算机”就是雇佣来成天做“计算”的人力),用较小的样本集来生成和训练出算法模型是不实际的。而在现代环境中,数据记录了跨越成千上万种系统生成的上百万的数据变量,巨大的样本量已经成为常态,并非个例。
其次,在许多应用环境和行业中,一个设计得当的实验是几乎不可能的(如果不是完全不可能)。你不可能把网络分为对照组和测试组,你也不能通过仅仅保护一个关键应用的一部分来测试Web应用防火墙的效果。这些环境限制带来的一个后果就是数据具有更高的信噪比。机器学习技术(以及和数据挖掘相关领域的技术)与现代数据的挑战都在共同发展。
最后,在21世纪,数据统计知识只是有助于成功的数据分析的众多技术之一。考虑到这点,下一节会花些时间介绍支持良好的数据分析的各种技能和特性。