本节书摘来异步社区《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第1章 ,第1.2.4节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“异步社区”公众号查看。
1.2.4 统计学
或许我们在这里有些偏向,但是捡拾起一些统计学知识几乎会改变你生活的每个方面。它不仅会改变你看待以及学习周围世界的方法,而且会使你自身变得更加有趣,甚至可能在身边的人们眼中更具魅力。严肃地说,虽然统计学(在这里我们把它作为一项技能进行讨论)是一个宽泛的主题,是很难喝到水的深水井。我们使用术语去描述逐渐演变的统计技术与方法集合,这些技术与方法现在已经演变成了(还在持续演变)尝试从数据中学习的状态。这些技能不但包括经典的统计学,还包括像数据挖掘以及机器学习这样的新技术。非常幸运的是,你可以从相当杰出的一代代人们的成功与失败中学到很多内容,这些人处理的数据和我们的数据非常相似,即使他们的计算器只是笔和纸,而我们使用的是电子电路。不管你对于统计与数据分析工具的个人观点如何,有大量证据表明,当统计学用于信息安全领域后,其影响力波及其他几乎所有科学领域。
除了显而易见的“从数据中学习”的方法之外,有一些更加深入的理由去集中提高你的统计技能。
- 尽管数据从不说谎,被它欺骗却很容易。作为具有启发式思维的生命,我们拥有从周围世界中提出模式及含义的能力。这种发现隐蔽的联系及模式的能力通常很有益处,人们每天都会使用这种能力。然而需要注意的是,这种技能也可能会误导你,你可能会认为你看见了根本不存在的模式及联系。对统计的良好理解会使你更深层次地认识到这点,它的一些策略会使得这样的错误结论数量达到最低。
- 尽管我们刚说过数据从不说谎,但是生成及收集数据的方法会产生欺骗性的结论。比如询问我们身边人们的看法会导致错误地肯定自身的观点,因为我们很自然地和志同道合的人聚集在一起,且想法趋同一致。数据本身可能并不具有欺骗性,但是它却容易导致人们联想到一些不相符的含义,就如1936年大选投票中的预测故事一样(请看下文“数据产生欺骗”)。
统计学并不仅是工具的集合,它是具有自己工具集的工具箱的集合。你可以从描述性统计开始,描述性统计将数据简化为描述数据某些方面的数字。举例来说,你可以通过计算均值、模、中位数以得到数据的中心,也可以通过标准差来描述数据的分散程度,可以使用偏斜度解释数据的对称性,也可以使用峰态描述峰宽。然而不管什么时候,只要你简化数据,都会在一定程度上失去数据的细节,这时候,可视化方法可以提供很好的服务。你使用可视化方法创建一段表述或者信息,这段信息包含并传达每个数据点,没有简化。我们将这种类型的可视化看作“描述性可视化”,因为它仅仅简单地描述数据。
除了过于简化的挑战之外,描述性统计局限于仅能描述你所收集到的数据。扫描少数几个系统然后计算漏洞的平均数,宣称统计数值描述了环境中的所有系统,这样的做法是不对的。推理统计可以帮助你更深入地研究数据,而不仅仅是描述观察值。当给你一个群体的较小代表性样本时,你可以对更大的群体做出推理说明。这里的关键词是“代表性”。统计学教会你“实验设计”(感谢Fisher以及他的同事们),它会帮助你收集数据,以便于你减少被数据误导的可能性。你当然希望收集的样本具有代表性,那么就使用正确的数据收集方法吧。在过去,很多人已经有过前车之鉴,千万不要重蹈覆辙。
数据产生的欺骗
《Literary Digest》杂志进行了一次民意测验,尝试预测1936年的总统竞选结果。他们通过电话簿、俱乐部会员身份以及杂志订阅信息收集人名单。结束测验时,回应信息已经超过200万份并且预测了一位似乎明显的胜利者:Alfred Landon(对于这些人来说,美国历史并没能如他们所愿,民主党候选人Roosevelt赢得了这场大选,他在46个州中胜出)。《Literary Digest》杂志的问题在测验之前就已经存在,故障出在数据的来源。注意这一年大选在1936年,此时美国的大萧条还没有结束。他们通过电话簿、俱乐部会员身份以及杂志订阅信息收集人名单,而这些人大体上属于中层及上层阶级,这些人普遍偏爱Landon,以至于得到的答案在数学方面正确而与实际完全不符。
数据没有说谎,如果他们想知道,在使用电话、俱乐部会员身份以及订阅杂志的美国人中,哪位总统候选人会获得最多选票,这些数据陈述了一个准确的故事。但是他们并非在寻找那个故事,他们想要知道的是美国所有已注册选民的看法。由于在选取数据样本来源时有偏差,导致加入了数据中根本不存在的含义。
他们拥有的史无前例的200万份回复的事实并不能帮助提高民意测验的准确度。当这样类似系统性的错误存在时,收集更多数据只会形成更大的偏差样本。为了彻底阐明这一观点,在同样的1936年选举中,一个叫George Gallup的年轻人收集了一份相对较小、仅有5万选民的样本,他应用了更多有代表性抽样方法,正确地预测了Roosevelt将会成为1936年选举的胜利者。几年以后,《Literary Digest》杂志停业,而Gallup Inc.现在已经成为一个国际性机构,仍然做调研以及收集数据的咨询。
应该始终以一种尊敬与谦卑的态度来对待统计学。当你不知不觉地慢慢进入应用数学的深处时,你会发现找到那些不存在的含义(学术上称作I类错误)有多容易。但是更重要的是要理解无论有无数据这种错误都会出现。这种错误甚至会出现于你填写Excel电子表格的一个空格之前,工具箱中最好的工具被设计用于限制这种类型错误出现的机会,但是单独的统计是不够的。你需要将经验与数据相结合以减少被误导的可能性。即使经验与数据相结合,这种错误仍可能出现。但是你可以通过应用严谨的作风以及方法来减少这种错误发生的频率。当这种错误真的出现时,这严谨的作风会把你放在一个更好的位置去从错误中学习。
我们已经建立了统计学应用的权威性,应该指出的是,即使没有高级的统计技术,你也可以从数据中学到很多内容。回想之前提到过的“描述性可视化”,花费一点时间看看周围的那些可视化的信息。它们通常不是从统计模型中建立,而是描述一些数据集并说明其中的关系。图1-1中Snow所绘的Board Street上水泵附近区域的图没有涉及逻辑回归以及机器学习。这幅图仅仅是地址与死亡间关系的可视化描述。毫无疑问,你可以使用简单的统计方法以及描述性可视化提高保护信息资产的能力。你所需要的只是提问、收集证据、做出清醒的认识以及将其传达给其他人的耐心。