《数据驱动安全:数据安全分析、可视化和仪表盘》一1.2.4 统计学

简介:

本节书摘来异步社区《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第1章 ,第1.2.4节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.2.4 统计学

或许我们在这里有些偏向,但是捡拾起一些统计学知识几乎会改变你生活的每个方面。它不仅会改变你看待以及学习周围世界的方法,而且会使你自身变得更加有趣,甚至可能在身边的人们眼中更具魅力。严肃地说,虽然统计学(在这里我们把它作为一项技能进行讨论)是一个宽泛的主题,是很难喝到水的深水井。我们使用术语去描述逐渐演变的统计技术与方法集合,这些技术与方法现在已经演变成了(还在持续演变)尝试从数据中学习的状态。这些技能不但包括经典的统计学,还包括像数据挖掘以及机器学习这样的新技术。非常幸运的是,你可以从相当杰出的一代代人们的成功与失败中学到很多内容,这些人处理的数据和我们的数据非常相似,即使他们的计算器只是笔和纸,而我们使用的是电子电路。不管你对于统计与数据分析工具的个人观点如何,有大量证据表明,当统计学用于信息安全领域后,其影响力波及其他几乎所有科学领域。
除了显而易见的“从数据中学习”的方法之外,有一些更加深入的理由去集中提高你的统计技能。

  • 尽管数据从不说谎,被它欺骗却很容易。作为具有启发式思维的生命,我们拥有从周围世界中提出模式及含义的能力。这种发现隐蔽的联系及模式的能力通常很有益处,人们每天都会使用这种能力。然而需要注意的是,这种技能也可能会误导你,你可能会认为你看见了根本不存在的模式及联系。对统计的良好理解会使你更深层次地认识到这点,它的一些策略会使得这样的错误结论数量达到最低。
  • 尽管我们刚说过数据从不说谎,但是生成及收集数据的方法会产生欺骗性的结论。比如询问我们身边人们的看法会导致错误地肯定自身的观点,因为我们很自然地和志同道合的人聚集在一起,且想法趋同一致。数据本身可能并不具有欺骗性,但是它却容易导致人们联想到一些不相符的含义,就如1936年大选投票中的预测故事一样(请看下文“数据产生欺骗”)。

统计学并不仅是工具的集合,它是具有自己工具集的工具箱的集合。你可以从描述性统计开始,描述性统计将数据简化为描述数据某些方面的数字。举例来说,你可以通过计算均值、模、中位数以得到数据的中心,也可以通过标准差来描述数据的分散程度,可以使用偏斜度解释数据的对称性,也可以使用峰态描述峰宽。然而不管什么时候,只要你简化数据,都会在一定程度上失去数据的细节,这时候,可视化方法可以提供很好的服务。你使用可视化方法创建一段表述或者信息,这段信息包含并传达每个数据点,没有简化。我们将这种类型的可视化看作“描述性可视化”,因为它仅仅简单地描述数据。
除了过于简化的挑战之外,描述性统计局限于仅能描述你所收集到的数据。扫描少数几个系统然后计算漏洞的平均数,宣称统计数值描述了环境中的所有系统,这样的做法是不对的。推理统计可以帮助你更深入地研究数据,而不仅仅是描述观察值。当给你一个群体的较小代表性样本时,你可以对更大的群体做出推理说明。这里的关键词是“代表性”。统计学教会你“实验设计”(感谢Fisher以及他的同事们),它会帮助你收集数据,以便于你减少被数据误导的可能性。你当然希望收集的样本具有代表性,那么就使用正确的数据收集方法吧。在过去,很多人已经有过前车之鉴,千万不要重蹈覆辙。

数据产生的欺骗
《Literary Digest》杂志进行了一次民意测验,尝试预测1936年的总统竞选结果。他们通过电话簿、俱乐部会员身份以及杂志订阅信息收集人名单。结束测验时,回应信息已经超过200万份并且预测了一位似乎明显的胜利者:Alfred Landon(对于这些人来说,美国历史并没能如他们所愿,民主党候选人Roosevelt赢得了这场大选,他在46个州中胜出)。《Literary Digest》杂志的问题在测验之前就已经存在,故障出在数据的来源。注意这一年大选在1936年,此时美国的大萧条还没有结束。他们通过电话簿、俱乐部会员身份以及杂志订阅信息收集人名单,而这些人大体上属于中层及上层阶级,这些人普遍偏爱Landon,以至于得到的答案在数学方面正确而与实际完全不符。
数据没有说谎,如果他们想知道,在使用电话、俱乐部会员身份以及订阅杂志的美国人中,哪位总统候选人会获得最多选票,这些数据陈述了一个准确的故事。但是他们并非在寻找那个故事,他们想要知道的是美国所有已注册选民的看法。由于在选取数据样本来源时有偏差,导致加入了数据中根本不存在的含义。
他们拥有的史无前例的200万份回复的事实并不能帮助提高民意测验的准确度。当这样类似系统性的错误存在时,收集更多数据只会形成更大的偏差样本。为了彻底阐明这一观点,在同样的1936年选举中,一个叫George Gallup的年轻人收集了一份相对较小、仅有5万选民的样本,他应用了更多有代表性抽样方法,正确地预测了Roosevelt将会成为1936年选举的胜利者。几年以后,《Literary Digest》杂志停业,而Gallup Inc.现在已经成为一个国际性机构,仍然做调研以及收集数据的咨询。

应该始终以一种尊敬与谦卑的态度来对待统计学。当你不知不觉地慢慢进入应用数学的深处时,你会发现找到那些不存在的含义(学术上称作I类错误)有多容易。但是更重要的是要理解无论有无数据这种错误都会出现。这种错误甚至会出现于你填写Excel电子表格的一个空格之前,工具箱中最好的工具被设计用于限制这种类型错误出现的机会,但是单独的统计是不够的。你需要将经验与数据相结合以减少被误导的可能性。即使经验与数据相结合,这种错误仍可能出现。但是你可以通过应用严谨的作风以及方法来减少这种错误发生的频率。当这种错误真的出现时,这严谨的作风会把你放在一个更好的位置去从错误中学习。
我们已经建立了统计学应用的权威性,应该指出的是,即使没有高级的统计技术,你也可以从数据中学到很多内容。回想之前提到过的“描述性可视化”,花费一点时间看看周围的那些可视化的信息。它们通常不是从统计模型中建立,而是描述一些数据集并说明其中的关系。图1-1中Snow所绘的Board Street上水泵附近区域的图没有涉及逻辑回归以及机器学习。这幅图仅仅是地址与死亡间关系的可视化描述。毫无疑问,你可以使用简单的统计方法以及描述性可视化提高保护信息资产的能力。你所需要的只是提问、收集证据、做出清醒的认识以及将其传达给其他人的耐心。

相关文章
|
22天前
|
存储 安全 网络安全
APP 安全评估报告:直面移动应用安全威胁,守护用户数据安全
移动APP安全问题日益严重,包括数据泄露、恶意软件和权限滥用等威胁。例如,Ring App安全漏洞导致用户信息曝光,13款Android应用暴露大量用户数据。此外,工信部通报50款APP违规收集个人信息。安全评估是保障APP安全的关键,涉及代码安全、数据传输安全、用户权限管理和隐私保护等方面。经过评估,这款APP在所有方面表现出色,符合最高安全标准,确保用户隐私和数据安全。
31 2
|
29天前
|
SQL 安全 数据库
安全编码:守护数据安全
安全编码:守护数据安全
|
1月前
|
存储 安全 算法
【专栏】保护数据安全的重要性以及安全加密算法在数据保护中的应用
【4月更文挑战第27天】在数字化时代,数据安全至关重要,关系到个人隐私、企业商业机密、国家安全及经济发展。安全加密算法(如对称加密、非对称加密和哈希算法)在保护数据方面发挥关键作用。它们应用于电子商务、金融、物联网、云存储和数字签名等领域,确保信息传输和存储的安全。面对日益复杂的挑战,我们需要持续研究和应用加密技术,提高数据安全意识,共同维护数字世界的繁荣与安全。
|
1月前
|
存储 安全 算法
保护数据安全的重要性:安全加密算法在数据保护中的应用
在数字时代,数据的安全性越来越受到重视。本文将探讨安全加密算法作为一种关键的数据保护手段的重要性和应用。通过分析现有的加密算法和其在数据保护中的角色,我们可以更好地理解如何保护数据免受黑客攻击和隐私泄露。
|
7月前
|
SQL 数据可视化 数据挖掘
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——7. 自助分析:灵活分析,快速释放数据价值
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——7. 自助分析:灵活分析,快速释放数据价值
127 0
|
10月前
|
安全 关系型数据库 MySQL
MySQL安全与权限管理:保障数据安全与访问控制
本文深入探讨了MySQL数据库的安全与权限管理,通过详细的代码示例,介绍了用户与权限的概念,权限管理与访问控制的方法,以及数据库安全性策略的制定与实施。MySQL提供了强大的安全性功能,能够帮助管理员保护数据库的数据安全和限制用户的访问权限。了解如何创建用户、授予权限,以及如何制定数据库安全性策略,将使管理员能够有效地管理和保护数据库,降低潜在的安全风险。
574 0
|
11月前
|
安全 数据处理 数据安全/隐私保护
数据安全最佳实践(7):通过多级安全分类构建业务安全体系【Dataphin V3.11】
在DataphinV3.11版本中,我们支持了构建多级安全分类体系的能力,用于支持客户定制和使用行业化的数据分类分级体系。 同时我们支持了识别特征的管理,可以使用内置的手机、姓名等识别特征;也在安全模型中内置了通用行业模型,便于客户直接应用,实现对大部分个人敏感数据和部分业务数据的识别和保护。
872 1
|
安全 数据安全/隐私保护
阿里云产品体系分为6大分类——安全——安全的6种模块——数据安全
阿里云产品体系分为6大分类——安全——安全的6种模块——数据安全自制脑图
107 1
|
存储 数据采集 机器学习/深度学习
《阿里云云通信短信服务安全白皮书》——安全架构——四、 数据安全
《阿里云云通信短信服务安全白皮书》——安全架构——四、 数据安全
174 0
|
存储 安全 固态存储
OushuDB 小课堂丨最大限度地提高企业数据安全性:安全数据传输的终极指南
OushuDB 小课堂丨最大限度地提高企业数据安全性:安全数据传输的终极指南
43 0