《数据驱动安全:数据安全分析、可视化和仪表盘》一1.2.4 统计学

本文涉及的产品
数据安全中心,免费版
简介:

本节书摘来异步社区《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第1章 ,第1.2.4节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.2.4 统计学

或许我们在这里有些偏向,但是捡拾起一些统计学知识几乎会改变你生活的每个方面。它不仅会改变你看待以及学习周围世界的方法,而且会使你自身变得更加有趣,甚至可能在身边的人们眼中更具魅力。严肃地说,虽然统计学(在这里我们把它作为一项技能进行讨论)是一个宽泛的主题,是很难喝到水的深水井。我们使用术语去描述逐渐演变的统计技术与方法集合,这些技术与方法现在已经演变成了(还在持续演变)尝试从数据中学习的状态。这些技能不但包括经典的统计学,还包括像数据挖掘以及机器学习这样的新技术。非常幸运的是,你可以从相当杰出的一代代人们的成功与失败中学到很多内容,这些人处理的数据和我们的数据非常相似,即使他们的计算器只是笔和纸,而我们使用的是电子电路。不管你对于统计与数据分析工具的个人观点如何,有大量证据表明,当统计学用于信息安全领域后,其影响力波及其他几乎所有科学领域。
除了显而易见的“从数据中学习”的方法之外,有一些更加深入的理由去集中提高你的统计技能。

  • 尽管数据从不说谎,被它欺骗却很容易。作为具有启发式思维的生命,我们拥有从周围世界中提出模式及含义的能力。这种发现隐蔽的联系及模式的能力通常很有益处,人们每天都会使用这种能力。然而需要注意的是,这种技能也可能会误导你,你可能会认为你看见了根本不存在的模式及联系。对统计的良好理解会使你更深层次地认识到这点,它的一些策略会使得这样的错误结论数量达到最低。
  • 尽管我们刚说过数据从不说谎,但是生成及收集数据的方法会产生欺骗性的结论。比如询问我们身边人们的看法会导致错误地肯定自身的观点,因为我们很自然地和志同道合的人聚集在一起,且想法趋同一致。数据本身可能并不具有欺骗性,但是它却容易导致人们联想到一些不相符的含义,就如1936年大选投票中的预测故事一样(请看下文“数据产生欺骗”)。

统计学并不仅是工具的集合,它是具有自己工具集的工具箱的集合。你可以从描述性统计开始,描述性统计将数据简化为描述数据某些方面的数字。举例来说,你可以通过计算均值、模、中位数以得到数据的中心,也可以通过标准差来描述数据的分散程度,可以使用偏斜度解释数据的对称性,也可以使用峰态描述峰宽。然而不管什么时候,只要你简化数据,都会在一定程度上失去数据的细节,这时候,可视化方法可以提供很好的服务。你使用可视化方法创建一段表述或者信息,这段信息包含并传达每个数据点,没有简化。我们将这种类型的可视化看作“描述性可视化”,因为它仅仅简单地描述数据。
除了过于简化的挑战之外,描述性统计局限于仅能描述你所收集到的数据。扫描少数几个系统然后计算漏洞的平均数,宣称统计数值描述了环境中的所有系统,这样的做法是不对的。推理统计可以帮助你更深入地研究数据,而不仅仅是描述观察值。当给你一个群体的较小代表性样本时,你可以对更大的群体做出推理说明。这里的关键词是“代表性”。统计学教会你“实验设计”(感谢Fisher以及他的同事们),它会帮助你收集数据,以便于你减少被数据误导的可能性。你当然希望收集的样本具有代表性,那么就使用正确的数据收集方法吧。在过去,很多人已经有过前车之鉴,千万不要重蹈覆辙。

数据产生的欺骗
《Literary Digest》杂志进行了一次民意测验,尝试预测1936年的总统竞选结果。他们通过电话簿、俱乐部会员身份以及杂志订阅信息收集人名单。结束测验时,回应信息已经超过200万份并且预测了一位似乎明显的胜利者:Alfred Landon(对于这些人来说,美国历史并没能如他们所愿,民主党候选人Roosevelt赢得了这场大选,他在46个州中胜出)。《Literary Digest》杂志的问题在测验之前就已经存在,故障出在数据的来源。注意这一年大选在1936年,此时美国的大萧条还没有结束。他们通过电话簿、俱乐部会员身份以及杂志订阅信息收集人名单,而这些人大体上属于中层及上层阶级,这些人普遍偏爱Landon,以至于得到的答案在数学方面正确而与实际完全不符。
数据没有说谎,如果他们想知道,在使用电话、俱乐部会员身份以及订阅杂志的美国人中,哪位总统候选人会获得最多选票,这些数据陈述了一个准确的故事。但是他们并非在寻找那个故事,他们想要知道的是美国所有已注册选民的看法。由于在选取数据样本来源时有偏差,导致加入了数据中根本不存在的含义。
他们拥有的史无前例的200万份回复的事实并不能帮助提高民意测验的准确度。当这样类似系统性的错误存在时,收集更多数据只会形成更大的偏差样本。为了彻底阐明这一观点,在同样的1936年选举中,一个叫George Gallup的年轻人收集了一份相对较小、仅有5万选民的样本,他应用了更多有代表性抽样方法,正确地预测了Roosevelt将会成为1936年选举的胜利者。几年以后,《Literary Digest》杂志停业,而Gallup Inc.现在已经成为一个国际性机构,仍然做调研以及收集数据的咨询。

应该始终以一种尊敬与谦卑的态度来对待统计学。当你不知不觉地慢慢进入应用数学的深处时,你会发现找到那些不存在的含义(学术上称作I类错误)有多容易。但是更重要的是要理解无论有无数据这种错误都会出现。这种错误甚至会出现于你填写Excel电子表格的一个空格之前,工具箱中最好的工具被设计用于限制这种类型错误出现的机会,但是单独的统计是不够的。你需要将经验与数据相结合以减少被误导的可能性。即使经验与数据相结合,这种错误仍可能出现。但是你可以通过应用严谨的作风以及方法来减少这种错误发生的频率。当这种错误真的出现时,这严谨的作风会把你放在一个更好的位置去从错误中学习。
我们已经建立了统计学应用的权威性,应该指出的是,即使没有高级的统计技术,你也可以从数据中学到很多内容。回想之前提到过的“描述性可视化”,花费一点时间看看周围的那些可视化的信息。它们通常不是从统计模型中建立,而是描述一些数据集并说明其中的关系。图1-1中Snow所绘的Board Street上水泵附近区域的图没有涉及逻辑回归以及机器学习。这幅图仅仅是地址与死亡间关系的可视化描述。毫无疑问,你可以使用简单的统计方法以及描述性可视化提高保护信息资产的能力。你所需要的只是提问、收集证据、做出清醒的认识以及将其传达给其他人的耐心。

相关文章
|
2月前
|
人工智能 安全 网络安全
揭秘!大模型私有化部署的全方位安全攻略与优化秘籍,让你的AI项目稳如磐石,数据安全无忧!
【10月更文挑战第24天】本文探讨了大模型私有化部署的安全性考量与优化策略,涵盖数据安全、防火墙配置、性能优化、容器化部署、模型更新和数据备份等方面,提供了实用的示例代码,旨在为企业提供全面的技术参考。
133 6
|
5月前
|
Kubernetes 安全 Cloud Native
解锁安全新纪元:利用服务网格Istio,打造全链路mTLS加密隧道,从入口网关到出口网关,守护数据安全的每一步
【8月更文挑战第2天】随着云原生技术的发展,服务网格(Service Mesh)如Istio已成为微服务架构的核心,通过双向TLS(mTLS)确保通信安全。首先,在Kubernetes部署Istio以管理服务通信。接着,配置入口网关实现所有入向流量的加密处理,防止数据泄露。最后,通过配置Sidecar代理如Envoy,确保服务网格安全访问外部mTLS服务,从而构建起全链路的数据安全防护。
97 11
|
6月前
|
存储 安全 数据安全/隐私保护
🔎Android安全攻防实战!守护你的应用数据安全,让用户放心使用!🛡️
【7月更文挑战第28天】在移动应用盛行的时代,确保Android应用安全性至关重要。本文以问答形式探讨了主要安全威胁(如逆向工程、数据窃取)及其对策。建议使用代码混淆、签名验证、数据加密等技术来增强应用保护。此外,还推荐了加密API、HTTPS通信、代码审计等措施来进一步加强安全性。综上所述,全面的安全策略对于构建安全可靠的应用环境必不可少。#Android #应用安全 #代码混淆 #数据加密
102 3
|
6月前
|
SQL 存储 安全
SQL安全深度剖析:守护数据安全的坚固防线
展望未来,随着技术的不断进步和攻击手段的不断翻新,SQL安全将面临更多的挑战。因此,我们需要持续关注SQL安全领域的最新动态和技术发展,并不断更新和完善我们的防护措施。同时,加强国际合作与信息共享也是提升全球SQL安全性的重要途径。让我们共同努力,为构建一个更加安全、可靠的数字化环境而奋斗。
|
7月前
|
存储 安全 网络安全
APP 安全评估报告:直面移动应用安全威胁,守护用户数据安全
移动APP安全问题日益严重,包括数据泄露、恶意软件和权限滥用等威胁。例如,Ring App安全漏洞导致用户信息曝光,13款Android应用暴露大量用户数据。此外,工信部通报50款APP违规收集个人信息。安全评估是保障APP安全的关键,涉及代码安全、数据传输安全、用户权限管理和隐私保护等方面。经过评估,这款APP在所有方面表现出色,符合最高安全标准,确保用户隐私和数据安全。
217 2
|
8月前
|
SQL 安全 数据库
安全编码:守护数据安全
安全编码:守护数据安全
|
8月前
|
存储 安全 算法
【专栏】保护数据安全的重要性以及安全加密算法在数据保护中的应用
【4月更文挑战第27天】在数字化时代,数据安全至关重要,关系到个人隐私、企业商业机密、国家安全及经济发展。安全加密算法(如对称加密、非对称加密和哈希算法)在保护数据方面发挥关键作用。它们应用于电子商务、金融、物联网、云存储和数字签名等领域,确保信息传输和存储的安全。面对日益复杂的挑战,我们需要持续研究和应用加密技术,提高数据安全意识,共同维护数字世界的繁荣与安全。
224 2
|
8月前
|
存储 安全 算法
保护数据安全的重要性:安全加密算法在数据保护中的应用
在数字时代,数据的安全性越来越受到重视。本文将探讨安全加密算法作为一种关键的数据保护手段的重要性和应用。通过分析现有的加密算法和其在数据保护中的角色,我们可以更好地理解如何保护数据免受黑客攻击和隐私泄露。
|
SQL 数据可视化 数据挖掘
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——7. 自助分析:灵活分析,快速释放数据价值
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——7. 自助分析:灵活分析,快速释放数据价值
160 0
|
安全 数据处理 数据安全/隐私保护
数据安全最佳实践(7):通过多级安全分类构建业务安全体系【Dataphin V3.11】
在DataphinV3.11版本中,我们支持了构建多级安全分类体系的能力,用于支持客户定制和使用行业化的数据分类分级体系。 同时我们支持了识别特征的管理,可以使用内置的手机、姓名等识别特征;也在安全模型中内置了通用行业模型,便于客户直接应用,实现对大部分个人敏感数据和部分业务数据的识别和保护。
966 1

热门文章

最新文章

下一篇
开通oss服务