本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第1章 ,第1.2.1节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.2.1 领域专业知识
一个数据科学家需要领域专业知识的事实应当是不言而喻的,也似乎是显而易见的,但只有在考虑更高的目标时,进行数据分析才有意义。你关于信息安全的经验将引导分析方向,提供数据的来龙去脉,并帮助将含义应用于结果。换言之,领域专业知识将有益于开始、中间和所有数据分析工作的终点。
为什么专业知识不应该成为拦路虎
我们很可能在这里白费口舌。如果你正在读这本书,那很可能你拥有领域专业知识并看到了信息安全领域中使用数据驱动方法的价值。因此,与其花精力讨论的数据分析领域的专业知识的优势,不如介绍一些你可能会遇到的专家(或持怀疑态度的领导)对数据分析工作的反对意见。
人比模型更聪明。有一些人认为,人总是会胜过算法(或统计数据,或模型),并且还有一些事实可以证明。比如教一个机器去抓住飞球是非常具有挑战性的。就像Kahneman和Klein在2009年的论文《Conditions for Intuitive Expertise: a Failure to Disagree》中指出,但是,决定何时人们的表现将优于算法在很大程度上依赖于任务的环境。如果环境是复杂的,并且反馈是延迟或不明确的,算法一般会胜过人类的判断。所以,问题就变成了,信息系统的安全性有多复杂,以及反馈有多清晰?当你更改或添加安全控制时,你收到多少关于它实际保护信息资产情况的回报?
结果是信息安全发生在一个非常复杂的环境下,但是,这并不意味着你把所有的鸡蛋都放在算法篮子里。意思是,你应该对任何纯粹靠人为判断的方法持怀疑态度,你应该设法加强和支持专家的意见。这不是将算法与人为判断进行比较,设立一个非此即彼的选择是不明智的,应比较纯粹的人为判断与结合了算法及数据分析的人为判断。你不想删除人的因素,但你应该对未经数据证实的观点持怀疑意见。在一个复杂的环境中,人的直觉和数据分析相结合,将产生最佳效果,并创造学习和稳固基础设施的最佳机会。
它仅仅是数据造假。这显示了对数据统计以及数据分析的普遍不信任环境,因为数据统计分析经常出于一些见不得人的动机被滥用以及误用(在某些情况下数据完全是捏造的)。在某种程度上,这种不信任是基于社会工程师极易获取的集体常识。即便如此,由于我们的目的是从数据中学习,我们就处于不一样的出发点。我们坐在一堆堆隐含很多信息和特征的数据面前,我们要去发现这些信息和特征。如果因为数据统计曾经被滥用我们就不使用数据分析,就如同因为汽车偶尔被用于接送服务而不再开车一样可笑。我们要习惯于将数据统计加入到我们的信息安全工具箱内。
并不是说数据分析是万无一失的,即便有时候数据分析产生了错误的结果,也许是因为错误的数据收集,或由欠专业的分析师操作,或源于处理过程中的错误,或仅仅是因为使用Excel(这种情况确也无法避免)。但是,将专业知识和具体数据相结合,就能够有效减少错误的发生。再次强调一下,减少错误的关键在于将数据分析和专业知识进行结合。
数据分析不是制造火箭的科学,这个说法有两个含义。第一个含义是,不管我们尝试解决什么问题,我们都可以用常识去解决它。这个观点可以追溯到我们在上文提出的“人比模型更聪明”,并且会议桌上的一群人不依赖数据分析就解决一个复杂的问题。但正如我们讨论到的,却也有必要在会议上为数据分析提供一席之地,因为有数据分析总比没有好。
上边这个说法的第二个含义就是,数据分析过于复杂且花费巨大(时间、金钱、资源)。这样的观点是完全错误的,这可能更担心在实际操作中会带来令人不爽的改变,而不是真正担心数据分析所花费的时间。数据分析的很多工具都是开源的(如果某些组织不愿意开源,那也会有大量的商业解决方案可以选择),而唯一需要付出的仅仅是花时间学习本书提到的一些数据分析的基本技术和方法。实际上,如果能够正确地将工具和经验进行结合的话,数据分析可以进行得非常迅速,甚至可以实时完成。
我们没有数据。另一种形式的反对意见提出,我们没有精确数据(这在风险分析中更为普遍)。反对数据的人认为“非完美数据即是毫无价值的”,并阻挠开展设计良好的实验。这个观点是虚假且害人的,如果我们只是等待着完美的数据,那么我们将会永远只是等待,并且漏掉了很多从数据中学习的机会。驳斥这个反对意见最重要的核心论点是,我们并不需要完美数据。我们仅仅需要可以从已有的混杂数据中学习的方法。正如Douglas Hubbard于2010年在其著作《How to Measure Anything》中提到的,“事实上,相比于预期,我们经常具有更多的数据,我们只需要更少的数据,并且可以更容易地通过观察从数据中获得更多的数据”。所以,一般来说,用于安全分析的数据是绝对存在的,通常情况是,它们正等着被收集起来呢。我们能对粗略的数据加适当的改动、收集,然后准确地分析数据。现代的数据分析方法已经解决了如何处理具有噪声的、不完备数据的问题。
我们会坠入黑暗。这是我们考虑的最后一个观点了。这个观点并不是那么强烈地反对数据分析,仅仅算一个障碍而已。当你在会议上被视为某个领域的专家时,大家就希望你能给出问题的解答,而当会议的问题不清晰、不确定的时候,就会产生冲突。数据分析恰恰要求适当的自我认知和人性,以便为自以为是的疑虑留有余地。即便你自信地宣称密码是满足一定复杂度若干位字符,但你永远不知道可用性和安全性之间的平衡点。人的信心是需要用人性平衡的,可以根据新的证据知识来更新一个人的观念。数据分析中的这个障碍并不主要局限于分析师,其他涉及分析的领域专家也同样面临自身的人性问题。毕竟并不是每个人都愿意听到“他的世界不是平的”。