本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第1章 ,第1.31节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.3.1 创建一个好的研究问题
创建一个好的研究问题是相对简单的,但是它需要一点实践经验、关键的想法以及一些原则。大多数研究问题将要作为决策或者行动(亦或不行动)的判断依据,了解研究问题的结果的上下文含义有助于确定什么是需要收集的。我们回到之前垃圾邮件的例子,也许你知道浪费的时间有一定量的容忍额度,那么你就不需要知道有多少时间被浪费在垃圾邮件的处理上,而仅仅是了解浪费的时间量是多于或少于这个容忍度。用这些信息来规划整个数据分析可以改变数据的获取,或者简化数据存储以及分析。
开始数据分析的时候,往往分析者心中已经有些分析主题了。可能你在记录某项技术变革带来的可能的益处,也许你在试着保护一项特定的资产或者数据类型,也许只是简单地想提升数据在网段内的可见性。即便你仅仅有一个一般的方向感,你也可以提出一系列你想了解的问题或者东西来展开工作。一旦你拥有了好的研究问题的列表,你就可以将这些问题削减到一个或者少数几个相关联的问题。现在有趣的事情才刚开始,即将这些问题目标化。
看看下面这个简单的例子。人力资源部门提议将公司的午餐菜单从公司咖啡厅移至互联网(the Internet)供员工查询。虽然这可能引起各种各样的有关控制、流程以及规程的问题,假设这项提议主要的安全决策只是局限到允许企业用户通过密码访问,或购买更昂贵的双因素认证机制。应通过头脑风暴考虑这样一个问题,“单因素认证意味着多大的安全风险?”,或者考虑“双因素认证机制的效果如何?”。这类问题是很好的,并且适合形成研究问题的初始阶段,但是却不太适合正式的数据分析,可努力收集问题里提到的“风险”和“效果”的相关证据。所以你必须将这些问题转换得更具体、可度量,作为可支撑上下文中的决策或行动的一个论据。还可以调查有多少服务需要进行单因素或者双因素认证,调查有多少服务已经遭受了攻击以及哪些被攻击成功等问题。也许你有机会接触到一个蜜罐,并且可以研究和勾勒出一个基于互联网的暴力破解尝试的概要。还可以看看微软的Outlook Web Access的企业实例,并勾勒出针对该资产的认证攻击的概要。这些都是很好的研究问题,很适合用数据分析来解答,能产生有助于决策的分析结果。