《数据驱动安全:数据安全分析、可视化和仪表盘》一1.3 以问题为中心-阿里云开发者社区

开发者社区> 华章计算机> 正文

《数据驱动安全:数据安全分析、可视化和仪表盘》一1.3 以问题为中心

简介: 本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第1章 ,第1.3节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
+关注继续查看

本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第1章 ,第1.3节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3 以问题为中心

尽管我们认为数据分析应该十分有趣,但是由于它本身特性,却从未如此。数据分析始终在一个更大的上下文内进行的,并且理解这个上下文是成功进行数据分析的关键,忽视了数据分析的上下文就如同赛跑的时候不关注终点线一样盲目,我们要清晰地认识从数据中学到的东西。总之,每一个良好的数据分析项目一开始就设定一个目标,并创建一个或多个研究问题(research question)。也许你已经遇到一个可视化或分析研究,并且疑惑“好了,可是要做什么呢?”,产生这样的反应有可能就是因为在分析中缺乏一个预设的研究问题。记住,数据分析的目的是从实际环境中来学习,学习的过程中数据可有可无(会取得不同程度的成功)。创建和跟进一个好的研究问题不仅仅是好的数据分析的组成部分,也是好的学习过程的一个组成部分。如果没有一个良好的研究问题来引导数据分析的过程,就可能把时间和精力浪费在从数据中寻求一些容易的答案,或者更糟糕的是,你可能只是在寻找一个无人关心的问题的答案。
例如,图1-4显示了某组织给定月份中垃圾邮件的数量和类别的对应关系。多亏一个邮件过滤系统生成的日志,才使收集和展示这些信息得以完成,但是该组织对于这些数据回答的问题(以及后续应采取的行动)却不太关心。很难想象有人看着这图表,并想“让我们来看看为什么12月份的旅游主题的垃圾邮件会上升”。如图1-4所示是失败地选择了或者略过了研究问题导致的,为了数据分析而数据分析,未能有助于提供给人们任何有意义的环境信息。
围绕垃圾邮件较好地一个研究问题可能是“在未被邮件过滤系统阻拦的垃圾邮件上,员工花费了多少时间?”仅计算有多少垃圾邮件被阻拦是没有价值的,因为它没有任何语境意义(没人可以估算1000与5000封垃圾邮件之间的效率差异),我们想知道垃圾邮件对员工生产率产生的影响。虽然生产率是难以直接度量的,我们可以转变一下,并且认为当员工在阅读和删除垃圾邮件的时候是没有工作效率的。因此,我们真正要度量的是员工在处理未过滤的垃圾邮件时所花的时间。
现在,研究问题被设计成这样:我们不能指望垃圾邮件过滤系统的日志来回答这个垃圾邮件相关的问题,并且我们真的不在乎上千的邮件被阻拦在外围或者什么样的邮件被阻拦。有研究问题在手,我们知道要收集度量员工的处理时间,或许可以看看邮件客户端在用户标记垃圾邮件时产生的事件日志,或许在选取部分用户做为样本时进行一个简单的调查,记录下他们在某段时间内收到的垃圾邮件数量以及花费在这些邮件上的时间。无论什么方法,这项分析工作的背景以及目的是根据研究问题来制定的,而不是源于我们可获取的数据。

image

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Win7系统删除网络驱动器盘符
公司项目切换服务器,之前服务器共享的盘符没法继续使用了,于是想把网络驱动器盘符图标给删掉: 删除方法: 单击「开始」,然后单击“运行”。 在“打开”框中,键入 cmd。 键入 net use Y: /delete 注意:其中 Y:是共享资源的驱动器号 命令执行完成后重启机器,搞定! 作者:jiankunking 出处:http://blo
3785 0
拒做背锅侠!如何利用网站性能优化驱动产品体验提升
对于运维工程师而言,如果要票选五大最抓狂运维支撑场景,花样繁多的各种促销活动一定榜上有名。每个促销季上线都是忐忑不安的不眠夜。大量内容更新、大量客户涌入,大量数据读写,虽有着各种技术方案或工具服务保障着大促顺利进行。但仍有可能收到譬如“商品图片加载不出来”、“页面打开缓慢”、“无法完成订单支付”等诸多各地用户投诉。这些由于用户体验与网站性能造成的用户转化低、业务增长缓慢等糟糕结果,最终都会让运维工程师成为“众望所归”的背锅侠。
236 0
8月14日云栖精选夜读:驱动行业未来20年发展 阿里巴巴AIR视频解说进入倒计时
2017年,阿里巴巴首次发布全球创新研究计划Alibaba Innovative Research,简称AIR。AIR计划旨在让全世界的科技人才在追逐世界的同时,用科技创造新的未来! 为了让更多参与者深入理解AIR(Alibaba Innovative Research)的研究课题,阿里巴巴近日宣布将在8月15日-16日围绕此前发布的课题进行AIR open day主题视频解说, 二十多位科研课题负责人将在视频中深度解析课题研究内容。
3336 0
拒做背锅侠!如何利用网站性能优化驱动产品体验提升
对于运维工程师而言,如果要票选五大最抓狂运维支撑场景,花样繁多的各种促销活动一定榜上有名。每个促销季上线都是忐忑不安的不眠夜。大量内容更新、大量客户涌入,大量数据读写,虽有着各种技术方案或工具服务保障着大促顺利进行。但仍有可能收到譬如“商品图片加载不出来”、“页面打开缓慢”、“无法完成订单支付”等诸多各地用户投诉。这些由于用户体验与网站性能造成的用户转化低、业务增长缓慢等糟糕结果,最终都会让运维工程师成为“众望所归”的背锅侠。
419 0
数据驱动的多策略聊天引擎
1. 聊天引擎做什么   聊天引擎是一款模拟人类对话或聊天的陪伴产品。接受用户的自然语言输入,返回可解释、承上启下、顺畅的自然语言句子。与问答引擎、专家系统等不同,聊天引擎重点在“侃”,不太关注如何解决用户的实际问题或者执行任务,而是关注如何能与用户进行天南地北的聊天,涉及的话题会很广,但
5949 0
Python数据分析之锁具装箱问题
问题重述 某厂生产一种弹子锁,其槽数高度可以用1到6中取5个来表示。其限制条件是:至少在5个中有3个不同的数;相邻槽的高度相差不能为5。在实际试验中,发现若二锁对应5个槽的高度中有4个相同,另一个差1则可能互开,否则,不可能互开。
857 0
一次数据库宕机问题的分析
今天来到办公室,发现有一台服务器中的数据库实例停掉了。这种情况真是意料之外,尤其是我还不是很熟悉这台机器的服务。 赶紧查看数据库日志,可以看到数据库在昨晚停掉了,从日志来看没有人为的痕迹。
1127 0
10059
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载