搞定大数据:AI和机器学习在数据处理与保护上的应用

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本文讲的是搞定大数据:AI和机器学习在数据处理与保护上的应用,作为咨询师和顾问,有关各自数据、信息和网络安全事务时,重复“规模”问题挺有难度。

本文讲的是搞定大数据:AI和机器学习在数据处理与保护上的应用,作为咨询师和顾问,有关各自数据、信息和网络安全事务时,重复“规模”问题挺有难度。不幸的是,上市公司的“外行”总监和管理人员,以及政府高管,倾向于将“规模”(当它属于数据保护的时候)看做不好的东西,甚至是令人恐怖的事物。
image

原因部分在于,几乎没有什么实用的方法,可以向这些位置上的人解释:某组织的安全运营中心是有可能每天收到百万个“事件”,以及,同时处理和调查这些事件的固有潜在危害,以及,适度保证没有任何一起事件能够溜过安全人员的检测。

大数据分析作为商业工具是很妙的一招,因为我们可以将这些数字转换成“商业利益”。但大数据也是网络安全的需要(比如,使用网络流量、数据、传感器和其他反馈,帮助确定网络正常模式和异常现象),问题在于网络安全数据不太容易被转换成我们能轻易概念化的东西。

那么,我们产生多少大数据呢?我们又该怎样响应这些数据?有几个重要的基本问题必须得到很好的理解,否则更难的问题——我们怎样保护数据?就得不到解答了。

一、我们产生多少数据?

先从一个基本的概念开始:时至今日,数据意味着所有东西,无论是个人的,还是工作上的。我们生活中的方方面面,都已经转换成了这些“0”和“1”的组合。我们如今对数据的依赖是前所未有的,而且肯定还会越来越重,尤其是随着IoT的爆炸式发展。而我们产生的数据——无论好数据、坏数据、垃圾数据,也将持续增长(以惊人的速度),不断吞噬全球网络上的空间(意味着如果你能够控制小小一部分这些数据流,就能发动邪恶的DDoS攻击)。

那么,到底有多少数据以近光速游荡在网络中?2016年6月思科的一份白皮书揭示:全球IP流量已进入“泽字节(ZB:2^70字节)时代”。很好,但ZB是个什么鬼?(下文会有解释)

二、回到基本规律

为解答该问题,我们需要从一些基本规律开始,首先就是:人类是有认知限制的。在试图理解超级大或超级小的数字上,这种限制就特别明显了。我们可以使用计数符号来表示大数字,比如 1 ZB(泽字节)就是 1 x 10^21 字节。但是,这个计数法对你有任何意义吗?

把100万表示成 1 x 10^6 可能对你还有点意义,但那是因为我们对“100万”的实际意义有着更好的理解。可以用美元来概念化“100万”以创建一个参考点:你的年薪是 $50,000,工作20年,只存不花,那就能攒下100万美元了。看下表,可以给你的年薪来个“增幅”:

image

哪种表示法看起来更爽?$1 x 10^9 还是 $1,000,000,000?好吧,其实都一样的数额,但后面的一串“0”显然看起来舒服多了。而且,更重要的是,看着后一种表示法中的一串“0”,不仅可以帮助人类理解该数字,还能更好地理解这数字代表的意义。为什么呢?因为我们用单词代表数值,而这些数值必须被转换成可感知的某些东西,我们才能在日常生活和网络空间中加以使用,因为规模、符号和认知的限制,该问题变得更难了。

三、概念化ZB

我们知道十亿(10^9)是什么,但我们管10^21叫什么?1,000的7次幂?现在觉得有个称呼好点儿了么?未必!

想象一下我们可以捕捉的一瞬间,就2016年全球IP流量的一个快照吧——1泽字节。我们能把这类比成什么呢?

用下面的表格,我们用一些例子以类比的方式重写了这些数字,概念化一下我们实际处理的东西。

注:本例中用 1.28 ZB (有些数字四舍五入了),出于数学上的方便,完整写出数字时就用十进制值而非二进制了。不用过分纠结细节,至于技术宅,记得:更多的人说话方式是“非技术”的。让你的生活,以及他们的生活,更容易些吧,术语行话和烦人的细节什么的,能避免就避免。

尝试在脑海中具象化下面的数字:

image

*注:1 万亿米相当于1,000,000,000公里

如果地球到土星的距离对比很难概念化,不妨这么想:花8,000辈子一刻不停用脚走就走到了。如果这都还是难以想象,那就这样:128 GB 之于 1.28 ZB,相当于 20 美金的一张绿票票之于整个美国联邦债务——20万亿美元。于是,假设联邦债务以全球IP流量增长速率增加,到2020年美国总统大选之时,我们要讨论的就是46万亿的债务数字了。

四、概念化网络安全警报过程

那么,既然我们现在对数据产生和流量问题的规模有了更好的理解,我们就要考虑一下怎么管理了。

毫不意外的,被问到最大的安全事件响应挑战时,被调查的网络安全从业者中,36%的人称,“跟上安全警报的规模。”用上面20万亿美元来做类比,可以说,安全人员的任务就是每天从550亿美元中筛选,找出其中多少是合法的,有多少被盗了,有多少是被洗的,有多少是假钞。

FBI局长詹姆斯·科米在2014年 60 Minutes 的采访中对该问题给出了一个非常有用的描述(谈及中国网络攻击时说的):

实际上,他们没那么强。我把他们比作喝醉的盗贼。他们一路踢开大门,撞倒花瓶,再顺走你家电视机。他们仅仅是多劳多得而已。他们的策略似乎是:我们就是时时刻刻无处不在。而他们无法阻挡我们。
关键句是“时时刻刻无处不在”,因为这就是现状。同一份调查中,42%的受访者称自家公司忽略掉了相当大一部分的安全警报,因为他们完全跟不上警报的规模。当然,被警报淹没也存在无心之失的风险:“狼来了”太多次的后遗症。

但或许更令人担忧的数字是:34%的人称,1/4到一半的警报都被无视了,20%称一半到3/4的警报被无视,11%称超过3/4的安全警报被无视!额滴娘喂,这不就是无数大门被踢开,然后放任不管么。

再回到20万亿美元的对比,也就是每天要从550亿美钞中筛选的类比中。如果我们使用上述“忽略”数字,翻译过来就是:警报告诉我们有些不对劲的事情在发生,但我们太疲于应付了,我们不想拨冗查看价值150亿的日产警报。这可真是很多很多钱啊。

很不幸,该问题由来已久。警报忽略似乎与警报本身一样常见,而且如《思科2017年度网络安全报告》中揭示的:不到一半的合法警报切实触发了某种形式的修正,而仅不到1%的严重/关键警报被予以调查。2014年,企业每天处理10,000个警报;2016年,政府部门每天处理50,000个警报;谁知道2017年底随着IoT爆炸式发展我们每天要处理多少警报呢。

不幸的是,尽管有良好建议,比如设置目标、获取正确的信息、巩固整合等等,我们依然疲于奔命,因为我们还是没解决“规模”问题。哦,还有,我们是不是还没提到,有时候网络安全分析师每天只能搞定10个调查?这就是AI和机器学习可以大展拳脚的地方了(也是为什么专注于网络安全问题的AI初创公司,是最好利用我们当前越来越脆弱的状况的原因了)

五、到底意味着什么?

这意味着,我们还有很多工作要做,意味着如果没有AI和机器学习帮我们解决网络安全挑战——感觉上是两码事而实际上就一码事的东西(提示:网络安全+信息安全=数据安全),我们就一条道走到黑了。只要有人能命令并控制仅仅1%的全球IP网络流量,其后果都是灾难性的。

这想法听起来挺难以置信的,但很可能就真是这样,尤其是在想到IoT设备有多不安全(你的洗碗机有口令吗?),以及向移动设备的迁移分分钟都不停脚的时候。这意味着只会有越来越多的人连接本就不安全的设备WiFi网络。

这些困难不会变得更容易解决,特别是当我们持续产生数据,而黑客宣称可以在12小时内突破大多数目标的时候。因此,我们需要尽可能多的工具(比如AI/LM),但我们也需要清醒且坦诚地面对手头处理的对象。网络安全是个技术问题,也是人的问题,但我们人类自身却一直都理解错了这一点。对人类认知限制的认识,是领先对手和恶徒的重要一步。

原文发布时间为:四月 3, 2017
本文作者:nana
本文来自云栖社区合作伙伴安全牛,了解相关信息可以关注安全牛
原文链接:http://www.aqniu.com/learn/24007.html

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2天前
|
机器学习/深度学习 监控 算法
机器学习在图像识别中的应用:解锁视觉世界的钥匙
机器学习在图像识别中的应用:解锁视觉世界的钥匙
153 95
|
5天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
62 15
|
10天前
|
机器学习/深度学习 数据采集 运维
机器学习在运维中的实时分析应用:新时代的智能运维
机器学习在运维中的实时分析应用:新时代的智能运维
54 12
|
22天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
20天前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年11月】
大数据& AI 产品技术月刊【2024年11月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
26天前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
43 1
|
29天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
69 4
|
1月前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
207 5
|
1月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
117 1
|
1月前
|
机器学习/深度学习 数据采集 算法
隧道裂纹识别:基于计算机视觉与机器学习的应用分享
隧道裂纹的自动检测通过深度学习与计算机视觉技术实现,替代了传统人工检查,提高了检测精度与效率。本文介绍了一套完整的裂纹检测流程,包括图像采集、预处理、裂纹检测与标定、后处理及结果展示,提供了图像处理与深度学习模型的基本代码框架,旨在帮助读者掌握隧道裂纹检测的实际应用方法。