搞定大数据:AI和机器学习在数据处理与保护上的应用

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本文讲的是搞定大数据:AI和机器学习在数据处理与保护上的应用,作为咨询师和顾问,有关各自数据、信息和网络安全事务时,重复“规模”问题挺有难度。

本文讲的是搞定大数据:AI和机器学习在数据处理与保护上的应用,作为咨询师和顾问,有关各自数据、信息和网络安全事务时,重复“规模”问题挺有难度。不幸的是,上市公司的“外行”总监和管理人员,以及政府高管,倾向于将“规模”(当它属于数据保护的时候)看做不好的东西,甚至是令人恐怖的事物。
image

原因部分在于,几乎没有什么实用的方法,可以向这些位置上的人解释:某组织的安全运营中心是有可能每天收到百万个“事件”,以及,同时处理和调查这些事件的固有潜在危害,以及,适度保证没有任何一起事件能够溜过安全人员的检测。

大数据分析作为商业工具是很妙的一招,因为我们可以将这些数字转换成“商业利益”。但大数据也是网络安全的需要(比如,使用网络流量、数据、传感器和其他反馈,帮助确定网络正常模式和异常现象),问题在于网络安全数据不太容易被转换成我们能轻易概念化的东西。

那么,我们产生多少大数据呢?我们又该怎样响应这些数据?有几个重要的基本问题必须得到很好的理解,否则更难的问题——我们怎样保护数据?就得不到解答了。

一、我们产生多少数据?

先从一个基本的概念开始:时至今日,数据意味着所有东西,无论是个人的,还是工作上的。我们生活中的方方面面,都已经转换成了这些“0”和“1”的组合。我们如今对数据的依赖是前所未有的,而且肯定还会越来越重,尤其是随着IoT的爆炸式发展。而我们产生的数据——无论好数据、坏数据、垃圾数据,也将持续增长(以惊人的速度),不断吞噬全球网络上的空间(意味着如果你能够控制小小一部分这些数据流,就能发动邪恶的DDoS攻击)。

那么,到底有多少数据以近光速游荡在网络中?2016年6月思科的一份白皮书揭示:全球IP流量已进入“泽字节(ZB:2^70字节)时代”。很好,但ZB是个什么鬼?(下文会有解释)

二、回到基本规律

为解答该问题,我们需要从一些基本规律开始,首先就是:人类是有认知限制的。在试图理解超级大或超级小的数字上,这种限制就特别明显了。我们可以使用计数符号来表示大数字,比如 1 ZB(泽字节)就是 1 x 10^21 字节。但是,这个计数法对你有任何意义吗?

把100万表示成 1 x 10^6 可能对你还有点意义,但那是因为我们对“100万”的实际意义有着更好的理解。可以用美元来概念化“100万”以创建一个参考点:你的年薪是 $50,000,工作20年,只存不花,那就能攒下100万美元了。看下表,可以给你的年薪来个“增幅”:

image

哪种表示法看起来更爽?$1 x 10^9 还是 $1,000,000,000?好吧,其实都一样的数额,但后面的一串“0”显然看起来舒服多了。而且,更重要的是,看着后一种表示法中的一串“0”,不仅可以帮助人类理解该数字,还能更好地理解这数字代表的意义。为什么呢?因为我们用单词代表数值,而这些数值必须被转换成可感知的某些东西,我们才能在日常生活和网络空间中加以使用,因为规模、符号和认知的限制,该问题变得更难了。

三、概念化ZB

我们知道十亿(10^9)是什么,但我们管10^21叫什么?1,000的7次幂?现在觉得有个称呼好点儿了么?未必!

想象一下我们可以捕捉的一瞬间,就2016年全球IP流量的一个快照吧——1泽字节。我们能把这类比成什么呢?

用下面的表格,我们用一些例子以类比的方式重写了这些数字,概念化一下我们实际处理的东西。

注:本例中用 1.28 ZB (有些数字四舍五入了),出于数学上的方便,完整写出数字时就用十进制值而非二进制了。不用过分纠结细节,至于技术宅,记得:更多的人说话方式是“非技术”的。让你的生活,以及他们的生活,更容易些吧,术语行话和烦人的细节什么的,能避免就避免。

尝试在脑海中具象化下面的数字:

image

*注:1 万亿米相当于1,000,000,000公里

如果地球到土星的距离对比很难概念化,不妨这么想:花8,000辈子一刻不停用脚走就走到了。如果这都还是难以想象,那就这样:128 GB 之于 1.28 ZB,相当于 20 美金的一张绿票票之于整个美国联邦债务——20万亿美元。于是,假设联邦债务以全球IP流量增长速率增加,到2020年美国总统大选之时,我们要讨论的就是46万亿的债务数字了。

四、概念化网络安全警报过程

那么,既然我们现在对数据产生和流量问题的规模有了更好的理解,我们就要考虑一下怎么管理了。

毫不意外的,被问到最大的安全事件响应挑战时,被调查的网络安全从业者中,36%的人称,“跟上安全警报的规模。”用上面20万亿美元来做类比,可以说,安全人员的任务就是每天从550亿美元中筛选,找出其中多少是合法的,有多少被盗了,有多少是被洗的,有多少是假钞。

FBI局长詹姆斯·科米在2014年 60 Minutes 的采访中对该问题给出了一个非常有用的描述(谈及中国网络攻击时说的):

实际上,他们没那么强。我把他们比作喝醉的盗贼。他们一路踢开大门,撞倒花瓶,再顺走你家电视机。他们仅仅是多劳多得而已。他们的策略似乎是:我们就是时时刻刻无处不在。而他们无法阻挡我们。
关键句是“时时刻刻无处不在”,因为这就是现状。同一份调查中,42%的受访者称自家公司忽略掉了相当大一部分的安全警报,因为他们完全跟不上警报的规模。当然,被警报淹没也存在无心之失的风险:“狼来了”太多次的后遗症。

但或许更令人担忧的数字是:34%的人称,1/4到一半的警报都被无视了,20%称一半到3/4的警报被无视,11%称超过3/4的安全警报被无视!额滴娘喂,这不就是无数大门被踢开,然后放任不管么。

再回到20万亿美元的对比,也就是每天要从550亿美钞中筛选的类比中。如果我们使用上述“忽略”数字,翻译过来就是:警报告诉我们有些不对劲的事情在发生,但我们太疲于应付了,我们不想拨冗查看价值150亿的日产警报。这可真是很多很多钱啊。

很不幸,该问题由来已久。警报忽略似乎与警报本身一样常见,而且如《思科2017年度网络安全报告》中揭示的:不到一半的合法警报切实触发了某种形式的修正,而仅不到1%的严重/关键警报被予以调查。2014年,企业每天处理10,000个警报;2016年,政府部门每天处理50,000个警报;谁知道2017年底随着IoT爆炸式发展我们每天要处理多少警报呢。

不幸的是,尽管有良好建议,比如设置目标、获取正确的信息、巩固整合等等,我们依然疲于奔命,因为我们还是没解决“规模”问题。哦,还有,我们是不是还没提到,有时候网络安全分析师每天只能搞定10个调查?这就是AI和机器学习可以大展拳脚的地方了(也是为什么专注于网络安全问题的AI初创公司,是最好利用我们当前越来越脆弱的状况的原因了)

五、到底意味着什么?

这意味着,我们还有很多工作要做,意味着如果没有AI和机器学习帮我们解决网络安全挑战——感觉上是两码事而实际上就一码事的东西(提示:网络安全+信息安全=数据安全),我们就一条道走到黑了。只要有人能命令并控制仅仅1%的全球IP网络流量,其后果都是灾难性的。

这想法听起来挺难以置信的,但很可能就真是这样,尤其是在想到IoT设备有多不安全(你的洗碗机有口令吗?),以及向移动设备的迁移分分钟都不停脚的时候。这意味着只会有越来越多的人连接本就不安全的设备WiFi网络。

这些困难不会变得更容易解决,特别是当我们持续产生数据,而黑客宣称可以在12小时内突破大多数目标的时候。因此,我们需要尽可能多的工具(比如AI/LM),但我们也需要清醒且坦诚地面对手头处理的对象。网络安全是个技术问题,也是人的问题,但我们人类自身却一直都理解错了这一点。对人类认知限制的认识,是领先对手和恶徒的重要一步。

原文发布时间为:四月 3, 2017
本文作者:nana
本文来自云栖社区合作伙伴安全牛,了解相关信息可以关注安全牛
原文链接:http://www.aqniu.com/learn/24007.html

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
12天前
|
人工智能 分布式计算 DataWorks
大数据&AI产品月刊【2024年8月】
大数据& AI 产品技术月刊【2024年8月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
15天前
|
机器学习/深度学习 数据可视化 大数据
阿里云大数据的应用示例
阿里云大数据应用平台为企业提供高效数据处理与业务洞察工具,涵盖Quick BI、DataV及PAI等核心产品。DT203课程通过实践教学,帮助学员掌握数据可视化、报表设计及机器学习分析技能,提升数据驱动决策能力。Quick BI简化复杂数据分析,DataV打造震撼可视化大屏,PAI支持全面的数据挖掘与算法应用。课程面向CSP、ISV及数据工程师等专业人士,为期两天,结合面授与实验,助力企业加速数字化转型。完成课程后,学员将熟练使用阿里云工具进行数据处理与分析。[了解更多](https://edu.aliyun.com/training/DT203)
|
17天前
|
消息中间件 SQL 大数据
Hologres 在大数据实时处理中的应用
【9月更文第1天】随着大数据技术的发展,实时数据处理成为企业获取竞争优势的关键。传统的批处理框架虽然在处理大量历史数据时表现出色,但在应对实时数据流时却显得力不从心。阿里云的 Hologres 是一款全托管、实时的交互式分析服务,它不仅支持 SQL 查询,还能够与 Kafka、MaxCompute 等多种数据源无缝对接,非常适合于实时数据处理和分析。
47 2
|
23天前
|
人工智能 分布式计算 数据处理
Big Data for AI实践:面向AI大模型开发和应用的大规模数据处理套件
文叙述的 Big Data for AI 最佳实践,基于阿里云人工智能平台PAI、MaxCompute自研分布式计算框架MaxFrame、Data-Juicer等产品和工具,实现了大模型数据采集、清洗、增强及合成大模型数据的全链路,解决企业级大模型开发应用场景的数据处理难题。
|
20天前
|
数据采集 人工智能 安全
AI大数据处理与分析实战--体育问卷分析
本文是关于使用AI进行大数据处理与分析的实战案例,详细记录了对深圳市义务教育阶段学校“每天一节体育课”网络问卷的分析过程,包括数据概览、交互Prompt、代码处理、年级和学校维度的深入分析,以及通过AI工具辅助得出的分析结果和结论。
|
25天前
|
分布式计算 搜索推荐 物联网
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
|
26天前
|
分布式计算 大数据 数据处理
Apache Spark的应用与优势:解锁大数据处理的无限潜能
【8月更文挑战第23天】Apache Spark以其卓越的性能、易用性、通用性、弹性与可扩展性以及丰富的生态系统,在大数据处理领域展现出了强大的竞争力和广泛的应用前景。随着大数据技术的不断发展和普及,Spark必将成为企业实现数字化转型和业务创新的重要工具。未来,我们有理由相信,Spark将继续引领大数据处理技术的发展潮流,为企业创造更大的价值。
|
25天前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
|
27天前
|
存储 人工智能 算法
AI与大数据的结合:案例分析与技术探讨
【8月更文挑战第22天】AI与大数据的结合为各行各业带来了前所未有的机遇和挑战。通过具体案例分析可以看出,AI与大数据在电商、智能驾驶、医疗等领域的应用已经取得了显著成效。未来,随着技术的不断进步和应用场景的不断拓展,AI与大数据的结合将继续推动各行业的创新与变革。
|
17天前
|
大数据 数据处理 分布式计算
JSF 逆袭大数据江湖!看前端框架如何挑战数据处理极限?揭秘这场技术与勇气的较量!
【8月更文挑战第31天】在信息爆炸时代,大数据已成为企业和政府决策的关键。JavaServer Faces(JSF)作为标准的 Java Web 框架,如何与大数据技术结合,高效处理大规模数据集?本文探讨大数据的挑战与机遇,介绍 JSF 与 Hadoop、Apache Spark 等技术的融合,展示其实现高效数据存储和处理的潜力,并提供示例代码,助您构建强大的大数据系统。
25 0

热门文章

最新文章