搞定大数据:AI和机器学习在数据处理与保护上的应用

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本文讲的是搞定大数据:AI和机器学习在数据处理与保护上的应用,作为咨询师和顾问,有关各自数据、信息和网络安全事务时,重复“规模”问题挺有难度。

本文讲的是搞定大数据:AI和机器学习在数据处理与保护上的应用,作为咨询师和顾问,有关各自数据、信息和网络安全事务时,重复“规模”问题挺有难度。不幸的是,上市公司的“外行”总监和管理人员,以及政府高管,倾向于将“规模”(当它属于数据保护的时候)看做不好的东西,甚至是令人恐怖的事物。
image

原因部分在于,几乎没有什么实用的方法,可以向这些位置上的人解释:某组织的安全运营中心是有可能每天收到百万个“事件”,以及,同时处理和调查这些事件的固有潜在危害,以及,适度保证没有任何一起事件能够溜过安全人员的检测。

大数据分析作为商业工具是很妙的一招,因为我们可以将这些数字转换成“商业利益”。但大数据也是网络安全的需要(比如,使用网络流量、数据、传感器和其他反馈,帮助确定网络正常模式和异常现象),问题在于网络安全数据不太容易被转换成我们能轻易概念化的东西。

那么,我们产生多少大数据呢?我们又该怎样响应这些数据?有几个重要的基本问题必须得到很好的理解,否则更难的问题——我们怎样保护数据?就得不到解答了。

一、我们产生多少数据?

先从一个基本的概念开始:时至今日,数据意味着所有东西,无论是个人的,还是工作上的。我们生活中的方方面面,都已经转换成了这些“0”和“1”的组合。我们如今对数据的依赖是前所未有的,而且肯定还会越来越重,尤其是随着IoT的爆炸式发展。而我们产生的数据——无论好数据、坏数据、垃圾数据,也将持续增长(以惊人的速度),不断吞噬全球网络上的空间(意味着如果你能够控制小小一部分这些数据流,就能发动邪恶的DDoS攻击)。

那么,到底有多少数据以近光速游荡在网络中?2016年6月思科的一份白皮书揭示:全球IP流量已进入“泽字节(ZB:2^70字节)时代”。很好,但ZB是个什么鬼?(下文会有解释)

二、回到基本规律

为解答该问题,我们需要从一些基本规律开始,首先就是:人类是有认知限制的。在试图理解超级大或超级小的数字上,这种限制就特别明显了。我们可以使用计数符号来表示大数字,比如 1 ZB(泽字节)就是 1 x 10^21 字节。但是,这个计数法对你有任何意义吗?

把100万表示成 1 x 10^6 可能对你还有点意义,但那是因为我们对“100万”的实际意义有着更好的理解。可以用美元来概念化“100万”以创建一个参考点:你的年薪是 $50,000,工作20年,只存不花,那就能攒下100万美元了。看下表,可以给你的年薪来个“增幅”:

image

哪种表示法看起来更爽?$1 x 10^9 还是 $1,000,000,000?好吧,其实都一样的数额,但后面的一串“0”显然看起来舒服多了。而且,更重要的是,看着后一种表示法中的一串“0”,不仅可以帮助人类理解该数字,还能更好地理解这数字代表的意义。为什么呢?因为我们用单词代表数值,而这些数值必须被转换成可感知的某些东西,我们才能在日常生活和网络空间中加以使用,因为规模、符号和认知的限制,该问题变得更难了。

三、概念化ZB

我们知道十亿(10^9)是什么,但我们管10^21叫什么?1,000的7次幂?现在觉得有个称呼好点儿了么?未必!

想象一下我们可以捕捉的一瞬间,就2016年全球IP流量的一个快照吧——1泽字节。我们能把这类比成什么呢?

用下面的表格,我们用一些例子以类比的方式重写了这些数字,概念化一下我们实际处理的东西。

注:本例中用 1.28 ZB (有些数字四舍五入了),出于数学上的方便,完整写出数字时就用十进制值而非二进制了。不用过分纠结细节,至于技术宅,记得:更多的人说话方式是“非技术”的。让你的生活,以及他们的生活,更容易些吧,术语行话和烦人的细节什么的,能避免就避免。

尝试在脑海中具象化下面的数字:

image

*注:1 万亿米相当于1,000,000,000公里

如果地球到土星的距离对比很难概念化,不妨这么想:花8,000辈子一刻不停用脚走就走到了。如果这都还是难以想象,那就这样:128 GB 之于 1.28 ZB,相当于 20 美金的一张绿票票之于整个美国联邦债务——20万亿美元。于是,假设联邦债务以全球IP流量增长速率增加,到2020年美国总统大选之时,我们要讨论的就是46万亿的债务数字了。

四、概念化网络安全警报过程

那么,既然我们现在对数据产生和流量问题的规模有了更好的理解,我们就要考虑一下怎么管理了。

毫不意外的,被问到最大的安全事件响应挑战时,被调查的网络安全从业者中,36%的人称,“跟上安全警报的规模。”用上面20万亿美元来做类比,可以说,安全人员的任务就是每天从550亿美元中筛选,找出其中多少是合法的,有多少被盗了,有多少是被洗的,有多少是假钞。

FBI局长詹姆斯·科米在2014年 60 Minutes 的采访中对该问题给出了一个非常有用的描述(谈及中国网络攻击时说的):

实际上,他们没那么强。我把他们比作喝醉的盗贼。他们一路踢开大门,撞倒花瓶,再顺走你家电视机。他们仅仅是多劳多得而已。他们的策略似乎是:我们就是时时刻刻无处不在。而他们无法阻挡我们。
关键句是“时时刻刻无处不在”,因为这就是现状。同一份调查中,42%的受访者称自家公司忽略掉了相当大一部分的安全警报,因为他们完全跟不上警报的规模。当然,被警报淹没也存在无心之失的风险:“狼来了”太多次的后遗症。

但或许更令人担忧的数字是:34%的人称,1/4到一半的警报都被无视了,20%称一半到3/4的警报被无视,11%称超过3/4的安全警报被无视!额滴娘喂,这不就是无数大门被踢开,然后放任不管么。

再回到20万亿美元的对比,也就是每天要从550亿美钞中筛选的类比中。如果我们使用上述“忽略”数字,翻译过来就是:警报告诉我们有些不对劲的事情在发生,但我们太疲于应付了,我们不想拨冗查看价值150亿的日产警报。这可真是很多很多钱啊。

很不幸,该问题由来已久。警报忽略似乎与警报本身一样常见,而且如《思科2017年度网络安全报告》中揭示的:不到一半的合法警报切实触发了某种形式的修正,而仅不到1%的严重/关键警报被予以调查。2014年,企业每天处理10,000个警报;2016年,政府部门每天处理50,000个警报;谁知道2017年底随着IoT爆炸式发展我们每天要处理多少警报呢。

不幸的是,尽管有良好建议,比如设置目标、获取正确的信息、巩固整合等等,我们依然疲于奔命,因为我们还是没解决“规模”问题。哦,还有,我们是不是还没提到,有时候网络安全分析师每天只能搞定10个调查?这就是AI和机器学习可以大展拳脚的地方了(也是为什么专注于网络安全问题的AI初创公司,是最好利用我们当前越来越脆弱的状况的原因了)

五、到底意味着什么?

这意味着,我们还有很多工作要做,意味着如果没有AI和机器学习帮我们解决网络安全挑战——感觉上是两码事而实际上就一码事的东西(提示:网络安全+信息安全=数据安全),我们就一条道走到黑了。只要有人能命令并控制仅仅1%的全球IP网络流量,其后果都是灾难性的。

这想法听起来挺难以置信的,但很可能就真是这样,尤其是在想到IoT设备有多不安全(你的洗碗机有口令吗?),以及向移动设备的迁移分分钟都不停脚的时候。这意味着只会有越来越多的人连接本就不安全的设备WiFi网络。

这些困难不会变得更容易解决,特别是当我们持续产生数据,而黑客宣称可以在12小时内突破大多数目标的时候。因此,我们需要尽可能多的工具(比如AI/LM),但我们也需要清醒且坦诚地面对手头处理的对象。网络安全是个技术问题,也是人的问题,但我们人类自身却一直都理解错了这一点。对人类认知限制的认识,是领先对手和恶徒的重要一步。

原文发布时间为:四月 3, 2017
本文作者:nana
本文来自云栖社区合作伙伴安全牛,了解相关信息可以关注安全牛
原文链接:http://www.aqniu.com/learn/24007.html

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
13天前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
189 13
|
23天前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
438 25
|
12天前
|
人工智能 算法 Java
Java与AI驱动区块链:构建智能合约与去中心化AI应用
区块链技术和人工智能的融合正在开创去中心化智能应用的新纪元。本文深入探讨如何使用Java构建AI驱动的区块链应用,涵盖智能合约开发、去中心化AI模型训练与推理、数据隐私保护以及通证经济激励等核心主题。我们将完整展示从区块链基础集成、智能合约编写、AI模型上链到去中心化应用(DApp)开发的全流程,为构建下一代可信、透明的智能去中心化系统提供完整技术方案。
130 3
|
12天前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
25天前
|
设计模式 机器学习/深度学习 人工智能
AI-Native (AI原生)图解+秒懂: 什么是 AI-Native 应用(AI原生应用)?如何设计一个 AI原生应用?
AI-Native (AI原生)图解+秒懂: 什么是 AI-Native 应用(AI原生应用)?如何设计一个 AI原生应用?
|
13天前
|
人工智能 JavaScript 前端开发
GenSX (不一样的AI应用框架)架构学习指南
GenSX 是一个基于 TypeScript 的函数式 AI 工作流框架,以“函数组合替代图编排”为核心理念。它通过纯函数组件、自动追踪与断点恢复等特性,让开发者用自然代码构建可追溯、易测试的 LLM 应用。支持多模型集成与插件化扩展,兼具灵活性与工程化优势。
67 6
|
24天前
|
人工智能 运维 安全
聚焦 AI 应用基础设施,云栖大会 Serverless AI 全回顾
2025 年 9 月 26 日,为期三天的云栖大会在杭州云栖小镇圆满闭幕。随着大模型技术的飞速发展,我们正从云原生时代迈向一个全新的 AI 原生应用时代。为了解决企业在 AI 应用落地中面临的高成本、高复杂度和高风险等核心挑战,阿里云基于函数计算 FC 发布一系列重磅服务。本文将对云栖大会期间 Serverless+AI 基础设施相关内容进行全面总结。
|
24天前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
104 14
|
2月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
96 0
|
3月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
109 4

热门文章

最新文章