机器学习自主解决安全威胁离我们还有多远?

简介:


0?wx_fmt=jpeg


曾经听见不止一次这样的问题:


机器学习会替代基于人工经验规则的安全解决方案么?

把这个问题放在去年来看,我们已经得到了非常多的讨论甚至是一些已经实际应用的解决方案,对于人工智能在安全以及其它各种对数据进行价值挖掘的场景下,大家都表现出了极高的兴趣与激情。

1.你希望机器学习帮助你解决什么问题?

这个问题实际上代表了我们对机器学习的期待,而绝大多数人包括笔者在内的回答可能都比较类似:

我希望机器学习算法能够帮助我更有效的挖掘数据内在价值,发现潜在未知问题,并且极大的节省人工成本;实际上有更偏激的想法是想把数据丢给模型算法,然后期待它可以告诉我所有我想知道的事情。

2.机器学习应用在安全场景下的担忧

笔者最初发现机器学习算法的应用并不是在安全领域,而是在电商精准营销的场景下,通过用户的一系列搜索、收藏、购买行为积累,预测一个新的用户可能更倾向于买什么商品从而进行推荐。

这与安全场景是有一定类似性的,同样也是通过用户的访问、登陆、购买行为对威胁进行预测,评估一个用户是否是坏人。但这两个场景又具有一个本质的不同:

在精准营销场景下,你预测错误推荐了一个用户他不喜欢的商品,用户并不会为此大发雷霆;但是如果你的算法错误的预测了一个坏人的身份,用户又因此而被锁定账号、封禁或被限制,影响的就不仅仅是用户的感受,同时也降低了信任甚至对其他用户产生负面影响,我们所承担的代价是不同的。

3.机器学习在当下更多的是一个驱动者

在有限条件的应用场景下,机器学习无论从效率还是效果上都有着惊人的表现,从下围棋到设计电路板,我们无法理解也无法解释为什么电脑能够做的又好又快。

安全场景下为什么去封禁一个IP或者取消一个订单是需要给业务部门合理的解释的,一个黑盒的逻辑最大的弊端就在于对于给出的结果合理性无法从常识角度来给出解释,你只能默认接受。

所以,我们看到应用了各类机器学习算法的安全解决方案往往会回避最终决策的步骤,而是交给人工进行再次确认或只做参考。由此笔者认为,现阶段机器学习更多的是一个驱动安全运营的角色。

4.数据质量决定了机器学习算法应用于安全场景的价值天花板,而安全运营则是决定了转化率

数据源就是机器学习算法的黄油和面包,没有高质量的数据喂进去很难指望有高价值的产出,而目前接入数据的思路主要有两种:

  • 一种是从企业现有数据中去做清洗和适配,这种方式对于集成双方都是一个非常痛苦的过程;

  • 另外一种是摒弃企业现有存量数据,通过JS、SDK等方式从底层通用环节重新搭建业务数据模型,这种方式会导致历史数据无法有效的应用。

从卖方来讲,希望后一种模式,因为降低了方案实施难度,复制性较强,产品形态简单。而从买方来讲,条件允许的情况下都希望前一种模式,因为可预期的产出价值最高。

两种想法冲撞的结果下,最终会寻求到一个平衡点,但这里存在一个特例,也是最近两年比较热的威胁情报+机器学习概念,区别于内部数据挖掘场景,威胁情报的数据大多都来自外部,服务提供方一次性接入数据便可以快速复制给多个客户,这无疑规避了一个客户一个处理方式的弊端。

但笔者认为,威胁情报如今可以快速聚集起大量数据的原因在于数据持有者变现意愿增强同时监管存在空白,之后还是存在很大的政策风险的。

而我们进一步来看机器学习应用所驱动的安全运营,“一人安全部”甚至没有安全运营是目前的普遍现状,在机器学习引入过之后发现依然需要大量的调优、协调、结果落地评估工作需要人工来完成,这种尴尬局面我认为在热度过后,今年会有更多的冷静思考,认识到:既然现在没有可以绝对替代人工完成风险决策的方案出现,那么安全运营这个角色就是不可或缺的,至少是在目前的过渡阶段。

5.机器学习的安全前景

经济增长往往都来自于生产效率的大幅提升,所以无论是在安全或是其他,机器学习的应用都已经表现出了可承诺的前景。

0?wx_fmt=jpeg

在这个过程中,低层次数据分析的人工角色会逐渐的被淘汰,而可有效链接数据与价值的高端人才将持续保持其竞争力,至少我们需要知道现阶段的机器学习算法并不能让我们放心的坐到一边喝咖啡,它自动解决所有问题,依然需要我们不断的给予正确的关注和培养,不是吗?

原文发布时间为:2017-03-16

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
12月前
|
机器学习/深度学习 存储 运维
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(1)
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(1)
174 0
|
12月前
|
机器学习/深度学习 存储 分布式计算
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(2)
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(2)
282 0
|
12月前
|
机器学习/深度学习 存储 运维
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(3)
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(3)
165 0
|
机器学习/深度学习 人工智能 自然语言处理
机器学习系统面临的安全攻击及其防御技术研究
近年来,随着当今计算机与相关通讯技术领域的技术高速化发展、数据量规模的呈现爆发式高速增长,以及个人计算机数据运算整合能力等的需求逐步的提升,基于机器学习技术发展的新一代人工智能应用得到奠定了人工智能长足地发展进步的理论基础。
249 0
|
机器学习/深度学习 人工智能 安全
机器之心对话张亚勤:机器学习对安全领域而言是把双刃剑
为了应对日益增长的安全威胁,该公司还在加大其对应各方面的研究投入,其中在人工智能方面的投入尤其突出。机器之心在拉斯维加斯最近举办的 DEF CON 黑客大会上采访了百度公司总裁张亚勤博士,本文为相关内容的中文版。
137 0
机器之心对话张亚勤:机器学习对安全领域而言是把双刃剑
|
机器学习/深度学习 存储 人工智能
机器学习如何应对金融网络犯罪 人工智能对于安全见解至关重要
在过去的几个月中,由于与冠状病毒有关的索赔,在这段巨大的压力下,失业系统盗窃了数百万美元。
|
机器学习/深度学习 人工智能 安全
|
4天前
|
机器学习/深度学习 自然语言处理 算法
机器学习算法原理与应用:深入探索与实战
【5月更文挑战第2天】本文深入探讨机器学习算法原理,包括监督学习(如线性回归、SVM、神经网络)、非监督学习(聚类、PCA)和强化学习。通过案例展示了机器学习在图像识别(CNN)、自然语言处理(RNN/LSTM)和推荐系统(协同过滤)的应用。随着技术发展,机器学习正广泛影响各领域,但也带来隐私和算法偏见问题,需关注解决。
|
5天前
|
机器学习/深度学习 运维 算法
【Python机器学习专栏】异常检测算法在Python中的实践
【4月更文挑战第30天】本文介绍了异常检测的重要性和在不同领域的应用,如欺诈检测和网络安全。文章概述了四种常见异常检测算法:基于统计、距离、密度和模型的方法。在Python实践中,使用scikit-learn库展示了如何实现这些算法,包括正态分布拟合、K-means聚类、局部异常因子(LOF)和孤立森林(Isolation Forest)。通过计算概率密度、距离、LOF值和数据点的平均路径长度来识别异常值。