机器学习自主解决安全威胁离我们还有多远?

简介:



曾经听见不止一次这样的问题:


机器学习会替代基于人工经验规则的安全解决方案么?

把这个问题放在去年来看,我们已经得到了非常多的讨论甚至是一些已经实际应用的解决方案,对于人工智能在安全以及其它各种对数据进行价值挖掘的场景下,大家都表现出了极高的兴趣与激情。

1.你希望机器学习帮助你解决什么问题?

这个问题实际上代表了我们对机器学习的期待,而绝大多数人包括笔者在内的回答可能都比较类似:

我希望机器学习算法能够帮助我更有效的挖掘数据内在价值,发现潜在未知问题,并且极大的节省人工成本;实际上有更偏激的想法是想把数据丢给模型算法,然后期待它可以告诉我所有我想知道的事情。

2.机器学习应用在安全场景下的担忧

笔者最初发现机器学习算法的应用并不是在安全领域,而是在电商精准营销的场景下,通过用户的一系列搜索、收藏、购买行为积累,预测一个新的用户可能更倾向于买什么商品从而进行推荐。

这与安全场景是有一定类似性的,同样也是通过用户的访问、登陆、购买行为对威胁进行预测,评估一个用户是否是坏人。但这两个场景又具有一个本质的不同:

在精准营销场景下,你预测错误推荐了一个用户他不喜欢的商品,用户并不会为此大发雷霆;但是如果你的算法错误的预测了一个坏人的身份,用户又因此而被锁定账号、封禁或被限制,影响的就不仅仅是用户的感受,同时也降低了信任甚至对其他用户产生负面影响,我们所承担的代价是不同的。

3.机器学习在当下更多的是一个驱动者

在有限条件的应用场景下,机器学习无论从效率还是效果上都有着惊人的表现,从下围棋到设计电路板,我们无法理解也无法解释为什么电脑能够做的又好又快。

安全场景下为什么去封禁一个IP或者取消一个订单是需要给业务部门合理的解释的,一个黑盒的逻辑最大的弊端就在于对于给出的结果合理性无法从常识角度来给出解释,你只能默认接受。

所以,我们看到应用了各类机器学习算法的安全解决方案往往会回避最终决策的步骤,而是交给人工进行再次确认或只做参考。由此笔者认为,现阶段机器学习更多的是一个驱动安全运营的角色。

4.数据质量决定了机器学习算法应用于安全场景的价值天花板,而安全运营则是决定了转化率

数据源就是机器学习算法的黄油和面包,没有高质量的数据喂进去很难指望有高价值的产出,而目前接入数据的思路主要有两种:

  • 一种是从企业现有数据中去做清洗和适配,这种方式对于集成双方都是一个非常痛苦的过程;

  • 另外一种是摒弃企业现有存量数据,通过JS、SDK等方式从底层通用环节重新搭建业务数据模型,这种方式会导致历史数据无法有效的应用。

从卖方来讲,希望后一种模式,因为降低了方案实施难度,复制性较强,产品形态简单。而从买方来讲,条件允许的情况下都希望前一种模式,因为可预期的产出价值最高。

两种想法冲撞的结果下,最终会寻求到一个平衡点,但这里存在一个特例,也是最近两年比较热的威胁情报+机器学习概念,区别于内部数据挖掘场景,威胁情报的数据大多都来自外部,服务提供方一次性接入数据便可以快速复制给多个客户,这无疑规避了一个客户一个处理方式的弊端。

但笔者认为,威胁情报如今可以快速聚集起大量数据的原因在于数据持有者变现意愿增强同时监管存在空白,之后还是存在很大的政策风险的。

而我们进一步来看机器学习应用所驱动的安全运营,“一人安全部”甚至没有安全运营是目前的普遍现状,在机器学习引入过之后发现依然需要大量的调优、协调、结果落地评估工作需要人工来完成,这种尴尬局面我认为在热度过后,今年会有更多的冷静思考,认识到:既然现在没有可以绝对替代人工完成风险决策的方案出现,那么安全运营这个角色就是不可或缺的,至少是在目前的过渡阶段。

5.机器学习的安全前景

经济增长往往都来自于生产效率的大幅提升,所以无论是在安全或是其他,机器学习的应用都已经表现出了可承诺的前景。

在这个过程中,低层次数据分析的人工角色会逐渐的被淘汰,而可有效链接数据与价值的高端人才将持续保持其竞争力,至少我们需要知道现阶段的机器学习算法并不能让我们放心的坐到一边喝咖啡,它自动解决所有问题,依然需要我们不断的给予正确的关注和培养,不是吗?

原文发布时间为:2017-03-16

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】集成语音与大型语音模型等安全边界探索
【机器学习】集成语音与大型语音模型等安全边界探索
267 5
|
5月前
|
机器学习/深度学习 数据采集 安全
【机器学习】安全领域:突破威胁检测的边界
【机器学习】安全领域:突破威胁检测的边界
78 1
|
6月前
|
机器学习/深度学习 数据采集 人工智能
关于防御机器学习模型攻击的安全措施
保护AI系统安全的关键是防御机器学习模型攻击。措施包括:数据预处理(规范化、去除异常值、平滑化)、输入验证过滤(边界检查、类型检查)、集成防御(多策略组合)、数据增强、监测记录模型行为和安全增强训练(对抗训练、鲁棒优化)。通过组合应用这些方法,如使用 Foolbox 检测过滤对抗样本、模型集成和对抗训练提升鲁棒性,可增强模型安全性。然而,安全措施需根据应用场景动态调整并配合专业团队实施。
|
6月前
|
机器学习/深度学习 数据采集 安全
一些关于防御机器学习模型攻击的安全措施
保护机器学习模型免受攻击的常见措施包括对抗样本检测过滤、模型集成验证、模型退化重训练、输入数据预处理、监测记录模型行为以及安全增强训练。例如,使用Foolbox库检测过滤对抗样本,通过模型集成平均多个模型的预测结果,定期退化模型模糊攻击者了解,使用对抗训练提升模型鲁棒性。同时,对输入数据预处理、监测模型输出和记录行为也是重要步骤。这些方法能增强模型安全性,但并非万无一失,需结合具体场景和专业安全团队实施。
|
机器学习/深度学习 存储 运维
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(1)
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(1)
241 0
|
机器学习/深度学习 存储 分布式计算
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(2)
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(2)
370 0
|
机器学习/深度学习 存储 运维
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(3)
《Apache Flink 案例集(2022版)》——3.机器学习——奇安信-如何设计信息安全领域的实时安全基线引擎(3)
213 0
|
机器学习/深度学习 人工智能 自然语言处理
机器学习系统面临的安全攻击及其防御技术研究
近年来,随着当今计算机与相关通讯技术领域的技术高速化发展、数据量规模的呈现爆发式高速增长,以及个人计算机数据运算整合能力等的需求逐步的提升,基于机器学习技术发展的新一代人工智能应用得到奠定了人工智能长足地发展进步的理论基础。
300 0
|
机器学习/深度学习 人工智能 安全
机器之心对话张亚勤:机器学习对安全领域而言是把双刃剑
为了应对日益增长的安全威胁,该公司还在加大其对应各方面的研究投入,其中在人工智能方面的投入尤其突出。机器之心在拉斯维加斯最近举办的 DEF CON 黑客大会上采访了百度公司总裁张亚勤博士,本文为相关内容的中文版。
151 0
机器之心对话张亚勤:机器学习对安全领域而言是把双刃剑
|
机器学习/深度学习 存储 人工智能
机器学习如何应对金融网络犯罪 人工智能对于安全见解至关重要
在过去的几个月中,由于与冠状病毒有关的索赔,在这段巨大的压力下,失业系统盗窃了数百万美元。

热门文章

最新文章