开发者学堂课程【PAL 平台学习路线:机器学习入门到应用:人工智能在安全领域的思考与实践】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/855/detail/14128
人工智能在安全领域的思考与实践
内容介绍
一、AI 与安全的简介
二、如何使用 AI 技术让安全变得更智能
一、AI 与安全的简介
安全范畴很大,包括平时所指的以及业务分控相关职责,整个阿里巴巴的安全不止只是电商的安全,也包括文娱,物流,也包括本地生活,以及导航等基础设施的安全。不仅仅指国内业务的安全,也包括跨境安全。
给一组数据来说明,以2018年的天猫双十一为例,在213.5b的 GMV 背后,拦截了16亿恶意攻击,以及进行了超过400亿次保护动作,之所以举双十一这个例子,是因为面对如此大的交易量和访问量,无法做策略的更改,因此对大脑的稳定性、容错性、及异常突发情况的处理能力都会有很高的要求。
第二份数据是介绍我们在解决问题的同时磨练技术能力,并将安全用于赋能生态上的一些成果。最后一份数据是介绍阿里巴巴在 AI 赋能,知识产权保护上面的一些成果。
二、如何使用 AI 技术让安全变得更智能
接下来第二部分介绍一下如何使用 AI 技术让安全变得更智能。看待人工智能与安全的视角是安全与 AI 是可以相互促进的,AI使得安全更加智能,安全保障 AI 更加强大,正如前页所述,安全智能系统利用 AI 中的感知,认知,和决策能力去解决各类安全问题,比较有特色的是包含了一个保护层,解决代码和框架的漏洞和弱点挖掘,对抗样本防御等问题。
内容场景是比较典型的大量使用 AI 来解决问题的场景,包括相当多的计算机视觉任务和自然语言处理任务,这里的大多数任务不仅仅是单纯的在理想学术化的问题,更需要考虑在实际落地中结合客户对安全的需求。例如大多数情况下 OCR 的客户解决的问题是包括复杂的故语言,教学体,并且它们还没有足够多的样本来训练。
在目标检测场景,为了检测风险场景的漏洞为基本识别检测等问题更关注的是更弱的前背景背景柱,小目标,以及为平衡数据集下呈现更好的技术。
对于视频和直播这类既包含画面又包括语和文字的多媒体,更关注多模态和跨模态的融合问题,其中的一个关键问题在于如何能将两个模态中的表征向量映射到一个向量空间中去,例如在 AI2019上所做的工作那样,在数据充足的情况下,也许所有问题都不是问题,但安全场景特别关注小样本场景,又因为总是面临的突发情况,数据永远不能足够,最近大家开始重视问题,例如刚刚结束的ECCA2020 基于视觉归纳鲜艳的数据高效深度学习,也获得了该赛道的冠军,除了上述问题以外,人工智能在业务场景中落地有很多实际问题要解决,例如在数字场景需要人与货架的相互遮挡问题,如何从平面照片中恢复 3D 信息,以及在安全场景需要引入更多的传感器,例如国外温感镜头的正向表达的观点是实际场景非常复杂,需要深入利用并且整合多种技术打造完整解决方案,前面讲述了很多关于计算机视觉实用技术的问题。其实作为人工智能另外两个重要分支,自然语言处理以及行为分析同样重要,这里也展示了我们在知识产权保护方面的工作,可以看到除去 CV 以外,也扮演着重要的工作,知识产权原创保护的主要任务是发现电商平台中各种假冒,侵权和超时的商品,例如服饰图像的识别相对于通常的图像识别以外,需要客户因外材质带来的变形以及穿着在不同模特上的适应性,也有相关工作发表在相关论文上,从评价信息中提取消费者对货品质量的正确反馈也是非常重要的一环,这里涉及到非结构化文本的分析工作,里面的难点包括反分语气的识别,并行编译,以及适当力度的情感分析,另外非常重要的是关系和行为的分析,例如用途计算和与卷积发现网络中的异常各种维度综合的深且宽的架构,以及今天我们的算例需要支撑对改良日志的高效分析,这些都是风控治理业务中非常关键的要素,正要提出的问题是我们如果连风控这样关键的工作都大量依赖 AI,假使有一天 AI 面临攻击,该如何保障我们的业务,这也绝非危言耸听,早有专家指出,以深度学习为代表的人工智能存在很多缺陷,例如对抗样本的威胁,多度以来数据,以及AI滥用所带来的道德伦理问题,将 AI 威胁分为三个层次,第一类威胁是数据层面的攻击,包括深度伪造和虚假信息,训练数据的污染以及变形变异,第二类威胁是模型层面的攻击,包括各类黑盒白盒以及可被迁移的攻击,以及所选的代码的框架可能存在缺陷和洛洞,所有除去数据与模型层面的攻击都称为第三类威胁,事实上威胁无处不在,测试过一些关于 AI 的 OPEN API .事实证明只要花费不大的代价都有可能获得相当不错的成功率,再此提出了 AI 模型的三层保护架构,由内到外分别是在增强层通过容量从而增加面对对抗攻击的防御力,在过滤层通过对攻击信号,攻击线索来过滤掉大部分恶意攻击,在对外的防护层解决模型窃取防御代码漏洞和程序后门问题,防止该问题退化为白盒攻击问题,增加攻击的成本,这部分展示了在保护层的工作,即针对模型源码的保护和自动化的发现机制,这里展示了在过滤层的工作,包括对抗样本检测起来发现样本输入。
也有相关发现表明通过有线机身不同特征层次的情况我们更有把握判断输入样本的威胁,也有相关工作发表,在对抗训练前,发现的一个成果是你发现了数据自我表征之间的突出特征往往会具有更好的性能。