大数据、计算和算法是人工智能的三大要素,如何保障数据安全和数据的清洁度,则成为提升智能产品安全性的关键因素。近日,BAT等互联网企业齐聚深圳,在2018 全球人工智能与机器人峰会(CCF-GAIR)上围绕智能安全等议题,进行了深入探讨。
6月30日,阿里巴巴安全部资深总监路全在2018 全球人工智能与机器人峰会(CCF-GAIR)上指出, 阿里已建成流量清洗智能防御系统治理“污染数据”问题。
作为受邀嘉宾,阿里巴巴安全部资深总监路全在参会时指出,人工智能带来更多可能的同时,也带来了诸多安全风险,尤其黑灰产正在使用“数据污染”、“数据中毒”等新型复杂化手段,与人工智能行业的正向发展进行激烈对抗。
他以人工智能汽车的安全问题举例称,除了“利用智能算法本身缺陷改变交通标志”或以“传统的黑客入侵渗透控制其他平民汽车”等方式,可以控制攻击智能汽车外,通过向智能设备云端或系统输入污染、中毒数据,同样可以用来攻击人工智能系统及设备。
其攻击原理是,人工智能都基于大数据算法来实现精准运算,最终产生实际行为,正是利用这一特性,对抗方可以输入一些受污染的数据“喂养”、“训练”人工智能系统,使其偏离正常的运算目标,最终产生失焦的运算行为,从而引发系列安全风险。
“黑灰产对抗方会用大量低级爬虫或低级流量,来试图爬取互联网公司的数据信息,他们明知低级爬虫很容易被杀掉,但仍会不惜成本投入。”路全解释称,这些低级爬虫样本产生的“污染数据”会影响和扭曲算法模型,最终他们还会利用少量掺杂其中的高级爬虫进行攻击。
“数据中毒的目的就是让机器学习模型不能覆盖正确的目标,从而使其防护失效。”路全表示,阿里安全已经建立起了双层防护机制,专门防护系统安全和防护数据污染。
“所有互联网公司必须警惕‘数据污染’这种攻击手段,因为由黑灰产发起的机器流量是数据污染的源头,为此阿里巴巴除了在传统网络安全上建立安全防御体系防御黑客入侵和渗透,阿里安全还建立了全新的流量清洗智能防御系统。”路全介绍,阿里巴巴建立的机器流量防控体系主要由三部分组成,其中包括相当于“眼睛”的检测模块;以及等同“大脑”的分类模型,还有辅助系统。
基于阿里巴巴拥有丰富的业态,阿里安全实验室在机器算法方面已有深入研究,由达摩院领衔的各大实验室也已研发出各种优秀算法,并应用于阿里生态的搜索、广告、IoT、客服等多个业务线。
“如果把AI视作一个正在茁壮成长的小孩,那么脏数据或数据污染就是病毒有害物,AI算法和机器学习是根据大量数据来进行的,如果数据被污染,就像小孩吃了不健康的东西。”路全形象地比喻说,“要像呵护孩子一样,去呵护我们的AI系统。”