人工智能比智能更人工
2022年6月,微软发布了微软责任人工智能标准v2,其发布目的是“定义负责任人工智能的产品开发需求”。也许令人感到惊讶,该文件只提到了人工智能中的一种偏差,即微软的算法开发人员需要意识到,过度依赖人工智能的用户可能会提出的问题(亦称为“自动化歧视”)。
简而言之,微软似乎更关心用户针对其产品的看法,而不是产品实际上对用户产生的不利影响。这是良好的商业责任(不要对我们的产品说任何负面的话),但社会责任较差(有许多例子表明算法歧视对个人或个人群体产生负面影响)。
商业人工智能有三个尚未解决的主要问题:
隐藏的偏差造成虚假结果;
被用户或攻击者滥用的可能性;
算法返回太多的误报,以至于抵消了自动化的价值。
学术界的担忧
当人工智能首次被引入网络安全产品时,它被描述为防护银弹。毫无疑问,AI肯定有它的价值,但随着一些出错的算法、隐藏的歧视,以及罪犯对AI的滥用,甚至是执法和情报机关对隐私窥探,反对AI的声音越来越强烈。
根据在2022年6月6日《科学美国人》的说法,问题在于一门仍在发展的科学的商业化:
人工智能领域最大的研究团队不在学术界,而是出现在企业中。在学术界,同行评议是王道。与大学不同,企业没有公平竞争的动机。他们不是将新的学术论文提交学术审查,而是通过新闻稿吸引记者,并跨过同行评议流程。我们只知道企业想让我们知道的。
--纽约大学心理学和神经科学教授加里·马库斯
结果就是,我们只听到了人工智能的积极方面,但没有听到人工智能的消极方面。
乔治敦法学院隐私与技术中心执行主任艾米莉·塔克也得出了类似的结论:“从今天开始,我们中心将停止在工作中使用术语‘人工智能’、‘AI’和‘机器学习’,以暴光并减轻数字技术在个人和社区生活中的危害……作为获得资本的一种战略手段,科技公司如此成功地扭曲图灵测试的原因之一,在于政府渴望获得科技所赋予的无处不在的监督权。这种监督权行使起来方便、成本也相对便宜,并且可以通过规避民主决策或监督的采购流程获得。”
简而言之,对利润的追求阻碍了人工智能的科学发展。面对这些担忧,我们需要问问自己,是否可以相信产品中的人工智能输出的是准确的信息和没有偏差的判断,而不是被人们、罪犯,甚至是政府所滥用。
人工智能的失败
案例1:一辆特斯拉自动驾驶汽车直接驶向一名手持停车标志的工人,只有在司机进行干预时才会减速。原因在于,人工智能被训练识别人类和识别停车标志,但没有被训练识别携带停车标志的人类。
案例2:2018年3月18日,一辆优步自动驾驶汽车撞死了一名推着自行车的行人。根据NBC当时的说法,人工智能无法“将物体归类为行人,除非该物体靠近人行横道”。
案例3:2020年英国新冠肺炎封闭期间,学生们的考试成绩由人工智能算法来评判。大约40%的学生成绩比预期的要低得多。这是因为,算法过分重视各学校的历史成绩。因此,相比其他学校,私立学校和以前成绩优异的公立学校的学生获得了很大的评分优势。
案例4:Tay是微软于2016年在Twitter上推出的一款人工智能聊天机器人,通过模仿真实人类的语言,Tay的目标是成为一个可以理解俚语的智能交互系统。但在短短的16个小时的真人互动之后,Tay就被迫下线。它在推特上写道“希特勒憎恨犹太人是正确的”。
案例5:选择候选人。亚马逊希望AI帮助其自动选择填补职位空缺的候选人,但该算法的结果是性别歧视和种族歧视,偏向白人、男性。
案例6:错误的身份。新冠疫情封闭期间,一支苏格兰足球队在线直播了一场比赛,使用的是基于人工智能的摄像头跟踪足球。但这个AI拍摄系统不断地把边裁的光头当做足球,拍摄焦点总是集中在这位边裁身上,而不是比赛。
案例7:申请拒绝。2016年一位母亲申请昏迷半年后醒来的儿子搬进她所居住的公寓,却遭到住房中心的拒绝。儿子被送到康复中心一年之后,才通过律师弄清原因。住房中心使用的人工智能认为儿子有盗窃记录,所以将其列入住房黑名单。但实际上儿子一直卧病在床,根本无法实施犯罪。
类似的例子还有很多,究其原因无非两种,一是由意外偏差引起的设计失败,二是学习失败。自动驾驶汽车的案例是学习失败。虽然随着学习次数的增加可以校正错误,但在校正之前,一旦投入使用可能要付出沉重的代价。但如果想完全避免风险的话,意味着永远也无法投入使用。
案例3和案例5则属于设计失败,意料之外的偏差扭曲了结果。问题在于,开发人员是否能够在不知道自己存在偏见的情况下,去除他们的偏见。
人工智能的误用和滥用
误用意味着人工智能的应用效果并非开发人员的本意。滥用则意味着故意去做,例如污染喂给人工智能的数据。一般而言,误用通常由AI产品所有者的行为,而滥用往往涉及第三方(如网络罪犯)的行为,导致产品受到并非所有者本意的操纵。我们先来看看误用的情况。
误用
Vectra AI的研究负责人Kazerounian认为,当人类开发的算法试图对其他人进行判断时,隐藏的偏差是不可避免的。比如在信用申请和租赁申请方面,美国有着悠久的红线和种族主义历史,这些歧视政策在基于人工智能的自动化之前早已存在。
而且,当偏见深入到人工智能算法中时,比起人的偏见,更难发现和理解。“你也许可以在深度学习模型中看到矩阵运算得出的分类结果。但人们只能解释运算的机制,却解释不了原因。它只是解释了机制。我认为,站在更高的层面上,我们必须问的是,有些事适合交给人工智能去做吗?”
2022年5月11日,麻省理工学院与哈佛大学发表在《柳叶刀》上的一项研究,证实了人们无法理解深度学习是如何得出结论的。该研究发现,人工智能仅依靠医学图像(如X射线和CT扫描),就能够识别种族,但没有人知道AI是如何做到这一点的。再往后想一下,在确定患者的人种、族裔、性别甚至是否被监禁等方面,AI医疗系统的做法可能要远超我们的想象。
哈佛医学院医学副教授、作者之一安东尼·塞利评论道,“仅仅因为你的算法中有不同群体的表征(数据的质量和有效性),并不能保证它可以永远如此,也不能保证它会放大已有的差异和不平等。用表征学习为算法提供更多数据并非万灵药。这篇论文应该让我们停下来,真正重新考虑我们是否准备好将人工智能应用在临床诊断。”
这个问题也波及到了网络安全领域。2022年4月22日,微软在其产品路线图中添加了一个名为“离职者分类器”的功能。该产品预计将于2022月9月上市。“离职者分类器可以早期检测出意图离开组织的员工,以减少由于员工离职带来的有意或无意的数据泄露风险。”
当有媒体尝试以人工智能与个人隐私为主题采访微软时,却得到了这样的回答:“微软目前没有什么可以分享的,但如果有新消息我们会让你及时了解。”
在伦理方面,必须考虑的是,用AI来做离职的意图推测,是否是对技术的正确使用。至少大多数人认为,通过监控通信来确定某人是否正在考虑离职,是一件正确或合适的事情,尤其是结果可能造成负面影响。
而且,算法中的意外偏差很难避免,甚至更难检测。既然预测某人是否会离职,连人类都难以有效判断个人动机,为什么人工智能系统就不会犯错呢?而且,人们在工作中的沟通有着各种说话的方式,假设、玩笑、气愤,或者谈论他人。即便是去招聘网站更新简历,也可能只是脑中的一个闪念。一旦被机器学习判定为高离职可能性的员工,那就很可能在经济衰退时首先要解雇的人员,并与加薪或升职无缘。
还有一个更为广泛的可能性。如果企业可以拥有这种技术,执法机构和情报机构自然也会有。同样的判断错误也可能发生,而且后果要比升职加薪严重的多。
滥用
Adversa.ai的创始人兼首席执行官亚历克斯·波利亚科夫,则更担心通过操纵机器学习过程对AI的滥用。“通过科学家们进行的研究,以及我们的人工智能红队(指扮演攻击方的角色)的真实评估工作都可以证明,愚弄人工智能的决策,不管是计算机视觉还是自然语言处理或者是其他任何事情,修改一组非常小的输入就足够了。”
比如,“eats shoots and leaves”这几个单词,只需加上不同的标点符号,就可以表示素食者或是恐怖分子。对于人工智能来说,想要穷尽所有单词在所有语境下的含义,几乎是一个不可能的任务。
此外,波利亚科夫已经先后两次证明了愚弄人脸识别系统是多么容易。第一次让人工智能系统相信面前各种人都是埃隆·马斯克,第二次的例子是用一张人类看上去明显是同一张图像,却被人工智能解读为多个不同的人。其中的原理,即操纵人工智能学习过程的原理,几乎可以被网络罪犯应用到任何人工智能工具。
归根结底,人工智能只是人类教授的机器智能,我们离真正的人工智能还有很多年,即使我们不去讨论真正的人工智能是否能实现。就目前而言,人工智能应该被当作一种将许多有规律的人类工作进行自动化处理的工具,毕竟它与人类一样会有着类似的成功率和失败率。当然,它的速度要快得多,而且成本也要比昂贵的分析师团队低的多。
最后,不管是算法偏差还是AI被滥用,所有使用人工智能的用户都应该考虑这样一个问题:至少在目前阶段,我们不能过度依赖人工智能的输出结果。