◆ ◆ ◆
导 读
更聪明和更具适应能力的机器正像网络一样迅速成为我们生活的一部分。我们会把更多的决策交给从数量和种类不断增加的数据中学习的智能算法。
这些“机器人”成为人们生活不可或缺的一部分,而我们没有任何框架去评估哪些决策应该委派给程序,哪些人类应该自己作决策。涉及到高风险,这真是奇怪。
在这里,我推荐一种风险导向框架去判断何时与如何在人与机器之间分配决策问题。这个框架是基于我和伙伴们在过去的25年中对于金融,保健,教育,运动等多个领域的预测系统的使用经验发展而来。
该框架依靠两个维度区分事件:可预测性和错误成本。
◆ ◆ ◆
第一个维度:可预测性
可预测性是指目前我们能考虑到最先进的预测系统比随机处理的结果强多少。
以上图表按照可预测性排序列举了许多例子,这些可预测性是通过目前最先进的机器学习和人工智能技术所得出的。轴线最左侧展现的是抛硬币般的“零信号”事件------其结果不会因机器预测而比随机结果强多少。轴线最右侧是完全确定性和机械化的决定事件。
沿着轴线从左向右移动,我们从长期投资的例子看起,实际证据—和经济理论—告诉我们人类在这方面相对欠缺,因此,所得结果往往跟随机处理的结果没太大差别。然而,随着预测范围的缩短(短期和高频交易),可预测性有所增加,尽管只是轻微地增加。我们继续随着轴线向右移动,信用卡诈骗侦察和垃圾邮件过滤拥有更高的可预测性,但目前的系统仍旧会出现大量的假阳性和假阴性误报。轴线的最右侧是具有最高可预测性的高度结构性事件。例如,无人驾驶汽车的合理操作从物理学角度是非常容易理解的。虽然存在诸如其他车辆和环境的不确定因素的影响,但平均来看,机器可以比人类学习更安全的驾驶。
按照这个维度将事件进行排序,当前自动化技术的挑战与机遇显而易见。然而,这容易限制对预测力讨论的分析并暗示“高信号问题可听取机器决定,低信号问题要人为决定”,因此只考虑这一个维度是片面的。为了正确地计算是否将决策交给机器,另一个必要考虑的维度是发生错误的后果------一个与预测精准性同样重要甚至更重要的变量因素。
这个较为全面的图表将两个维度都展现出来,它被我称之为DA-MAP。水平轴表示可预测性,与之前的图表呼应。垂直轴代表错误成本,它可以根据情况通过货币或其他单位形式表现出来。
◆ ◆ ◆
第二个维度:错误成本
第二个维度的引入提供了非常重要的新视角。
思考一下之前提到的两个相对高预测性的事件------垃圾邮件过滤和无人驾驶汽车。垃圾邮件过滤是一个复杂的“对立”事件,垃圾邮件发送者企图愚弄过滤器,而过滤器又尽量不拦截合法内容,因此,尽管未被过滤的垃圾邮件较少,其错误成本应该也非常低。相反,无人驾驶汽车的错误成本就非常高。尽管无人驾驶战斗机的错误成本也非常高(如错将医院当成军火仓库进行轰炸),但这与无人驾驶汽车至少在两个方面有所差别:其一,无人驾驶在战争中对于错误的容忍度高于其在郊区道路上。其二,无人驾驶可以减少飞行员在敌军上空飞行的危险。
医疗领域的预测失误也会有显著的成本。例如,对实际存在的糖尿病预测失败,即假阴性,可能导致严重后果,比如损失一条肢体。假阳性预测则可导致在并不需要的情况下开出处方药或进行检测。
当然,一个特定问题在这个二维图上的位置也会随着技术和社会变化而改变。更多数据更好算法带来的预测能力改善,会让问题往右移(这种移动由水平箭头指示)。更多监管负担会加大出错的成本因而让问题上移,而减少监管或减少赔偿责任将让它下移(以垂直箭头来指示)。社会规范和价值观念的变化– 比如无人机作战失去公众支持 -也将导致图位变化。
DA图也显示各种问题沿着宜人决定问题与宜机决定问题之间可能的“自动化边界”进行移动的例子。
自动化边界(图中由虚线表示)是一条向上倾斜的线,它表示可接受的可预测性和失误之间的现有边界。单位失误的成本越高,自动化所需的可预测性水平越高。图中凸边界曲线表示比线性更严格的自动化屏障。
在自动化边界下方,我们看到几个问题,如高频交易和网络广告,因为单位失误的成本相比可靠和可扩展性决策这些好处要低,已经被自动化到很高的程度。相比之下,在自动化边界上方,我们发现,即使是目前最好的糖尿病预测系统仍然会产生过多的假阳性和假阴性,而每个失误都代价过高以至于不能论证纯粹使用自动化的合理性。这就是为什么医生仍然全面参与诊断病人患糖尿病的风险。另一方面,拥有基因和其他个人数据可戏剧性地提高预测准确度(图中长橙色水平箭头),以在未来创造值得信赖的专业医护机器人。
可预测性和单位失误成本的变化可将问题推入或推出机器人区域。例如,随着无人驾驶汽车改进而我们变得对它更适应,引入和解决对它们限责的法律可促进保险市场出现,这应该会降低失误成本。
决策自动化(DA)图可以被管理者,投资者,监管者和政策制定者采用以回答有关自动决策的问题。它可以帮助人们划定自动化项目的优先级,并能凸显哪些问题其所需的专门知识可被机器凭借极少的预编程从数据中习得而哪些问题失误成本低。
也许部署数据驱动学习型机器的最大挑战是,他们如何处理第一次遇到的“边缘情况”中的不确定性,比如谷歌无人驾驶汽车遇到的造成它轻微事故的障碍物。人类直觉性地拓展常识来应对离奇或异常情况,但在这些情况下,机器会学习到什么以及它将如何行动仍然存有显著的不确定性。在这样的边缘情况下,其结果可能会糟很多。与这些情况相关的不确定性越大,我们就越不倾向于用它们来取代那些依赖于老而好的进化,直觉和常识的(人类)决策。
对社会而言,最让人头疼的关注点是自动化是否会令数以百万计的人类工作毫无用处。60年代初诺贝尔经济学奖得主赫伯特·西蒙(Herbert Simon)曾预测,虽然商业上许多“可编程”的决定将在几十年内实现自动化,但对“自动化狼外婆”的担心是多余的。到目前为止,西蒙的预测在这两方面都被证明有先见之明,因为自动化还在继续为创造人类新的工作和生活方式。然而,还有待观察的是,那些能看、能听、能读、能推理的新品种机器是否会消除掉比它们所创造的数量还要多的人类工作。
原文发布时间为:2016-08-05
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号