我们需要通过解决我们如何开发这些算法以及我们如何在现实世界中应用这些算法来最小化风险。
在本文中,我将重点介绍后一部分。换句话说,我将看看模型输出以及它们是如何使用的,因为有很多关于以数据为中心的 AI 以及如何确保你的模型是可解释的文献。不幸的是,预测的应用并不总是像应有的那样接近数据科学家。
您应该如何降低输出风险? 第一步是考虑是否需要机器学习。 与 ML 解决方案相比,由人工编写的业务规则风险更小,更易于解释。 如果这不可能,请考虑最不复杂的数据科学解决方案,例如:传统的、可解释(简单)的逻辑回归。
简单是好的; 简单是可靠的。 但是,如果您无法通过简单的方式来解决您的业务问题,请按照以下建议继续 ML 路线。
1. 将预测作为建议
一个很好的开始方式是承认并接受预测的本质和不确定性。 与其将预测呈现为事实,不如将输出作为建议或替代方案。 例如,在使用 Google 地图导航时,您可以在几条建议路线之间进行选择,也可以按照自己的逻辑进行选择。 在 Netflix 上,您可以选择推荐的节目或浏览其他节目。 这似乎是不言而喻的,但我们常常对自己创建的算法过于自信。
这种范例的一个例子是聊天机器人。 他们通常使用暗示性语言,而不是确切地告诉您应该做什么。 聊天机器人应用程序还让与之交互的客户明确知道这是一个聊天机器人,并且可能会出错。
2. 批量预测
如果您的问题解决方案允许组合,降低风险的一种简单方法是批量预测,而不是立即发布预测。 在批量中,您可以确定用于进行预测的数据的分布情况,并在导致异常输出之前发现输入数据中的意外异常和错误。 此外,您还可以在实际使用它们之前检查异常值和奇怪行为的预测输出分布。
这种方式的一个实际例子是与商业智能相关的模型,例如:客户流失预测。用户并不期望这些预测会实时更新,因为客户端的状态不会变化得那么快。例如,每天更新这些内容将允许您检查数据中是否存在根本性的更改(如:schema 更改),这些更改可能会突然导致您的模型预测每个客户都会流失,并在业务人员中引起恐慌。
同时,批量预测分布也可以被轻松监控。
3. 让人们参与其中
在获得所有可能场景的足够数据之前,当您在某个置信水平上的预测能力失败时,您可能希望有人参与该过程。
有人会在预测过程中引入一个额外的步骤,它会自动检查,例如,输入数据是否在已知域中,预测是否在已知范围内,或者预测能力是多少(如果可用)。如果没有通过,自动过程将不会更进一步,并且由人接管。
这种方式对于财务和健康预测等高影响场景至关重要,在这些场景中,向最终用户提供不正确的预测可能会导致巨大的压力或更糟。 例如,如果您在一家汽车保险公司工作,该公司每天要处理数百个车窗破裂索赔,那么执行自动欺诈检测可能是合理的。 尽管如此,当您的模型不确定时,在人工操作员查看索赔之前让索赔人免于恐慌应该是一个明显的选择。
结论
随着机器学习在以人为中心的领域中得到更多采用,我们需要记住,人类的一个错误可能会被算法重复数百万次。 我们都知道,我们需要格外小心应用程序对人类生活产生的影响,例如:谁获得贷款,谁获得什么癌症治疗。