降低模型输出风险的三种方法(Valohai)

简介: 地球上的每一项业务和行为都包含风险,包括机器学习,或者更广泛地说人工智能也是如此。但是,出于多种原因,您公司的传统风险管理通常不会处理 AI 风险。首先,算法通常基于专有数据,模型和技术是在特定(业务)问题的领域范围内开发的。其次,算法可能是复杂的、不可预测的并且难以解释。最后,ML 场景相对较新,因此我们也缺乏最佳实践,同时,监管滞后。

我们需要通过解决我们如何开发这些算法以及我们如何在现实世界中应用这些算法来最小化风险

在本文中,我将重点介绍后一部分。换句话说,我将看看模型输出以及它们是如何使用的,因为有很多关于以数据为中心的 AI 以及如何确保你的模型是可解释的文献。不幸的是,预测的应用并不总是像应有的那样接近数据科学家。

网络异常,图片无法展示
|

您应该如何降低输出风险? 第一步是考虑是否需要机器学习。 与 ML 解决方案相比,由人工编写的业务规则风险更小,更易于解释。 如果这不可能,请考虑最不复杂的数据科学解决方案,例如:传统的、可解释(简单)的逻辑回归。

简单是好的; 简单是可靠的。 但是,如果您无法通过简单的方式来解决您的业务问题,请按照以下建议继续 ML 路线。

1. 将预测作为建议

一个很好的开始方式是承认并接受预测的本质和不确定性。 与其将预测呈现为事实,不如将输出作为建议或替代方案。 例如,在使用 Google 地图导航时,您可以在几条建议路线之间进行选择,也可以按照自己的逻辑进行选择。 在 Netflix 上,您可以选择推荐的节目或浏览其他节目。 这似乎是不言而喻的,但我们常常对自己创建的算法过于自信。

网络异常,图片无法展示
|

这种范例的一个例子是聊天机器人。 他们通常使用暗示性语言,而不是确切地告诉您应该做什么。 聊天机器人应用程序还让与之交互的客户明确知道这是一个聊天机器人,并且可能会出错。

2. 批量预测

如果您的问题解决方案允许组合,降低风险的一种简单方法是批量预测,而不是立即发布预测。 在批量中,您可以确定用于进行预测的数据的分布情况,并在导致异常输出之前发现输入数据中的意外异常和错误。 此外,您还可以在实际使用它们之前检查异常值和奇怪行为的预测输出分布。

网络异常,图片无法展示
|

这种方式的一个实际例子是与商业智能相关的模型,例如:客户流失预测。用户并不期望这些预测会实时更新,因为客户端的状态不会变化得那么快。例如,每天更新这些内容将允许您检查数据中是否存在根本性的更改(如:schema 更改),这些更改可能会突然导致您的模型预测每个客户都会流失,并在业务人员中引起恐慌。

同时,批量预测分布也可以被轻松监控

3. 让人们参与其中

在获得所有可能场景的足够数据之前,当您在某个置信水平上的预测能力失败时,您可能希望有人参与该过程。

有人会在预测过程中引入一个额外的步骤,它会自动检查,例如,输入数据是否在已知域中,预测是否在已知范围内,或者预测能力是多少(如果可用)。如果没有通过,自动过程将不会更进一步,并且由人接管。

网络异常,图片无法展示
|

这种方式对于财务和健康预测等高影响场景至关重要,在这些场景中,向最终用户提供不正确的预测可能会导致巨大的压力或更糟。 例如,如果您在一家汽车保险公司工作,该公司每天要处理数百个车窗破裂索赔,那么执行自动欺诈检测可能是合理的。 尽管如此,当您的模型不确定时,在人工操作员查看索赔之前让索赔人免于恐慌应该是一个明显的选择。

结论

随着机器学习在以人为中心的领域中得到更多采用,我们需要记住,人类的一个错误可能会被算法重复数百万次。 我们都知道,我们需要格外小心应用程序对人类生活产生的影响,例如:谁获得贷款,谁获得什么癌症治疗。


相关文章
|
28天前
|
机器学习/深度学习 监控
大模型开发:你如何在保持模型性能的同时减少过拟合的风险?
为应对大模型过拟合,采用正则化(L1/L2/Dropout)、早期停止训练以监控验证集性能,通过数据增强提升模型泛化能力,选择适合问题复杂度的模型,使用集成方法(如Bagging/Boosting)增强稳定性,以及利用预训练模型进行迁移学习。这些策略结合使用能有效降低过拟合风险,提高模型泛化性能。
23 2
|
算法 数据挖掘 数据库
priori 算法的影响因素分析| 学习笔记
快速学习 priori 算法的影响因素分析。
464 0
priori 算法的影响因素分析| 学习笔记
|
5月前
|
传感器 存储
表面应变计的方法及注意事项是确保测量结果准确性的重要保障
表面应变计是一种广泛应用于材料力学研究中的测量设备,用来测定材料表面的形变情况,它可以提供精确的数据以评估材料的强度和刚度等特性。正确认识使用应变计的方法及注意事项是确保测量结果准确性的重要保障。
表面应变计的方法及注意事项是确保测量结果准确性的重要保障
|
7月前
|
机器学习/深度学习
评估操作
评估操作是指在机器学习中,通过一些指标来衡量模型在训练数据和测试数据上的表现,从而判断模型的性能和泛化能力。常用的评估操作包括计算损失函数、准确率、精确率、召回率、F1 值等。
38 1
|
7月前
|
机器学习/深度学习 算法
评估系统或算法质量的重要指标
准确性(Accuracy):衡量系统或算法输出结果与真实结果之间的接近程度。通常使用分类准确率、回归误差等指标来评估。 精确率(Precision)和召回率(Recall):主要用于评估分类模型的性能。精确率衡量预测为正例的样本中实际为正例的比例,召回率衡量实际为正例的样本中被正确预测为正例的比例。
158 4
|
8月前
|
机器学习/深度学习 计算机视觉 数据可视化
YOLOv5改进系列(0)——重要性能指标、训练结果评价及分析、影响mAP指标的因素、优化mAP的方法
YOLOv5改进系列(0)——重要性能指标、训练结果评价及分析、影响mAP指标的因素、优化mAP的方法
3086 0
YOLOv5改进系列(0)——重要性能指标、训练结果评价及分析、影响mAP指标的因素、优化mAP的方法
|
10月前
|
算法 计算机视觉
图像生成过程中遭「截胡」:稳定扩散的失败案例受四大因素影响
图像生成过程中遭「截胡」:稳定扩散的失败案例受四大因素影响
|
11月前
|
存储 机器学习/深度学习 人工智能
训练时间减少71.4%,存储成本节省99.9%,厦大指令调优新方案MMA让羊驼模型实现多模态
训练时间减少71.4%,存储成本节省99.9%,厦大指令调优新方案MMA让羊驼模型实现多模态
129 0
模型评估过程中,主要的验证方法与优缺点。
模型评估过程中,主要的验证方法与优缺点。
|
机器学习/深度学习 算法 测试技术
使用用测试时数据增强(TTA)提高预测结果(上)
使用用测试时数据增强(TTA)提高预测结果
356 0

热门文章

最新文章