对 AI/ML 监控的需求
我们生活在一个前所未有的时代,在短短几周内,全球许多人和企业的情况发生了巨大变化。随着 COVID-19 在全球蔓延并夺走人类生命,我们看到失业率和小企业破产数量创历史新高。
那么,这种低迷对使用人工智能的企业有何影响?
如今,人工智能越来越多地被各行各业的公司应用,但人工智能并不是最容易实施的技术。大多数生产 AI 系统都是专有的、开源的和基于云的技术的拼凑而成,随着时间的推移有机地积累起来。然而,过去几年出现了 DataRobot、Dataiku 等基于 GUI 的 AI 工具,以帮助企业减少内部构建、成功训练和部署 AI 模型的倾向。
随着这些工具的出现,公司已经意识到训练和部署人工智能只是第一步——然后他们必须监控人工智能并管理他们部署的模型,以确保无风险和可靠的业务成果。随着性能更高的黑盒模型的兴起,管理这些模型的需求变得更加必要和更具挑战性。越来越多的公司正在学习:
“训练和部署 ML 模型相对快速且便宜,但随着时间的推移,维护、监控和管理它们既困难又昂贵。”
事实上,由于部署后输入数据的变化,它们的性能会随着时间的推移而下降,因此模型需要持续监控以确保它们在生产中的保真度。尽管许多现有的监控技术提供了实时问题可见性,但它们通常不足以识别复杂 AI 系统中问题的根本原因。
缺乏反馈循环
大多数组织只有在为时已晚且损害已经造成之后才能发现生产 ML 系统的问题。在某些情况下,生产问题可能会一直存在而未被发现,直到由 ML 系统提供支持的最终业务指标下降。
与依赖下游业务指标作为上游模型性能问题的指标不同,企业可以通过监控包括预测和特征漂移以及输入数据错误在内的主要的指标来提前解决潜在问题。跟踪这些主要的指标并能够识别出意外的变化使 MLOps 团队能够实时进行调查,而不是事后进行调查。但仅仅跟踪正确的指标只能解决一半的问题。一旦检测到转变,应尽快进行调查或根本原因分析。为确保快速准确地进行根本原因分析,人工智能可解释性可用于帮助确定问题的根本原因以及应采取的行动方案(例如,根据新数据重新训练模型、修复数据流水线)。
结合起来,跟踪模型性能问题的主要的指标并利用 AI 可解释性帮助从业者理解问题背后的“原因”,构成了一种称为可解释机器学习监控的新范式。
传统监控解决方案的差距
今天,有两种主要的方法来监控生产软件:
- DevOps 使用服务或基础设施监控来获得广泛的运营可见性和服务运行状况。
- 通过企业所有者使用的遥测技术监控业务指标,以跟踪业务健康状况。
不幸的是,这些方法对于机器学习系统来说是不够的,与传统软件系统不同,机器学习系统的性能是不确定的,并且取决于各种因素,例如季节性、新用户行为趋势以及通常极高维的上游数据系统。 例如,当新的假日季节到来时,可能需要更新功能完善的广告模型。 同样,在美国受过训练以显示内容推荐的模型对于在国际上注册的用户可能效果不佳。
ML 监控独有的挑战
1.模型退化。 与其他软件不同,ML 模型的性能会随着时间的推移而衰减。 监控正确的模型结果(如果可用)可提供即时的业务影响更改通知。 能够监控模型退化将帮助我们知道是否是时候刷新模型了。
2.数据漂移。 尽管 ML 模型是使用特定数据(例如: 20-60 岁)进行训练的,但它们可能会在生产中遇到不同的数据(例如: 60-80 岁),从而做出次优的预测。
- 数据完整性。 业务数据是动态的,其组成不断变化。 这可能会对 ML 模型产生不利的性能影响,尤其是对于自动化数据流水线。 在部署的 AI 系统中,数据不一致通常会被忽视。
- 异常值。 部署的 ML 模型可能会遇到远离训练分布的数据。 这些异常值可能会导致难以全局调试的孤立性能问题。 实时查明它们可以为立即解决问题提供见解。 检测异常值是一个具有挑战性的问题,因为有多种技术可以应用,并且多年来已经得到了很好的研究。 在 ML 模型性能的背景下,它变得更具挑战性,因为我们需要将异常值作为跨大量变量的多变量分析问题进行研究,并查看其对模型行为的影响,即确定它是否会导致模型行为不正常。
5.偏见。即使在监控数据更改之后,尽管模型验证,它对受保护组的真正影响也可能会发生变化,即 ML 模型在部署后可能会出现偏差。第一道防线可能是在训练过程中放弃受保护的属性(例如,种族、性别等),但由于与受保护属性高度相关的其他特征,模型也可能表现出偏差。我们需要的是围绕公平性对模型进行连续跟踪,其中这些指标是动态和实时计算的。偏见定义(机会平等、结果平等等)可能会因组织而异,也可能因问题而异,因为没有统一的公平定义。因此,我们应该能够支持可插拔策略并持续执行它以检测任何潜在的偏差问题。如果检测到偏差,则必须深入了解原因以确定是否需要更换模型或是否存在数据流水线问题。
什么是可解释的监控?
一个强大的、可解释的 AI 监控系统需要与模型服务基础设施集成,以防范上述 5 个运营挑战。它允许用户轻松查看实时监控的输出,以发现 KPI 和其他问题或对警报采取行动。调查被标记的操作 ML 问题通常需要付出很多努力。机器学习模型的黑盒特性使机器学习开发人员特别难以理解和调试它们。
可解释的 ML 监控系统扩展了传统监控,以提供具有可操作步骤的深入模型洞察。借助监控,用户可以了解问题驱动因素、根本原因问题,并分析模型以防止重复发生,这有助于节省大量时间。
我们认为这样的系统应该具有 3 个关键特性:
- 综合的。可解释的 ML 监控系统应涵盖模型性能的所有基本领先指标和性能指标本身。除了统计上的全面性之外,理想的可解释 ML 监控系统还为技术(模型开发人员、MLOps)和非技术(分析师、业务所有者)利益相关者提供直观的用户界面。
- 可插拔。团队应该能够将监控系统与现有数据和 AI 基础设施以及最常见的开源 ML 框架(Scikit-Learn、PyTorch、Tensorflow、Spark 等)集成,以快速查看可操作的结果。
- 可操作的。用户应该能够在生产问题背后获得可操作的见解。具有更深入分析的实时解释对于快速揭示模型行为的“原因”和“方式”至关重要。获得大量警报会产生噪音。因此,系统允许用户进行必要的控制以仅针对需要采取行动的变化配置警报至关重要。
结论
与人工智能相关的财务风险是巨大的。信任是这些赌注的一部分,它更容易失去而不是获得。我们已经看到像 COVID-19 这样的黑天鹅事件可以对企业造成什么影响。如果您的 AI 产品不受监控,您可能会向客户提供错误的决策。因此,能见度将非常重要!