可解释的监控:停止盲目行动并监控您的 AI

简介: 对 AI/ML 监控的需求我们生活在一个前所未有的时代,在短短几周内,全球许多人和企业的情况发生了巨大变化。随着 COVID-19 在全球蔓延并夺走人类生命,我们看到失业率和小企业破产数量创历史新高。

对 AI/ML 监控的需求

我们生活在一个前所未有的时代,在短短几周内,全球许多人和企业的情况发生了巨大变化。随着 COVID-19 在全球蔓延并夺走人类生命,我们看到失业率和小企业破产数量创历史新高。

那么,这种低迷对使用人工智能的企业有何影响?

如今,人工智能越来越多地被各行各业的公司应用,但人工智能并不是最容易实施的技术。大多数生产 AI 系统都是专有的、开源的和基于云的技术的拼凑而成,随着时间的推移有机地积累起来。然而,过去几年出现了 DataRobot、Dataiku 等基于 GUI 的 AI 工具,以帮助企业减少内部构建、成功训练和部署 AI 模型的倾向。

随着这些工具的出现,公司已经意识到训练和部署人工智能只是第一步——然后他们必须监控人工智能并管理他们部署的模型,以确保无风险和可靠的业务成果。随着性能更高的黑盒模型的兴起,管理这些模型的需求变得更加必要和更具挑战性。越来越多的公司正在学习:

“训练和部署 ML 模型相对快速且便宜,但随着时间的推移,维护、监控和管理它们既困难又昂贵。”

事实上,由于部署后输入数据的变化,它们的性能会随着时间的推移而下降,因此模型需要持续监控以确保它们在生产中的保真度。尽管许多现有的监控技术提供了实时问题可见性,但它们通常不足以识别复杂 AI 系统中问题的根本原因。


缺乏反馈循环

大多数组织只有在为时已晚且损害已经造成之后才能发现生产 ML 系统的问题。在某些情况下,生产问题可能会一直存在而未被发现,直到由 ML 系统提供支持的最终业务指标下降。

网络异常,图片无法展示
|


与依赖下游业务指标作为上游模型性能问题的指标不同,企业可以通过监控包括预测和特征漂移以及输入数据错误在内的主要的指标来提前解决潜在问题。跟踪这些主要的指标并能够识别出意外的变化使 MLOps 团队能够实时进行调查,而不是事后进行调查。但仅仅跟踪正确的指标只能解决一半的问题。一旦检测到转变,应尽快进行调查或根本原因分析。为确保快速准确地进行根本原因分析,人工智能可解释性可用于帮助确定问题的根本原因以及应采取的行动方案(例如,根据新数据重新训练模型、修复数据流水线)。

结合起来,跟踪模型性能问题的主要的指标并利用 AI 可解释性帮助从业者理解问题背后的“原因”,构成了一种称为可解释机器学习监控的新范式。


网络异常,图片无法展示
|


传统监控解决方案的差距

今天,有两种主要的方法来监控生产软件:

  • DevOps 使用服务或基础设施监控来获得广泛的运营可见性和服务运行状况。
  • 通过企业所有者使用的遥测技术监控业务指标,以跟踪业务健康状况。

不幸的是,这些方法对于机器学习系统来说是不够的,与传统软件系统不同,机器学习系统的性能是不确定的,并且取决于各种因素,例如季节性、新用户行为趋势以及通常极高维的上游数据系统。 例如,当新的假日季节到来时,可能需要更新功能完善的广告模型。 同样,在美国受过训练以显示内容推荐的模型对于在国际上注册的用户可能效果不佳。


网络异常,图片无法展示
|


ML 监控独有的挑战

1.模型退化。 与其他软件不同,ML 模型的性能会随着时间的推移而衰减。 监控正确的模型结果(如果可用)可提供即时的业务影响更改通知。 能够监控模型退化将帮助我们知道是否是时候刷新模型了。

网络异常,图片无法展示
|


2.数据漂移。 尽管 ML 模型是使用特定数据(例如: 20-60 岁)进行训练的,但它们可能会在生产中遇到不同的数据(例如: 60-80 岁),从而做出次优的预测。

网络异常,图片无法展示
|


  1. 数据完整性。 业务数据是动态的,其组成不断变化。 这可能会对 ML 模型产生不利的性能影响,尤其是对于自动化数据流水线。 在部署的 AI 系统中,数据不一致通常会被忽视。

网络异常,图片无法展示
|


  1. 异常值。 部署的 ML 模型可能会遇到远离训练分布的数据。 这些异常值可能会导致难以全局调试的孤立性能问题。 实时查明它们可以为立即解决问题提供见解。 检测异常值是一个具有挑战性的问题,因为有多种技术可以应用,并且多年来已经得到了很好的研究。 在 ML 模型性能的背景下,它变得更具挑战性,因为我们需要将异常值作为跨大量变量的多变量分析问题进行研究,并查看其对模型行为的影响,即确定它是否会导致模型行为不正常。

网络异常,图片无法展示
|


5.偏见。即使在监控数据更改之后,尽管模型验证,它对受保护组的真正影响也可能会发生变化,即 ML 模型在部署后可能会出现偏差。第一道防线可能是在训练过程中放弃受保护的属性(例如,种族、性别等),但由于与受保护属性高度相关的其他特征,模型也可能表现出偏差。我们需要的是围绕公平性对模型进行连续跟踪,其中这些指标是动态和实时计算的。偏见定义(机会平等、结果平等等)可能会因组织而异,也可能因问题而异,因为没有统一的公平定义。因此,我们应该能够支持可插拔策略并持续执行它以检测任何潜在的偏差问题。如果检测到偏差,则必须深入了解原因以确定是否需要更换模型或是否存在数据流水线问题。

网络异常,图片无法展示
|



什么是可解释的监控?

一个强大的、可解释的 AI 监控系统需要与模型服务基础设施集成,以防范上述 5 个运营挑战。它允许用户轻松查看实时监控的输出,以发现 KPI 和其他问题或对警报采取行动。调查被标记的操作 ML 问题通常需要付出很多努力。机器学习模型的黑盒特性使机器学习开发人员特别难以理解和调试它们。

可解释的 ML 监控系统扩展了传统监控,以提供具有可操作步骤的深入模型洞察。借助监控,用户可以了解问题驱动因素、根本原因问题,并分析模型以防止重复发生,这有助于节省大量时间。


我们认为这样的系统应该具有 3 个关键特性:

  • 综合的。可解释的 ML 监控系统应涵盖模型性能的所有基本领先指标和性能指标本身。除了统计上的全面性之外,理想的可解释 ML 监控系统还为技术(模型开发人员、MLOps)和非技术(分析师、业务所有者)利益相关者提供直观的用户界面。
  • 可插拔。团队应该能够将监控系统与现有数据和 AI 基础设施以及最常见的开源 ML 框架(Scikit-Learn、PyTorch、Tensorflow、Spark 等)集成,以快速查看可操作的结果。
  • 可操作的。用户应该能够在生产问题背后获得可操作的见解。具有更深入分析的实时解释对于快速揭示模型行为的“原因”和“方式”至关重要。获得大量警报会产生噪音。因此,系统允许用户进行必要的控制以仅针对需要采取行动的变化配置警报至关重要


结论

与人工智能相关的财务风险是巨大的。信任是这些赌注的一部分,它更容易失去而不是获得。我们已经看到像 COVID-19 这样的黑天鹅事件可以对企业造成什么影响。如果您的 AI 产品不受监控,您可能会向客户提供错误的决策。因此,能见度将非常重要!


相关文章
|
3月前
|
人工智能 运维 Kubernetes
智能化运维:KoPylot为k8S带来AI监控诊断
智能化运维:KoPylot为k8S带来AI监控诊断
|
6月前
|
机器学习/深度学习 人工智能 搜索推荐
【AI 初识】解释推荐系统的概念
【5月更文挑战第3天】【AI 初识】解释推荐系统的概念
|
6月前
|
机器学习/深度学习 数据采集 人工智能
【AI 场景】解释使用人工智能诊断医学图像中疾病的过程
【5月更文挑战第4天】【AI 场景】解释使用人工智能诊断医学图像中疾病的过程
|
6月前
|
人工智能 监控 数据处理
【AI大模型应用开发】【LangChain系列】6. LangChain的Callbacks模块:监控调试程序的重要手段
【AI大模型应用开发】【LangChain系列】6. LangChain的Callbacks模块:监控调试程序的重要手段
84 0
|
6月前
|
人工智能 自然语言处理 自动驾驶
大模型领域急需建立可解释AI理论
【1月更文挑战第21天】大模型领域急需建立可解释AI理论
56 2
大模型领域急需建立可解释AI理论
|
6月前
|
机器学习/深度学习 人工智能 监控
AI安防监控
AI安防监控运用人工智能技术分析视频监控,实现对象识别、追踪和预警,广泛应用在安防、交通和工业等领域。它提升了监控的实时性和准确性,降低了人力成本,但面临误判、隐私泄露和高成本等问题。随着市场需求增长,全球安防监控行业将迎来持续发展,需在提升技术的同时保障个人隐私。
125 0
|
传感器 人工智能 监控
FC-PDIO01 CC-TUIO31 监控和持续改进其边缘AI应用
FC-PDIO01 CC-TUIO31 监控和持续改进其边缘AI应用
83 0
|
机器学习/深度学习 人工智能 编解码
逐步揭开模型面纱!首篇深度视觉建模中的可解释AI综述
深度视觉模型在高风险领域有着广泛的应用。因此它们的黑匣子性质目前吸引了研究界的极大兴趣。论文在《可解释的人工智能》中进行了第一次调查,重点是解释深度视觉模型的方法和指标。涵盖了最新技术的里程碑式贡献,论文不仅提供了现有技术的分类组织,还挖掘了一系列评估指标,并将其作为模型解释的不同特性的衡量标准进行整理。在深入讨论当前趋势的同时,论文还讨论了这一研究方向的挑战和未来途径。
逐步揭开模型面纱!首篇深度视觉建模中的可解释AI综述
|
机器学习/深度学习 人工智能 算法
人工智能机器学习底层原理剖析,人造神经元,您一定能看懂,通俗解释把AI“黑话”转化为“白话文”
按照固有思维方式,人们总以为人工智能是一个莫测高深的行业,这个行业的人都是高智商人群,无论是写文章还是和人讲话,总是讳莫如深,接着就是蹦出一些“高级”词汇,什么“神经网络”,什么“卷积神经”之类,教人半懂不懂的。尤其ChatGPT的风靡一时,更加“神话”了这个行业,用鲁迅先生形容诸葛武侯的话来讲:“多智而近妖”。 事实上,根据二八定理,和别的行业一样,人工智能行业内真正顶尖的天才也就是20%,他们具备真正的行业颠覆能力,可以搞出像ChatGPT这种“工业革命”级别的产品,而剩下的80%也不过就是普通人,每天的工作和我们这些人一样,枯燥且乏味,而之所以会出现类似“行业壁垒”的现象,是因为这个行
人工智能机器学习底层原理剖析,人造神经元,您一定能看懂,通俗解释把AI“黑话”转化为“白话文”
|
机器学习/深度学习 人工智能 自然语言处理
何以为猫?可解释AI从语义层面理解CNN的识别机制
何以为猫?可解释AI从语义层面理解CNN的识别机制
107 0