可解释的监控:停止盲目行动并监控您的 AI

简介: 对 AI/ML 监控的需求我们生活在一个前所未有的时代,在短短几周内,全球许多人和企业的情况发生了巨大变化。随着 COVID-19 在全球蔓延并夺走人类生命,我们看到失业率和小企业破产数量创历史新高。

对 AI/ML 监控的需求

我们生活在一个前所未有的时代,在短短几周内,全球许多人和企业的情况发生了巨大变化。随着 COVID-19 在全球蔓延并夺走人类生命,我们看到失业率和小企业破产数量创历史新高。

那么,这种低迷对使用人工智能的企业有何影响?

如今,人工智能越来越多地被各行各业的公司应用,但人工智能并不是最容易实施的技术。大多数生产 AI 系统都是专有的、开源的和基于云的技术的拼凑而成,随着时间的推移有机地积累起来。然而,过去几年出现了 DataRobot、Dataiku 等基于 GUI 的 AI 工具,以帮助企业减少内部构建、成功训练和部署 AI 模型的倾向。

随着这些工具的出现,公司已经意识到训练和部署人工智能只是第一步——然后他们必须监控人工智能并管理他们部署的模型,以确保无风险和可靠的业务成果。随着性能更高的黑盒模型的兴起,管理这些模型的需求变得更加必要和更具挑战性。越来越多的公司正在学习:

“训练和部署 ML 模型相对快速且便宜,但随着时间的推移,维护、监控和管理它们既困难又昂贵。”

事实上,由于部署后输入数据的变化,它们的性能会随着时间的推移而下降,因此模型需要持续监控以确保它们在生产中的保真度。尽管许多现有的监控技术提供了实时问题可见性,但它们通常不足以识别复杂 AI 系统中问题的根本原因。


缺乏反馈循环

大多数组织只有在为时已晚且损害已经造成之后才能发现生产 ML 系统的问题。在某些情况下,生产问题可能会一直存在而未被发现,直到由 ML 系统提供支持的最终业务指标下降。

网络异常,图片无法展示
|


与依赖下游业务指标作为上游模型性能问题的指标不同,企业可以通过监控包括预测和特征漂移以及输入数据错误在内的主要的指标来提前解决潜在问题。跟踪这些主要的指标并能够识别出意外的变化使 MLOps 团队能够实时进行调查,而不是事后进行调查。但仅仅跟踪正确的指标只能解决一半的问题。一旦检测到转变,应尽快进行调查或根本原因分析。为确保快速准确地进行根本原因分析,人工智能可解释性可用于帮助确定问题的根本原因以及应采取的行动方案(例如,根据新数据重新训练模型、修复数据流水线)。

结合起来,跟踪模型性能问题的主要的指标并利用 AI 可解释性帮助从业者理解问题背后的“原因”,构成了一种称为可解释机器学习监控的新范式。


网络异常,图片无法展示
|


传统监控解决方案的差距

今天,有两种主要的方法来监控生产软件:

  • DevOps 使用服务或基础设施监控来获得广泛的运营可见性和服务运行状况。
  • 通过企业所有者使用的遥测技术监控业务指标,以跟踪业务健康状况。

不幸的是,这些方法对于机器学习系统来说是不够的,与传统软件系统不同,机器学习系统的性能是不确定的,并且取决于各种因素,例如季节性、新用户行为趋势以及通常极高维的上游数据系统。 例如,当新的假日季节到来时,可能需要更新功能完善的广告模型。 同样,在美国受过训练以显示内容推荐的模型对于在国际上注册的用户可能效果不佳。


网络异常,图片无法展示
|


ML 监控独有的挑战

1.模型退化。 与其他软件不同,ML 模型的性能会随着时间的推移而衰减。 监控正确的模型结果(如果可用)可提供即时的业务影响更改通知。 能够监控模型退化将帮助我们知道是否是时候刷新模型了。

网络异常,图片无法展示
|


2.数据漂移。 尽管 ML 模型是使用特定数据(例如: 20-60 岁)进行训练的,但它们可能会在生产中遇到不同的数据(例如: 60-80 岁),从而做出次优的预测。

网络异常,图片无法展示
|


  1. 数据完整性。 业务数据是动态的,其组成不断变化。 这可能会对 ML 模型产生不利的性能影响,尤其是对于自动化数据流水线。 在部署的 AI 系统中,数据不一致通常会被忽视。

网络异常,图片无法展示
|


  1. 异常值。 部署的 ML 模型可能会遇到远离训练分布的数据。 这些异常值可能会导致难以全局调试的孤立性能问题。 实时查明它们可以为立即解决问题提供见解。 检测异常值是一个具有挑战性的问题,因为有多种技术可以应用,并且多年来已经得到了很好的研究。 在 ML 模型性能的背景下,它变得更具挑战性,因为我们需要将异常值作为跨大量变量的多变量分析问题进行研究,并查看其对模型行为的影响,即确定它是否会导致模型行为不正常。

网络异常,图片无法展示
|


5.偏见。即使在监控数据更改之后,尽管模型验证,它对受保护组的真正影响也可能会发生变化,即 ML 模型在部署后可能会出现偏差。第一道防线可能是在训练过程中放弃受保护的属性(例如,种族、性别等),但由于与受保护属性高度相关的其他特征,模型也可能表现出偏差。我们需要的是围绕公平性对模型进行连续跟踪,其中这些指标是动态和实时计算的。偏见定义(机会平等、结果平等等)可能会因组织而异,也可能因问题而异,因为没有统一的公平定义。因此,我们应该能够支持可插拔策略并持续执行它以检测任何潜在的偏差问题。如果检测到偏差,则必须深入了解原因以确定是否需要更换模型或是否存在数据流水线问题。

网络异常,图片无法展示
|



什么是可解释的监控?

一个强大的、可解释的 AI 监控系统需要与模型服务基础设施集成,以防范上述 5 个运营挑战。它允许用户轻松查看实时监控的输出,以发现 KPI 和其他问题或对警报采取行动。调查被标记的操作 ML 问题通常需要付出很多努力。机器学习模型的黑盒特性使机器学习开发人员特别难以理解和调试它们。

可解释的 ML 监控系统扩展了传统监控,以提供具有可操作步骤的深入模型洞察。借助监控,用户可以了解问题驱动因素、根本原因问题,并分析模型以防止重复发生,这有助于节省大量时间。


我们认为这样的系统应该具有 3 个关键特性:

  • 综合的。可解释的 ML 监控系统应涵盖模型性能的所有基本领先指标和性能指标本身。除了统计上的全面性之外,理想的可解释 ML 监控系统还为技术(模型开发人员、MLOps)和非技术(分析师、业务所有者)利益相关者提供直观的用户界面。
  • 可插拔。团队应该能够将监控系统与现有数据和 AI 基础设施以及最常见的开源 ML 框架(Scikit-Learn、PyTorch、Tensorflow、Spark 等)集成,以快速查看可操作的结果。
  • 可操作的。用户应该能够在生产问题背后获得可操作的见解。具有更深入分析的实时解释对于快速揭示模型行为的“原因”和“方式”至关重要。获得大量警报会产生噪音。因此,系统允许用户进行必要的控制以仅针对需要采取行动的变化配置警报至关重要


结论

与人工智能相关的财务风险是巨大的。信任是这些赌注的一部分,它更容易失去而不是获得。我们已经看到像 COVID-19 这样的黑天鹅事件可以对企业造成什么影响。如果您的 AI 产品不受监控,您可能会向客户提供错误的决策。因此,能见度将非常重要!


相关文章
|
25天前
|
人工智能 JSON 监控
三步构建AI评估体系:从解决“幻觉”到实现高效监控
AI时代,评估成关键技能。通过错误分析、归类量化与自动化监控,系统化改进AI应用,应对幻觉等问题。Anthropic与OpenAI均强调:评估是产品迭代的核心,数据驱动优于直觉,让AI真正服务于目标。
|
4月前
|
人工智能 运维 监控
基于MCP的一体化AI管线:从模型训练到部署监控的全链路解析
本文介绍基于MCP(模型控制流水线)的一体化AI部署架构,涵盖从模型训练、自动部署、实时推理到性能监控的完整闭环系统设计,并结合工业制造、能源、IoT等场景,提供代码实现与落地案例,助力企业实现AI自动化运维与智能化升级。
基于MCP的一体化AI管线:从模型训练到部署监控的全链路解析
|
4月前
|
机器学习/深度学习 人工智能 监控
突破传统监控瓶颈:AI驱动的高精度路口违规实时识别系统
本系统融合计算机视觉与深度学习,构建全栈式AI智能交通感知与决策平台,实现路口高危行为毫秒级识别与响应,显著降低交通事故率,提升执法效率与道路安全水平。
193 0
|
9月前
|
人工智能 Prometheus 监控
容器化AI模型的监控与治理:确保模型持续稳定运行
在前几篇文章中,我们探讨了AI模型的容器化部署及构建容器化机器学习流水线。然而,将模型部署到生产环境只是第一步,更重要的是确保其持续稳定运行并保持性能。为此,必须关注容器化AI模型的监控与治理。 监控和治理至关重要,因为AI模型在生产环境中面临数据漂移、概念漂移、模型退化和安全风险等挑战。全面的监控涵盖模型性能、数据质量、解释性、安全性和版本管理等方面。使用Prometheus和Grafana可有效监控性能指标,而遵循模型治理最佳实践(如建立治理框架、定期评估、持续改进和加强安全)则能进一步提升模型的可信度和可靠性。总之,容器化AI模型的监控与治理是确保其长期稳定运行的关键。
|
9月前
|
机器学习/深度学习 人工智能 监控
AI监控智能化客户行为轨迹分析技术
本方案通过目标跟踪技术(如DeepSORT)和多摄像头协作,实时分析顾客在商场内的行为路径,识别高频活动区域,优化商场布局与商品陈列,提供个性化营销服务。基于深度学习与时序数据分析,精准捕捉顾客动线,提升购物体验与销售转化率。
460 2
|
人工智能 运维 Kubernetes
智能化运维:KoPylot为k8S带来AI监控诊断
智能化运维:KoPylot为k8S带来AI监控诊断
|
机器学习/深度学习 人工智能 搜索推荐
【AI 初识】解释推荐系统的概念
【5月更文挑战第3天】【AI 初识】解释推荐系统的概念
|
机器学习/深度学习 数据采集 人工智能
【AI 场景】解释使用人工智能诊断医学图像中疾病的过程
【5月更文挑战第4天】【AI 场景】解释使用人工智能诊断医学图像中疾病的过程
|
人工智能 自然语言处理 自动驾驶
大模型领域急需建立可解释AI理论
【1月更文挑战第21天】大模型领域急需建立可解释AI理论
152 2
大模型领域急需建立可解释AI理论
|
人工智能 监控 数据处理
【AI大模型应用开发】【LangChain系列】6. LangChain的Callbacks模块:监控调试程序的重要手段
【AI大模型应用开发】【LangChain系列】6. LangChain的Callbacks模块:监控调试程序的重要手段
347 0