监控生产中的ML系统,您应该跟踪哪些指标?(中)

简介: 当提到“ML监控”时,这可能意味着很多事情。您是否在跟踪服务延迟?模型精度?数据质量?点击推荐栏的访问者占比?‍这个博客将所有指标组织到一个框架中。这是高水平的,但我们希望一个全面的概述。如果您是ML监视的新手,并且希望快速掌握它,请继续阅读。


3. ML模型质量监控

即使软件系统运行良好且数据质量符合预期,这是否意味着您已被覆盖?没有!欢迎来到机器学习模型问题的陆地。

生产中的 ML 模型会出现什么问题?他们发生漂移了!

在突然变化的情况下,模型可能会突然中断,或者开始逐渐变差。我们可以大致将原因分为两种:

  • 数据漂移:模型应用于看不见的输入,例如:新人口统计的用户。
  • 概念漂移:现实世界的关系发生变化,例如:不断变化的用户行为。

以下是一些可能导致模型漂移的因素:

  • 环境的变化。例如,通货膨胀率上升(或大流行的开始!)
  • 刻意改变业务。您可能会在新位置或新用户群中启动应用程序。
  • 对抗性适应。这通常用于垃圾邮件和欺诈检测案例,因为不良行为者试图适应模型行为。
  • 模型反馈回路。模型本身可能会影响现实。例如,推荐系统会影响用户看到和点击的内容。
  • 模型设计和使用不匹配。例如,您可以构建一个潜在客户评分模型来预测转化概率,但相反,用户开始使用该模型进行场景分析。他们尝试输入不同的输入组合,以了解哪些因素会影响模型决策。这是一个不同的用例,需要不同的分析工具。

当模型漂移时,您通常会看到模型误差或不正确预测的数量增加。在剧烈漂移的情况下,模型可能会在一夜之间变得不合适。

网络异常,图片无法展示
|


ML 模型质量监控的目标是什么

让您放心,您信任该模型并继续使用它,并在出现问题时提醒您。一个好的监控设置应该提供足够的上下文来有效地解决模型退化问题。您需要评估根本原因并解决偏差,例如,触发重新训练、重建模型或使用回退策略。

这对ML监控有多具体

这对于ML系统来说是非常独特的。您可以调整其他行业的一些模型监控实践,例如:金融中信用评分模型的验证和治理。正如您所知,这是ML监控。

谁通常随叫随到

数据科学家或机器学习工程师。谁构建了模型并知道“特征 X 是什么”,或者向谁询问。

您可以监控哪些指标?什么因素会影响您的选择?

‍ML监控设置可能会有所不同。以下是一些影响它的因素:

  • 模型和数据类型。您总是需要一些“准确率”指标来评估整体模型质量。您通常可以使用与模型训练中相同的指标。但是具体的指标列表会根据您是否有回归、分类或排名模型而有所不同。表格数据图像数据等的监测数据漂移也不同。
  • Ground truth 延迟。如果您在预测后不久获得标记数据或反馈,则可以直接评估模型质量。例如,在预测比萨饼的送达时间时,您很快就会知道需要多长时间。如果您预测下一季度的销售额,您需要等待才能知道这些预测有多好。当预测和反馈之间存在很长的滞后时,您无法计算质量本身。您可能需要监控代理指标,例如:数据和预测偏差。
  • 模型风险和重要性。模型越重要,您的监控可能就越精细,您可能需要实施的指标(如公平性)和监控方法(如检测单个异常值)越具体。如果您有很多低风险模型,则只能监控与模型类型相关的标准指标。

网络异常,图片无法展示
|


CS 329S 教程中的Evidently性能仪表板示例

您可能可以计算数百种不同的指标!让我们尝试将它们分组以便快速查看。

模型质量指标。这组指标评估模型预测的真实质量。一旦掌握了ground truth或feedback(例如,关于点击、购买、实际交货时间等的数据),您就可以计算它们。以下是一些示例:

  • 回归:MAE(平均绝对误差)、RMSE(均方根误差)。
  • 分类:accuracy,precision,F1-score。
  • 排名:top-k 准确率,MAP(平均平均精度)。

按段划分的模型质量。汇总指标是必不可少的,但通常还不够。您可能有 90% 的整体准确率,但在一些重要的子群体(如新用户)中只有 60%。要检测此类差异,您可以跟踪数据中已知细分的模型质量(例如,不同地理位置的准确性)或主动搜索表现不佳的细分。

预测漂移。这是第一种代理质量监控。如果你不知道你的模型有多好,你至少可以密切关注它的预测有多么不同。想象一下,垃圾邮件检测模型突然开始在每一秒的预测中分配“垃圾邮件”标签。你甚至可以在得到真正的标签之前发出警报。要评估预测漂移,您可以使用不同的漂移检测方法:

  • 跟踪模型输出的描述性统计数据(例如,平均预测值、标准偏差)。
  • 应用统计测试(例如,Kolmogorov-Smirnov 测试、卡方测试)将最新模型输出与旧模型输出进行比较。
  • 使用概率距离度量来比较分布(例如,Wasserstein 距离)。

输入数据漂移。除了预测漂移之外,您还可以监控输入数据的变化并一起解释它们。目标是检测模型在不熟悉的环境中运行的情况,从数据中可以看出。检测方法类似于预测漂移。您可以监控各个特征的描述性统计数据(例如类别的频率)、运行统计测试或使用距离度量来检测分布变化。您还可以跟踪特定模式,例如特征和预测之间的线性相关性的变化。

网络异常,图片无法展示
|



CS 329S教程中的Evidently数据漂移仪表板示例

异常值。您可以检测出现异常以及模型可能无法按预期工作的个别案例。这与数据漂移不同,后者的目标是检测整体分布变化。当然,您仍然可以使用异常值的比率作为指标来绘制和警告。但是异常值检测的目标通常是识别个体异常输入并对其采取行动,例如,将它们标记为专家审查。您可以使用不同的统计方法(例如:孤立森林(isolation forests)或距离度量)来检测它们。

公平。这是模型质量的一个特定维度,由用例重要性和风险决定。如果 ML 决策像在金融、医疗保健和教育用例中经常发生的那样具有严重影响,您可能需要确保该模型在不同的人口群体中表现同样出色。有不同的指标来评估模型偏差,例如群体均等(demographic parity)或机会均等(equalized odds)。如果您有自动模型再训练,跟踪这些指标尤其重要,并且它的行为可能会随着时间而偏离。

网络异常,图片无法展示
|


您会注意到一些指标,例如:特征统计和异常值,同时出现在数据质量和模型质量上下文中。无论如何,当您查看数据时,ML 和数据监控通常是齐头并进的。但是,监控中以机器学习为重点的部分会查看数据以评估模型相关性。相比之下,监控中以数据质量为重点的部分会查找数据本身的损坏和错误

ML监控有什么难点?‍

几乎没有蓝图!

  • 模型质量是特定于上下文的。没有“标准准确度级别”或“明显的数据漂移”。模型质量期望取决于用例。例如,您可能非常关心个别特征的漂移,也可能很少关心。一些模型具有季节性;在设置比较窗口时应该考虑它。在某些情况下,您可能希望在几分钟内汇总数据;在其他情况中,超过几天。底线是您需要了解模型和数据以选择正确的监控指标和启发式方法。
  • 没有ground truth的监测。这种半盲监控对于 ML 来说是非常特殊的。您可能还会有部分反馈(例如,当专家手动检查仅部分预测时)或ground truth标签以不同的时间间隔到达。在没有大量警报的情况下定义模型质量的合适代理是很困难的。
  • 大规模计算指标。计算一小组现有数据的准确性可能是微不足道的。但是,随着规模的度量计算,它变得更加复杂。例如,您如何以分布式方式计算统计指标并快速完成?构建一个可扩展的、标准化的机器学习监控基础设施并不容易,尤其是对于实时应用程序。

如何实现机器学习监控:

我们致力于在我们创建的开源 ML 监控工具集 Evidently 中实施 ML 监控中的一些最佳实践。如果这是您想要解决的问题,请加入我们的 Discord 社区,在 GitHub 上聊天和分享或测试该工具!

相关文章
|
缓存 关系型数据库 MySQL
MySQL并发支撑底层Buffer Pool机制详解
【10月更文挑战第18天】在数据库系统中,磁盘IO操作是性能瓶颈之一。为了提高数据访问速度,减少磁盘IO,MySQL引入了缓存机制。其中,Buffer Pool是InnoDB存储引擎中用于缓存磁盘上的数据页和索引页的内存区域。通过缓存频繁访问的数据和索引,Buffer Pool能够显著提高数据库的读写性能。
526 2
|
7月前
|
缓存 运维 安全
2025 年 3 个最佳 WordPress 托管平台推荐
2025年,WordPress托管平台的选择对网站成功至关重要。本文推荐三大优质平台:WebSoft9,以企业级安全和开源优化见长;Hostinger,高性价比且新手友好;Bluehost,官方认证稳定性强。根据用户需求,WebSoft9适合技术要求高的企业,Hostinger适配预算有限的个人,Bluehost则面向追求稳定的中小企业。综合评估网站规模、技术和预算,选择最适合的平台可显著提升效率与安全性。
328 1
|
10月前
|
数据采集 存储 Serverless
5 分钟复刻你的声音,一键实现 GPT-Sovits 模型部署
想象一下,只需简单几步操作,就能生成逼真的语音效果,无论是为客户服务还是为游戏角色配音,都能轻松实现。GPT-Sovits 模型,其高效的语音生成能力为实现自然、流畅的语音交互提供了强有力的技术支持。本文将详细介绍如何利用函数计算平台部署 GPT-Sovits 模型,以构建一个高效、可扩展的 AI 语音交互系统。通过这一部署方案,开发者和企业能够快速集成语音合成功能,实现从文本到语音的无缝转换,进而推动智能语音应用的创新和发展。
1863 12
|
12月前
|
人工智能 新能源 BI
关于举办“2024年第四届全国大学生技术创新创业大赛”的通知
中国技术创业协会企业市场融通工作委员会将举办“2024年第四届全国大学生技术创新创业大赛”。大赛以“创新驱动,赋能就业”为目标,促进学生的创新创造能力,普及创新创业知识,拓宽就业创业渠道,挖掘创新人才,培育多元化的未来产业推进力量。
772 0
|
关系型数据库 MySQL
MySQL 8.0 - Authentication plugin ‘caching_sha2_password‘ cannot be loaded 原因及解决办法
MySQL 8.0 - Authentication plugin ‘caching_sha2_password‘ cannot be loaded 原因及解决办法
407 1
|
供应链 小程序 Java
基于Java超市库存管理系统设计和实现(源码+LW+调试文档+讲解等)
基于Java超市库存管理系统设计和实现(源码+LW+调试文档+讲解等)
|
存储 SQL 数据库
数据库技术探索:基础架构、应用场景与未来展望
一、引言 数据库技术是信息时代的基石,为企业和组织提供了数据存储、检索、分析和管理的核心支撑
|
存储 弹性计算 大数据
阿里云8核64G云服务器多少钱?2024年阿里云8核64G云服务器配置、价格、性能测评
2024年阿里云8核64G云服务器的价格为9934.16元一年。该价格基于特定的配置和促销活动,并可能因时间、活动政策、地域等因素而有所变动。关于阿里云8核64G云服务器的性能测评,该服务器配备了64GB的内存和8核的CPU,具有极高的计算能力和处理速度,适用于处理超大型数据、运行复杂应用或需要极高并发处理能力的场景。多种带宽选择(从1M到5M)可以满足不同的网络需求,确保数据传输的高效性。同时,40GB ESSD云盘提供了快速且稳定的数据存储解决方案,有助于提升整体性能。
820 0
|
Devops 数据安全/隐私保护 计算机视觉
【探讨】什么是“互联网式”的业务架构
关注公众号“达摩院首座”,了解开发者最真实生活
514 0
【探讨】什么是“互联网式”的业务架构
|
负载均衡 Kubernetes 前端开发
k8s-负载均衡流量(ingress-nginx)
ingress 介绍 ingress 安装 ingress 案例
k8s-负载均衡流量(ingress-nginx)