ML 模型监控最佳工具(下)

简介: 如果您迟早将模型部署到生产环境,那么您将开始寻找 ML 模型监控工具。当您的 ML 模型影响业务时,您只需要了解“事物是如何工作的”。当事物停止工作时,你真正感受到这一点的第一刻。如果没有设置模型监控,您可能不知道哪里出了问题以及从哪里开始寻找问题和解决方案。


6. Qualdo

网络异常,图片无法展示
|


Qualdo 是 Azure、Google 和 AWS 中的机器学习模型性能监控工具。 该工具具有一些不错的基本功能,可让您在整个生命周期中观察模型。

使用 Qualdo,您可以从生产 ML 输入/预测数据、日志和应用程序数据中获得洞察力,以观察和改进您的模型性能。 有模型部署和数据漂移和数据异常的自动监控,您可以看到质量指标和可视化。

它还提供了在 Tensorflow 中监控 ML 流水线性能的工具,并利用了 Tensorflow 的数据验证和模型评估功能。

此外,它还集成了许多人工智能、机器学习和通信工具,以改善您的工作流程并简化协作。

这是一个相当简单的工具,并没有提供许多高级功能。 因此,如果您正在寻找一个简单的 ML 模型监控性能解决方案,那它就是一个好的选择。


7. Fiddler

网络异常,图片无法展示
|


Fiddler 是一个模型监控工具,具有用户友好、清晰、简单的界面。它使您可以监控模型性能、解释和调试模型预测、通过整个数据和切片来分析模型行为、大规模部署机器学习模型以及管理机器学习模型和数据集。

以下是 Fiddler 的 ML 模型监控功能:

  • 性能监控 - 一种探索数据漂移并识别哪些数据在漂移、何时漂移以及如何漂移的可视化方式
  • 数据完整性 - 确保没有不正确的数据进入您的模型,并且不会对最终用户体验产生负面影响
  • 跟踪异常值 - Fiddler 在异常值检测选项卡中显示单变量和多变量异常值
  • 服务指标 - 让您基本了解生产环境中 ML 服务的运行状况
  • 警报 — Fiddler 允许您为项目中的一个模型或一组模型设置警报,以警告生产中的问题

总体而言,它是监控具有所有必要功能的机器学习模型的绝佳工具。


8. Amazon SageMaker Model Monitor

网络异常,图片无法展示
|


Amazon SageMaker 模型监控 是 Amazon SageMaker 的工具之一。它会自动检测生产中部署的模型的不准确预测并发出警报,以便您保持模型的准确性。

以下是 SageMaker 模型监控功能的摘要:

  • 可定制的数据收集和监控——您可以选择您想要监控和分析的数据,无需编写任何代码
  • 以统计规则的形式内置分析,以检测数据和模型质量的漂移
  • 您可以编写自定义规则并为每个规则指定阈值。然后可以使用这些规则来分析模型性能
  • 指标可视化,并在 SageMaker notebook 实例中运行临时分析
  • 模型预测——导入数据以计算模型性能
  • 调度监控作业
  • 该工具与 Amazon SageMaker Clarify 集成,因此您可以识别 ML 模型中的潜在偏差

当与其他机器学习工具一起使用时,SageMaker 模型监视器可让您完全控制您的实验。


9. Seldon Core

网络异常,图片无法展示
|


Seldon Core 是一个开源平台,用于在 Kubernetes 上部署机器学习模型。 它是一个 MLOps 框架,可让您打包、部署、监控和管理数以千计的生产机器学习模型。

它可以在任何云和本地运行,与框架无关,支持顶级 ML 库、工具包和语言。 此外,它将您的 ML 模型(例如,Tensorflow、Pytorch、H2o)或语言包装器(Python、Java)转换为生产 REST/GRPC 微服务。

基本上,Seldon Core 具有扩展大量 ML 模型所需的所有功能。 您可以期待高级指标、异常值检测器、金丝雀、由预测器、转换器、路由器或组合器组成的丰富推理图等功能。


10. Censius

Censius 是一个 AI 模型可观察性平台,可让您监控整个 ML 流水线、解释预测并主动修复问题以改善业务成果。

网络异常,图片无法展示
|


Censius 的主要特点:

  • 完全可配置的监视器,可检测漂移、数据质量问题和性能下降
  • 实时通知让您提前了解模型服务流水线中的问题
  • 可定制的仪表板,您可以在其中对模型训练和生产数据进行切片和切块,并观察任何业务 KPI
  • 当您继续在生产中使用不同的模型进行试验和迭代时,对 A/B 测试框架的原生支持
  • 通过表格、图像、文本数据的可解释性深入挖掘问题的根本原因

总结

既然您知道了如何评估 ML 模型监视工具以及现有的工具,那么最好的方法就是测试出您喜欢的工具!

相关文章
|
存储 人工智能 Prometheus
ML 模型监控最佳工具(上)
如果您迟早将模型部署到生产环境,那么您将开始寻找 ML 模型监控工具。 当您的 ML 模型影响业务时,您只需要了解“事物是如何工作的”。 当事物停止工作时,你真正感受到这一点的第一刻。如果没有设置模型监控,您可能不知道哪里出了问题以及从哪里开始寻找问题和解决方案。
|
机器学习/深度学习 监控 Kubernetes
使用 Seldon Alibi 进行模型监控
虽然 Seldon 使在生产中部署和服务模型变得容易,但一旦部署,我们如何知道该模型是否在做正确的事情? 训练期间的良好表现并不一定意味着在生产运行几个月后表现良好。 现实世界中发生的事情是我们无法解释的,例如:输入数据逐渐偏离训练数据,以及异常值和偏差。
|
机器学习/深度学习 人工智能 算法
|
7月前
|
分布式计算 运维 搜索推荐
立马耀:通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统,驱动个性化推荐业务
蝉妈妈旗下蝉选通过迁移到阿里云 Serverless Spark 及 Milvus,解决传统架构性能瓶颈与运维复杂性问题。新方案实现离线任务耗时减少40%、失败率降80%,Milvus 向量检索成本降低75%,支持更大规模数据处理,查询响应提速。
320 57
|
6月前
|
数据采集 机器学习/深度学习 自然语言处理
NLP助力非结构化文本抽取:实体关系提取实战
本文介绍了一套基于微博热帖的中文非结构化文本分析系统,通过爬虫代理采集数据,结合NLP技术实现实体识别、关系抽取及情感分析。核心技术包括爬虫模块、请求配置、页面采集和中文NLP处理,最终将数据结构化并保存为CSV文件或生成图谱。代码示例从基础正则规则到高级深度学习模型(如BERT-BiLSTM-CRF)逐步演进,适合初学者与进阶用户调试与扩展,展现了中文NLP在实际场景中的应用价值。
405 3
NLP助力非结构化文本抽取:实体关系提取实战
|
12月前
|
Java Unix Linux
Java “SocketException” 错误怎么处理
Java 中的 "SocketException" 错误通常发生在网络通信过程中,如连接失败、断开连接或数据传输异常。处理方法包括检查网络配置、确保服务器正常运行、使用超时设置和重试机制,以及捕获并处理异常。
2079 6
|
运维 安全 大数据
【TICA大咖】如何紧贴业务建设质量保障体系
阿里QA导读:铛铛铛,TICA大咖第二期带来大数据&智能化分会场出品人-小瑕老师的万字长文,讲述如何紧贴业务建设质量保障体系,结合不同业务实践给出分析总结,强烈建议大家mark住,找一个固定不被打扰时间仔细阅读,带着批判性思维从本文中提取出你觉得有用的保障方式,去自己的业务模块中进行实践。PS-文末公布上期中奖信息哦~
2060 1
【TICA大咖】如何紧贴业务建设质量保障体系
|
存储 芯片
一文读懂Marvell交换芯片
一文读懂Marvell交换芯片
一文读懂Marvell交换芯片
|
网络安全 Python Windows
ImportError: DLL load failed while importing _ssl: 找不到指定的模块。
找到Anaconda3\pkgs\python-3.8.12-h900ac77_2_cpython\DLLs下的_ssl.pyd文件,查阅在该环境上安装的python版本号,下载python寻找对应的_ssl.pyd覆盖到上述目录中,即可解决问题。
1741 0
|
机器学习/深度学习 数据采集 监控
机器学习模型监控(Aporia)(上)
机器学习模型监控 什么是机器学习 (ML) 模型监控? 机器学习监控是一组用于观察生产中的 ML 模型并确保其性能可靠性的技术。 ML模型通过观察数据集中的示例进行训练,并将代表模型在训练任务中表现的好坏的错误最小化。