Arize AI 对顶级 ML 团队调查得出的 3 个结论-阿里云开发者社区

Arize AI 对顶级 ML 团队调查得出的 3 个结论

2022-11-02 183

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 与 DevOps 或数据工程相比，MLOps 作为一种实践仍然相对年轻，尽管增长巨大。虽然很容易将其与 DevOps 相提并论，因为它的一些最佳实践很容易延续到 MLOps，但业内大多数人都认为，在将 ML 投入生产时存在一系列独特的挑战和需求。不幸的是，很少有可靠的行业调查来记录团队在应对这些不同挑战方面的表现。

解决模型问题仍然太痛苦和缓慢

尽管取得了进展，但 ML 团队在生产环境中的故障排除、分类和解决模型问题方面经常面临延迟和挫折。总之，84.3% 的数据科学家和 ML 工程师表示，至少在某些时候，检测和诊断模型问题所花费的时间对他们的团队来说是一个问题，超过四分之一 (26.2%) 的人承认这需要他们一周或更长时间来检测和修复模型的问题（即在检测到概念漂移（concept drift）后重新训练生产中的模型）。一周或更长时间的延迟在金融服务中最为常见，其次是医疗保健和技术团队。

网络异常，图片无法展示

据近一半（48.6%）的团队称，大流行病（新冠疫情）后的环境加剧了漂移和性能问题。

以下哪一项最准确地描述了自 covid-19 出现以来您的角色发生了怎样的变化？如下图所示。

网络异常，图片无法展示

建议

评估并实现一个 ML 可观测性平台，帮助暴露和消除AI盲点。

几乎所有的 ML 团队都在监控已知的知识（模型指标，如准确性、AUC、F1等），大多数团队还试图通过解释性来解决黑盒AI（已知的未知数）。然而，通常缺少的是解决方案（暴露团队没有积极寻找的问题）：盲点或未知的未知数。真正的ML可观察性可以帮助消除盲点，在隐藏的问题影响业务结果之前自动将其呈现出来。使用现代 ML 可观测性平台的团队可以快速可视化所有潜在问题，只需单击几下鼠标即可执行根本原因分析，而不是编写看似无休止的查询来找出性能下降的根源。

ML 团队需要与业务主管更好地沟通

尽管在 COVID-19 之后，ML 模型可以说对业务结果更为关键，但数据科学家和 ML 工程师报告的半数以上（54%）的数据显示，他们遇到的问题是，企业管理人员通常不能量化 ML 倡议的投资回报率。

几乎同样多的人（52.3%）也报告说，企业高管并不一贯的理解机器学习。造成这种脱节的可能原因是，“与团队中的其他人共享数据”和“在新模型更好时说服利益相关者”，至少对 80% 以上的 ML 从业者来说，有时仍然是个问题。

下图展示了您多久会遇到一次以下问题？

网络异常，图片无法展示

建议

提高内部可见性、提高 ML 读写能力并将模型指标与业务结果联系起来

业务主管需要更好地访问工具和易于理解的相关 KPI，包括最重要的是量化 AI 投资回报率（ROI）的方法。

通过将 ML 模型性能指标与关键业务指标联系起来，并允许高管访问跟踪进度的仪表盘，ML团队可以确保更广泛的认同。为了帮助实现这一点，评估 ML 可观察性平台的 ML 团队可能需要考虑产品功能，例如：支持设置用户定义的函数以将模型性能与业务结果联系起来，能够将预生产模型与当前生产模型进行比较的能力（冠军和挑战者），并能够动态分析基于概率的决策模型的阈值。此外，一个支持图表共享链接并保存过滤器的平台也有助于跨团队协作。

可解释性很重要，但它不是一切

尽管技术主管高度重视可解释性，但 ML 工程师（通常是将模型投入生产并在那里维护它们的人）将监测和故障排除作为一个更高的优先级，请将可解释性与监控性能和数据质量问题相提并论。

网络异常，图片无法展示

建议

不要仅仅依靠可解释性；采取积极主动的方法进行模型性能管理。

专注于模型生命周期的预生产阶段的可解释性——训练模型并在部署前验证它——可能很有用。然而，一旦模型投入生产，继续将大量资源用于可解释性的效用有限，因为它会创建一个被动反馈循环。虽然在生产中对模型性能进行故障排除时，可解释性有助于妥善处理，但它并不能帮助您发现盲点，就像数据质量监控有助于在推理分布发生重大变化之前主动发现潜在问题一样。通过在给定模型中设置自动性能监视器，ML 团队可以拥有第一道防线——尤其是如果能够比较 A/B 数据集并执行数据质量检查的话。跨环境或生产前期的漂移监测也可能是模型输出发生变化的早期信号。

总结

虽然这些不是 MLOps 团队面临的唯一问题，但根据受访者的说法，它们是最突出的一些问题。

Arize AI 对顶级 ML 团队调查得出的 3 个结论

解决模型问题仍然太痛苦和缓慢

建议

ML 团队需要与业务主管更好地沟通

建议

可解释性很重要，但它不是一切

建议

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Arize AI 对顶级 ML 团队调查得出的 3 个结论

解决模型问题仍然太痛苦和缓慢

建议

ML 团队需要与业务主管更好地沟通

建议

可解释性很重要，但它不是一切

建议

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景