解决模型问题仍然太痛苦和缓慢
尽管取得了进展,但 ML 团队在生产环境中的故障排除、分类和解决模型问题方面经常面临延迟和挫折。 总之,84.3% 的数据科学家和 ML 工程师表示,至少在某些时候,检测和诊断模型问题所花费的时间对他们的团队来说是一个问题,超过四分之一 (26.2%) 的人承认这需要他们一周或更长时间来检测和修复模型的问题(即在检测到概念漂移(concept drift)后重新训练生产中的模型)。 一周或更长时间的延迟在金融服务中最为常见,其次是医疗保健和技术团队。
据近一半(48.6%)的团队称,大流行病(新冠疫情)后的环境加剧了漂移和性能问题。
以下哪一项最准确地描述了自 covid-19 出现以来您的角色发生了怎样的变化?如下图所示。
建议
评估并实现一个 ML 可观测性平台,帮助暴露和消除AI盲点。
几乎所有的 ML 团队都在监控已知的知识(模型指标,如准确性、AUC、F1等),大多数团队还试图通过解释性来解决黑盒AI(已知的未知数)。然而,通常缺少的是解决方案(暴露团队没有积极寻找的问题):盲点或未知的未知数。真正的ML可观察性可以帮助消除盲点,在隐藏的问题影响业务结果之前自动将其呈现出来。使用现代 ML 可观测性平台的团队可以快速可视化所有潜在问题,只需单击几下鼠标即可执行根本原因分析,而不是编写看似无休止的查询来找出性能下降的根源。
ML 团队需要与业务主管更好地沟通
尽管在 COVID-19 之后,ML 模型可以说对业务结果更为关键,但数据科学家和 ML 工程师报告的半数以上(54%)的数据显示,他们遇到的问题是,企业管理人员通常不能量化 ML 倡议的投资回报率。
几乎同样多的人(52.3%)也报告说,企业高管并不一贯的理解机器学习。造成这种脱节的可能原因是,“与团队中的其他人共享数据”和“在新模型更好时说服利益相关者”,至少对 80% 以上的 ML 从业者来说,有时仍然是个问题。
下图展示了您多久会遇到一次以下问题?
建议
提高内部可见性、提高 ML 读写能力并将模型指标与业务结果联系起来
业务主管需要更好地访问工具和易于理解的相关 KPI,包括最重要的是量化 AI 投资回报率(ROI)的方法。
通过将 ML 模型性能指标与关键业务指标联系起来,并允许高管访问跟踪进度的仪表盘,ML团队可以确保更广泛的认同。 为了帮助实现这一点,评估 ML 可观察性平台的 ML 团队可能需要考虑产品功能,例如:支持设置用户定义的函数以将模型性能与业务结果联系起来,能够将预生产模型与当前生产模型进行比较的能力(冠军和挑战者),并能够动态分析基于概率的决策模型的阈值。此外,一个支持图表共享链接并保存过滤器的平台也有助于跨团队协作。
可解释性很重要,但它不是一切
尽管技术主管高度重视可解释性,但 ML 工程师(通常是将模型投入生产并在那里维护它们的人)将监测和故障排除作为一个更高的优先级,请将可解释性与监控性能和数据质量问题相提并论。
建议
不要仅仅依靠可解释性;采取积极主动的方法进行模型性能管理。
专注于模型生命周期的预生产阶段的可解释性——训练模型并在部署前验证它——可能很有用。然而,一旦模型投入生产,继续将大量资源用于可解释性的效用有限,因为它会创建一个被动反馈循环。虽然在生产中对模型性能进行故障排除时,可解释性有助于妥善处理,但它并不能帮助您发现盲点,就像数据质量监控有助于在推理分布发生重大变化之前主动发现潜在问题一样。通过在给定模型中设置自动性能监视器,ML 团队可以拥有第一道防线——尤其是如果能够比较 A/B 数据集并执行数据质量检查的话。跨环境或生产前期的漂移监测也可能是模型输出发生变化的早期信号。
总结
虽然这些不是 MLOps 团队面临的唯一问题,但根据受访者的说法,它们是最突出的一些问题。