Arize AI 对顶级 ML 团队调查得出的 3 个结论

简介: 与 DevOps 或数据工程相比,MLOps 作为一种实践仍然相对年轻,尽管增长巨大。虽然很容易将其与 DevOps 相提并论,因为它的一些最佳实践很容易延续到 MLOps,但业内大多数人都认为,在将 ML 投入生产时存在一系列独特的挑战和需求。不幸的是,很少有可靠的行业调查来记录团队在应对这些不同挑战方面的表现。

解决模型问题仍然太痛苦和缓慢

尽管取得了进展,但 ML 团队在生产环境中的故障排除、分类和解决模型问题方面经常面临延迟和挫折。 总之,84.3% 的数据科学家和 ML 工程师表示,至少在某些时候,检测和诊断模型问题所花费的时间对他们的团队来说是一个问题,超过四分之一 (26.2%) 的人承认这需要他们一周或更长时间来检测和修复模型的问题(即在检测到概念漂移(concept drift)后重新训练生产中的模型)。 一周或更长时间的延迟在金融服务中最为常见,其次是医疗保健和技术团队。

网络异常,图片无法展示
|


据近一半(48.6%)的团队称,大流行病(新冠疫情)后的环境加剧了漂移和性能问题。

以下哪一项最准确地描述了自 covid-19 出现以来您的角色发生了怎样的变化?如下图所示。

网络异常,图片无法展示
|


建议

评估并实现一个 ML 可观测性平台,帮助暴露和消除AI盲点。

几乎所有的 ML 团队都在监控已知的知识(模型指标,如准确性、AUC、F1等),大多数团队还试图通过解释性来解决黑盒AI(已知的未知数)。然而,通常缺少的是解决方案(暴露团队没有积极寻找的问题):盲点或未知的未知数。真正的ML可观察性可以帮助消除盲点,在隐藏的问题影响业务结果之前自动将其呈现出来。使用现代 ML 可观测性平台的团队可以快速可视化所有潜在问题,只需单击几下鼠标即可执行根本原因分析,而不是编写看似无休止的查询来找出性能下降的根源。


ML 团队需要与业务主管更好地沟通

尽管在 COVID-19 之后,ML 模型可以说对业务结果更为关键,但数据科学家和 ML 工程师报告的半数以上(54%)的数据显示,他们遇到的问题是,企业管理人员通常不能量化 ML 倡议的投资回报率。

几乎同样多的人(52.3%)也报告说,企业高管并不一贯的理解机器学习。造成这种脱节的可能原因是,“与团队中的其他人共享数据”和“在新模型更好时说服利益相关者”,至少对 80% 以上的 ML 从业者来说,有时仍然是个问题。

下图展示了您多久会遇到一次以下问题?

网络异常,图片无法展示
|


建议

提高内部可见性、提高 ML 读写能力并将模型指标与业务结果联系起来

业务主管需要更好地访问工具和易于理解的相关 KPI,包括最重要的是量化 AI 投资回报率(ROI)的方法。

通过将 ML 模型性能指标与关键业务指标联系起来,并允许高管访问跟踪进度的仪表盘,ML团队可以确保更广泛的认同。 为了帮助实现这一点,评估 ML 可观察性平台的 ML 团队可能需要考虑产品功能,例如:支持设置用户定义的函数以将模型性能与业务结果联系起来,能够将预生产模型与当前生产模型进行比较的能力(冠军和挑战者),并能够动态分析基于概率的决策模型的阈值。此外,一个支持图表共享链接并保存过滤器的平台也有助于跨团队协作。

可解释性很重要,但它不是一切

尽管技术主管高度重视可解释性,但 ML 工程师(通常是将模型投入生产并在那里维护它们的人)将监测和故障排除作为一个更高的优先级,请将可解释性与监控性能和数据质量问题相提并论。

网络异常,图片无法展示
|

建议

不要仅仅依靠可解释性;采取积极主动的方法进行模型性能管理。

专注于模型生命周期的预生产阶段的可解释性——训练模型并在部署前验证它——可能很有用。然而,一旦模型投入生产,继续将大量资源用于可解释性的效用有限,因为它会创建一个被动反馈循环。虽然在生产中对模型性能进行故障排除时,可解释性有助于妥善处理,但它并不能帮助您发现盲点,就像数据质量监控有助于在推理分布发生重大变化之前主动发现潜在问题一样。通过在给定模型中设置自动性能监视器,ML 团队可以拥有第一道防线——尤其是如果能够比较 A/B 数据集并执行数据质量检查的话。跨环境或生产前期的漂移监测也可能是模型输出发生变化的早期信号。

总结

虽然这些不是 MLOps 团队面临的唯一问题,但根据受访者的说法,它们是最突出的一些问题。


相关文章
|
6月前
|
人工智能 文字识别 监控
|
人工智能 安全 搜索推荐
北大计算机学院再登国际AI顶刊!张铭教授团队揭露医疗AI致命漏洞
【10月更文挑战第17天】北京大学计算机学院张铭教授团队在国际顶级人工智能期刊上发表重要成果,揭示了医疗AI系统中的致命漏洞——“模型反演”。该漏洞可能导致误诊和医疗事故,引起学术界和工业界的广泛关注。研究强调了医疗AI系统安全性评估的重要性。
237 1
|
10月前
|
机器学习/深度学习 人工智能 测试技术
让大模型“言简意赅”:马里兰大学团队破解AI推理冗长之谜
说到底,这项研究解决的是一个非常实际的问题:如何让强大的AI推理模型变得更加"经济实用"。通过巧妙的训练策略,研究团队成功地让模型学会了"话不多说,直击要点"的能力。这不仅提高了计算效率,也为AI技术的普及应用扫除了一个重要障碍。对于普通用户而言,这意味着未来我们能够以更低的成本享受到更高质量的AI推理服务。对于研究者和开发者来说,这项工作为优化AI模型性能提供了新的视角和工具。归根结底,这是一项让AI变得更聪明、更高效的研究,值得我们持续关注其后续发展。
|
机器学习/深度学习 人工智能 自然语言处理
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
DeepMesh 是由清华大学和南洋理工大学联合开发的 3D 网格生成框架,基于强化学习和自回归变换器,能够生成高质量的 3D 网格,适用于虚拟环境构建、动态内容生成、角色动画等多种场景。
1350 4
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
|
人工智能 网络性能优化 调度
Koordinator v1.6: 支持AI/ML场景的异构资源调度能力
如何高效管理和调度这些资源成为了行业关注的核心问题。在这一背景下,Koordinator积极响应社区诉求,持续深耕异构设备调度能力,并在最新的v1.6版本中推出了一系列创新功能,帮助客户解决异构资源调度难题。
|
传感器 人工智能 安全
杨笛一团队:一个弹窗,就能把AI智能体操控电脑整懵了
杨笛一团队最新研究揭示,简单弹窗可操控AI智能体,使其在执行任务时陷入混乱。实验显示,在OSWorld和VisualWebArena环境中,攻击成功率分别达86%和60%以上。该发现强调了AI安全的重要性,提醒我们在享受AI便利的同时需警惕潜在风险。研究指出,弹窗设计中的四个关键要素(注意力钩子、指令、信息横幅、ALT描述符)对攻击成功至关重要,并建议通过安全训练、人类监督和环境感知提升防御能力。
408 13
|
人工智能
带上团队一起来做 AI 编程实践丨通义灵码联合TGO鲲鹏会开启 AI 大课
带上团队一起来做 AI 编程实践丨通义灵码联合TGO鲲鹏会开启 AI 大课
|
人工智能 自然语言处理 数据挖掘
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
489 7
|
机器学习/深度学习 人工智能 自然语言处理
思通数科AI平台在尽职调查中的技术解析与应用
思通数科AI多模态能力平台结合OCR、NLP和深度学习技术,为IPO尽职调查、融资等重要交易环节提供智能化解决方案。平台自动识别、提取并分类海量文档,实现高效数据核验与合规性检查,显著提升审查速度和精准度,同时保障敏感信息管理和数据安全。
760 11