Arize AI 对顶级 ML 团队调查得出的 3 个结论

简介: 与 DevOps 或数据工程相比,MLOps 作为一种实践仍然相对年轻,尽管增长巨大。虽然很容易将其与 DevOps 相提并论,因为它的一些最佳实践很容易延续到 MLOps,但业内大多数人都认为,在将 ML 投入生产时存在一系列独特的挑战和需求。不幸的是,很少有可靠的行业调查来记录团队在应对这些不同挑战方面的表现。

解决模型问题仍然太痛苦和缓慢

尽管取得了进展,但 ML 团队在生产环境中的故障排除、分类和解决模型问题方面经常面临延迟和挫折。 总之,84.3% 的数据科学家和 ML 工程师表示,至少在某些时候,检测和诊断模型问题所花费的时间对他们的团队来说是一个问题,超过四分之一 (26.2%) 的人承认这需要他们一周或更长时间来检测和修复模型的问题(即在检测到概念漂移(concept drift)后重新训练生产中的模型)。 一周或更长时间的延迟在金融服务中最为常见,其次是医疗保健和技术团队。

网络异常,图片无法展示
|


据近一半(48.6%)的团队称,大流行病(新冠疫情)后的环境加剧了漂移和性能问题。

以下哪一项最准确地描述了自 covid-19 出现以来您的角色发生了怎样的变化?如下图所示。

网络异常,图片无法展示
|


建议

评估并实现一个 ML 可观测性平台,帮助暴露和消除AI盲点。

几乎所有的 ML 团队都在监控已知的知识(模型指标,如准确性、AUC、F1等),大多数团队还试图通过解释性来解决黑盒AI(已知的未知数)。然而,通常缺少的是解决方案(暴露团队没有积极寻找的问题):盲点或未知的未知数。真正的ML可观察性可以帮助消除盲点,在隐藏的问题影响业务结果之前自动将其呈现出来。使用现代 ML 可观测性平台的团队可以快速可视化所有潜在问题,只需单击几下鼠标即可执行根本原因分析,而不是编写看似无休止的查询来找出性能下降的根源。


ML 团队需要与业务主管更好地沟通

尽管在 COVID-19 之后,ML 模型可以说对业务结果更为关键,但数据科学家和 ML 工程师报告的半数以上(54%)的数据显示,他们遇到的问题是,企业管理人员通常不能量化 ML 倡议的投资回报率。

几乎同样多的人(52.3%)也报告说,企业高管并不一贯的理解机器学习。造成这种脱节的可能原因是,“与团队中的其他人共享数据”和“在新模型更好时说服利益相关者”,至少对 80% 以上的 ML 从业者来说,有时仍然是个问题。

下图展示了您多久会遇到一次以下问题?

网络异常,图片无法展示
|


建议

提高内部可见性、提高 ML 读写能力并将模型指标与业务结果联系起来

业务主管需要更好地访问工具和易于理解的相关 KPI,包括最重要的是量化 AI 投资回报率(ROI)的方法。

通过将 ML 模型性能指标与关键业务指标联系起来,并允许高管访问跟踪进度的仪表盘,ML团队可以确保更广泛的认同。 为了帮助实现这一点,评估 ML 可观察性平台的 ML 团队可能需要考虑产品功能,例如:支持设置用户定义的函数以将模型性能与业务结果联系起来,能够将预生产模型与当前生产模型进行比较的能力(冠军和挑战者),并能够动态分析基于概率的决策模型的阈值。此外,一个支持图表共享链接并保存过滤器的平台也有助于跨团队协作。

可解释性很重要,但它不是一切

尽管技术主管高度重视可解释性,但 ML 工程师(通常是将模型投入生产并在那里维护它们的人)将监测和故障排除作为一个更高的优先级,请将可解释性与监控性能和数据质量问题相提并论。

网络异常,图片无法展示
|

建议

不要仅仅依靠可解释性;采取积极主动的方法进行模型性能管理。

专注于模型生命周期的预生产阶段的可解释性——训练模型并在部署前验证它——可能很有用。然而,一旦模型投入生产,继续将大量资源用于可解释性的效用有限,因为它会创建一个被动反馈循环。虽然在生产中对模型性能进行故障排除时,可解释性有助于妥善处理,但它并不能帮助您发现盲点,就像数据质量监控有助于在推理分布发生重大变化之前主动发现潜在问题一样。通过在给定模型中设置自动性能监视器,ML 团队可以拥有第一道防线——尤其是如果能够比较 A/B 数据集并执行数据质量检查的话。跨环境或生产前期的漂移监测也可能是模型输出发生变化的早期信号。

总结

虽然这些不是 MLOps 团队面临的唯一问题,但根据受访者的说法,它们是最突出的一些问题。


相关文章
|
3月前
|
人工智能 安全 搜索推荐
北大计算机学院再登国际AI顶刊!张铭教授团队揭露医疗AI致命漏洞
【10月更文挑战第17天】北京大学计算机学院张铭教授团队在国际顶级人工智能期刊上发表重要成果,揭示了医疗AI系统中的致命漏洞——“模型反演”。该漏洞可能导致误诊和医疗事故,引起学术界和工业界的广泛关注。研究强调了医疗AI系统安全性评估的重要性。
51 1
|
18天前
|
传感器 人工智能 安全
杨笛一团队:一个弹窗,就能把AI智能体操控电脑整懵了
杨笛一团队最新研究揭示,简单弹窗可操控AI智能体,使其在执行任务时陷入混乱。实验显示,在OSWorld和VisualWebArena环境中,攻击成功率分别达86%和60%以上。该发现强调了AI安全的重要性,提醒我们在享受AI便利的同时需警惕潜在风险。研究指出,弹窗设计中的四个关键要素(注意力钩子、指令、信息横幅、ALT描述符)对攻击成功至关重要,并建议通过安全训练、人类监督和环境感知提升防御能力。
44 13
|
1月前
|
人工智能
带上团队一起来做 AI 编程实践丨通义灵码联合TGO鲲鹏会开启 AI 大课
带上团队一起来做 AI 编程实践丨通义灵码联合TGO鲲鹏会开启 AI 大课
|
1月前
|
人工智能 自然语言处理 数据挖掘
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
52 7
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
思通数科AI平台在尽职调查中的技术解析与应用
思通数科AI多模态能力平台结合OCR、NLP和深度学习技术,为IPO尽职调查、融资等重要交易环节提供智能化解决方案。平台自动识别、提取并分类海量文档,实现高效数据核验与合规性检查,显著提升审查速度和精准度,同时保障敏感信息管理和数据安全。
138 11
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
74 3
|
3月前
|
人工智能 安全 搜索推荐
北大计算机学院再登国际AI顶刊!张铭教授团队揭露医疗AI致命漏洞
【10月更文挑战第16天】北京大学张铭教授团队在国际顶级人工智能期刊上发表重要成果,揭示了医疗AI系统中的致命漏洞——“模型反演”。该漏洞可使攻击者通过特定数据样本误导AI诊断,引发误诊风险。此发现引起广泛关注,强调了医疗AI安全评估的重要性。
75 4
|
4月前
RTX3090可跑,360AI团队开源最新视频模型FancyVideo
【9月更文挑战第23天】近年来,人工智能技术的迅猛发展推动了视频生成领域的进步,但在合成动态、连贯且时长较长的视频方面仍面临挑战。为此,360AI团队提出了FancyVideo模型,通过跨帧文本指导实现更为连贯的视频生成。FancyVideo引入了跨帧文本指导模块(CTGM),包含时间信息注入器(TII)、时间相关性优化器(TAR)和时间特征增强器(TFB)三个组件,分别负责注入帧特定信息、优化相关性和增强时间一致性。这些机制使模型能生成具有连贯动作和丰富运动的视频,适用于动画制作和视频编辑等领域。然而,FancyVideo也存在计算复杂度高和细节真实感提升空间等局限。
60 3
|
4月前
|
人工智能 自动驾驶 云计算
【通义】AI视界|谷歌大模型被盯上!欧盟最高隐私监管机构对PaLM2模型展开调查~
本文汇总了近24小时内科技领域的五大要闻:欧盟对谷歌PaLM2模型启动隐私合规调查;甲骨文推出Zettascale云计算集群,集成大量NVIDIA GPU强化计算力;红杉资本偏好AI应用投资而非模型构建;夸克新推智能助手CueMe,支持长达2万字内容生成;沃尔沃与NVIDIA合作,未来车型将采用后者先进芯片提升自动驾驶功能。以上内容由通义自动生成。
|
5月前
|
人工智能 自然语言处理 Java
Spring AI,Spring团队开发的新组件,Java工程师快来一起体验吧
文章介绍了Spring AI,这是Spring团队开发的新组件,旨在为Java开发者提供易于集成的人工智能API,包括机器学习、自然语言处理和图像识别等功能,并通过实际代码示例展示了如何快速集成和使用这些AI技术。
Spring AI,Spring团队开发的新组件,Java工程师快来一起体验吧

热门文章

最新文章