ML 模型再训练无法解决的问题(mona)

简介: 信任人工智能系统并不容易。考虑到机器学习模型可能失败的各种边缘情况,以及对其预测背后的流程缺乏可见性,以及难以将其输出与下游业务结果相关联,难怪企业领导者经常对人工智能持有一些怀疑态度。

信任人工智能系统并不容易。考虑到机器学习模型可能失败的各种边缘情况,以及对其预测背后的流程缺乏可见性,以及难以将其输出与下游业务结果相关联,难怪企业领导者经常对人工智能持有一些怀疑态度。

也就是说,我曾与许多有远见的 AI 团队合作,致力于以产品为导向并建立对其 AI 系统的信任。我还与公司领导讨论了他们如何将他们的机器学习模型与他们部署的更广泛的业务环境联系起来。

在人工智能系统中产生信任并赋予它们以过程为导向的核心是机器学习模型监控的概念。然而,当提出人工智能监控时,如果自动标记新数据和重新训练模型的流程已经到位,数据科学家经常会困惑为什么需要它。这种思维是传统的、以研究为导向的数据科学方法的遗物,重要的是要了解现实世界充满了 ML 模型再训练不充分的场景。


不仅仅是机器学习模型

机器学习和人工智能是多维学科,不能仅仅简化为它们使用的模型。除了 ML 模型,AI 系统还包含数据(训练、测试和推理)、基于该数据构建的功能、软件平台和包含业务流程。即使一个模型是健康的,也不能立即保证围绕它构建的整个系统是健康的。由于所有这些互锁部件,系统的单个组件很容易以一种在没有适当的监控程序的情况下难以检测的方式无声地破坏。

网络异常,图片无法展示
|


例如,假设您已经训练并部署了一个模型来对用户在您的平台上进行的交易执行欺诈检测。该模型的其中一个特征可能是存储在终端用户浏览器中的 cookie。现在,假设 Chrome 发布了新的测试版浏览器,该版本更改了读取或写入客户端 cookie 的策略。因为这是浏览器的测试版,它只会被一小部分用户使用,比如 0.1%。但是,对于这小部分用户,您的模型可能会因错误地预测欺诈活动(结果:您失去客户)或让恶意用户溜走(结果:欺诈未被发现而您损失金钱)而导致灾难性的失败。无论哪种方式,由于它只占您的用户群的一小部分,因此您不太可能发现这些错误,直到至少发生以下一种情况,并且可能同时发生以下两种情况:

  1. 更多用户(例如:10%)使用新浏览器,在这种情况下,从创建问题到检测到问题之间会有很长的时间间隔。
  2. 下游 KPI 受到极大影响,即您失去了大量的客户、金钱等。

出于这个原因,至关重要的是在最细粒度的级别上实施系统模型监控,以便在这类问题滚雪球成更大的问题之前检测到它们

不过,这里要注意的关键是,在这种情况下,模型再训练将无济于事,因为模型没有问题。无论重新训练多少次,该模型仍将继续使用损坏的特征。为了解决问题,需要识别这个损坏的组件,而不是重新训练模型。


小而关键的细分市场

作为上述情况的自然延续,缺乏对数据和模型的细粒度监控可能会导致您错过了解对您的业务至关重要的小但非常重要的用户细分。

也许您的房地产业务可以从能够识别高净值客户以及他们最有可能购买的房屋中受益匪浅。或者,您的零售企业可能想要识别准妈妈,以便推荐怀孕专用产品。然而,由于这些细分市场只占少数,因此向您的训练流水线添加额外的一般客户数据可能会使问题更加复杂,就像在您已有的数据上重新训练您的模型一样。

针对平均情况进行优化只会导致您的模型在重要的部分上表现更差。在这种情况下,关键是通过精细监控它们对最有价值的业务 KPI 的影响来识别最重要的客户群,然后从这些特定的细分市场收集更多数据。没有目标数据获取的必要预先断言步骤的模型再训练只会使您的模型变得更糟。


概念偏差可能太大,无法再训练

当现实世界的行为发生变化,导致数据和模型之间的关系发生根本性变化时,就会出现概念漂移。概念漂移表示被预测的目标变量相对于训练数据的逐渐位移。流数据和实时数据特别容易受到概念漂移的影响,因为这些类型的数据代表了世界不断变化的状态。有时,概念漂移所指向的行为变化非常极端,以至于重新训练 ML 模型并不是一种有效的缓解策略。相反,必须有针对性地解决问题的其他方法。

一些更有效的概念漂移缓解措施可以包括改进的特征工程和特征选择能够重塑流入的数据与模型输出之间的关系,通常可以通过选择更新和更具代表性的特征来实现。其他解决方案可以包括修改学习算法、选择新的超参数或简单地寻找更新的数据进行训练。关键是能够识别何时需要采取此类缓解措施,而这只能通过全面监测来实现。


即使是最有成就和最有经验的人工智能团队也容易受到这种概念漂移驱动的问题的影响。早在 2008 年推出的 Google Flu Trends 背后的想法就是建立一个可以根据 Google 搜索查询预测流感活动和爆发的系统。该产品的初始版本很有前景,早期报告表明,GFT 能够提前 10 天预测区域流感爆发。

网络异常,图片无法展示
|


网络异常,图片无法展示
|


网络异常,图片无法展示
|


网络异常,图片无法展示
|


不幸的是,GFT 的现实并不那么乐观,正如《科学》上一篇开创性文章的负面报道所显示的那样。虽然该产品的早期前景很有希望,但经过一段时间后,预测开始出现偏差。事实上,在 2011-2013 年流感季节期间,GFT将流感医生的实际就诊次数高估了百分之一百。

那么即使模型定期重新训练,这又是如何发生的呢?简而言之,模型再训练是不够的,因为用户在 Google 上搜索的方式在模型生命的几个月和几年中发生了太大的变化。这些变化可能包括人们搜索可能归因于其他疾病的症状、语言和俚语的变化,以及人们使用谷歌的目的类型的普遍转变。无论潜在的行为原因是什么,修复都需要重新考虑和自动化特征选择过程,或者可能完全使用新的学习算法

更好的人工智能监控可以更早地洞察潜在的概念漂移,并允许谷歌在收到负面新闻之前解决这些问题。


ML 模型训练机制的缺陷

实施自动化模型再训练最终成为每个 ML 流水线的必要部分,但这还不够

事实上,模型再训练将其自身的复杂性引入系统,这实际上可能导致生产 AI 中的下游问题。

例如,当这些 ML 模型在有缺陷的数据上重新训练时,数据收集系统中的错误可能会传播到模型中。或者,自动或人工标记过程中的错误可能导致模型学会预测错误的关系。因此,模型再训练不能孤立地看待,而必须在其存在的背景下进行理解。这类问题只能通过对再训练机制本身的监控来发现,而这种监控对于确保再训练实际上不会引起比它解决的问题更多的问题至关重要。


此外,再训练不是一个免费的过程。不断地重新训练模型需要收集新数据,支付存储所有这些数据的费用,并支付重新训练模型所需的计算时间。它还引入了所有上述风险。

更智能的监控可以帮助您了解何时真正需要再训练,而不是何时只是一个需要检查的框。此外,人工智能监控可以帮助针对特定细分市场进行有针对性的再训练。您可能并不总是希望在全新的训练集上重新训练您的模型,而是可能希望使用从特定的、代表性不足的部分收集的数据来微调其权重。 ML 监控允许识别这些重要的部分,并提供对何时实际需要再训练的洞察力。

打个比方,每次去健身房都做同样的全身锻炼会导致受伤并产生递减收益。相反,重要的是引入有针对性的锻炼来训练特定的肌肉群,以建立强壮健康的体格。同样,模型再训练通常应侧重于由综合监控过程提供信息的特定数据段

网络异常,图片无法展示
|


结论

现实世界中的 ML 模型并不像在研究环境中那样孤立。不断涌入的新数据流可能导致概念漂移,并以各种意想不到和不可预测的方式抛出模型预测

虽然制定模型再训练程序很重要,但作为解决所有问题的灵丹妙药,鲁莽的再训练并不是答案。事实上,这样做会带来额外的复杂性,并且会产生比它解决的问题更多的问题。智能且有效的模型再训练计划的关键在于最细粒度的全面监控,使您能够确定哪些数据段对您的 ML 模型和您的业务最重要。只有这样,选择性再训练才能提供它所保证的好处。

全面监控是面向产品的数据科学的更大规模全行业方法的一部分,并增强了对基于人工智能的解决方案的信任。我鼓励您在模型部署流水线的每个阶段都加入 AI 监控。


相关文章
|
6月前
|
机器学习/深度学习 数据采集 PyTorch
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
|
机器学习/深度学习 自然语言处理 PyTorch
【深度学习】实验12 使用PyTorch训练模型
【深度学习】实验12 使用PyTorch训练模型
144 0
|
3月前
|
Python
模型训练
【8月更文挑战第20天】模型训练。
50 0
|
3月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习】QLoRA:基于PEFT亲手量化微调Qwen2大模型
【机器学习】QLoRA:基于PEFT亲手量化微调Qwen2大模型
280 0
【机器学习】QLoRA:基于PEFT亲手量化微调Qwen2大模型
|
3月前
|
机器学习/深度学习
DNN模型训练
【8月更文挑战第9天】DNN模型训练。
29 1
|
4月前
|
机器学习/深度学习 PyTorch 算法框架/工具
大模型微调
【7月更文挑战第31天】
120 4
|
3月前
|
机器学习/深度学习 自然语言处理 数据可视化
训练模型
【8月更文挑战第1天】
48 2
|
6月前
|
机器学习/深度学习 人工智能 边缘计算
为何人们喜欢推理胜于训练大模型?
在AI和机器学习领域,越来越多的人转向重视推理而非大规模模型训练。推理的即时性和高效性使其在需要快速响应的场景中占优,如自然语言处理和图像识别。推理过程的可视化能帮助用户理解模型决策,便于调试和提升性能。此外,推理在边缘计算和移动设备上的应用降低了延迟和带宽成本,同时保护了用户隐私。相比于训练大模型的高资源消耗,推理更为节能且成本效益高,尤其在数据挖掘和新知识探索方面展现出创新潜力。推理在实际应用中与训练模型相结合,提供了性能与成本的有效平衡。随着技术进步,推理将在推动人工智能领域发展中发挥更大作用。
|
机器学习/深度学习 数据采集 算法
机器学习之PyTorch和Scikit-Learn第4章 构建优秀的训练数据集 - 数据预处理Part 2
我们在第1章 赋予计算机学习数据的能力和第3章 使用Scikit-Learn的机器学习分类器之旅中简单地介绍了将数据集划分为训练集和测试集的概念。在测试集中比较预测标签和真实标签可以看成是发布上线前对模型的无偏差性能评估。本节中,我们会准备一个新的数据集,葡萄酒数据集。在预处理完数据集后,我们会探讨不同的特征选择技术来对数据集降维。
279 0
机器学习之PyTorch和Scikit-Learn第4章 构建优秀的训练数据集 - 数据预处理Part 2
|
机器学习/深度学习 人工智能 物联网
快速玩转 Llama2!机器学习 PAI 最佳实践(二)—全参数微调训练
本实践将采用阿里云机器学习平台PAI-DSW模块针对 Llama-2-7B-Chat 进行全参数微调。PAI-DSW是交互式建模平台,该实践适合需要定制化微调模型,并追求模型调优效果的开发者。
2254 1
下一篇
无影云桌面