机器学习中的概念漂移(Aporia)

简介: 随着机器学习模型成为自动化和预测任务越来越流行的解决方案,许多科技公司和数据科学家采用了以下工作范式:数据科学家负责解决特定问题,他们会得到可用相关数据的快照,他们致力于训练模型来解决它。 一旦模型经过测试,它就会进入生产阶段。最终,模型的性能开始下降,这通常是由于概念漂移。概念漂移是指目标变量(模型试图预测的内容)的统计特性随时间以不可预见的方式发生变化的情况。

随着机器学习模型成为自动化和预测任务越来越流行的解决方案,许多科技公司和数据科学家采用了以下工作范式:数据科学家负责解决特定问题,他们会得到可用相关数据的快照,他们致力于训练模型来解决它。 一旦模型经过测试,它就会进入生产阶段。最终,模型的性能开始下降,这通常是由于概念漂移。

概念漂移是指目标变量(模型试图预测的内容)的统计特性随时间以不可预见的方式发生变化的情况。

网络异常,图片无法展示
|

在视觉上,我们可以说概念是一种区分上图中蓝点和绿点的方法。 黑线表示将蓝点和绿点分开的概念。

机器学习中的漂移类型

对于下面的定义,我们以下参数表示:

  • XXX :模型输入。
  • y^\hat yy^ : 模型的预测。
  • YYY :真实标签。

漂移类型

  • 概念漂移p(Y∣X)p(Y|X)p(YX)分布的变化,意味着模型的输入真实标签之间的关系发生了变化。
  • 预测漂移:预测标签分布的变化(p(y^∣X)p(ŷ|X)p(y^X)),意味着模型的输入模型的预测之间的关系发生了变化。
  • 标签漂移:标签 p(Y)p(Y)p(Y) 的概率变化。
  • 特征漂移p(X)p(X)p(X) 概率的变化,意味着模型输入的分布发生了变化。

概念漂移可以以不同的方式出现

  • 突然漂移:一个新概念在短时间内出现(例如,在 2020 年 3 月 COVID-19 开始时,股价突然变化)。
  • 逐渐漂移:一个新概念会在很长一段时间内逐渐取代旧概念(例如,您会看到越来越少的新石油公司和越来越多的新技术公司)。
  • 递增的漂移:旧概念在一段时间内逐渐变为新概念(例如,股票价格逐渐稳定上涨)
  • 重复出现的概念:一个旧概念可能会在一段时间后再次出现(例如,周末与工作日的送餐量变化)。

注意:

  • 在逐渐漂移中,两个概念来来回回,直到新概念最终稳定下来;
  • 在递增的漂移中,概念逐渐转变为新概念。

概念漂移的两种类型

为了更好地理解概念漂移的影响,我们需要区分两种类型的概念漂移:

  • 虚拟的漂移:当 p(X)p(X)p(X) 改变但 p(Y∣X)p(Y|X)p(YX) 没有改变时。 这意味着特征的底层分布发生了变化,但模型的性能没有改变。
  • 真正的漂移p(Y∣X)p(Y|X)p(YX) 发生了变化,这意味着模型的性能发生了变化。

虚拟的漂移与真实的漂移如下图所示。

网络异常,图片无法展示
|

现实生活中的概念漂移

要了解概念漂移如何在现实生活中表现出来,我们应该看看我们的评估指标。在寻找概念漂移时,我们将数据视为流,并继续检查评估指标如何随时间波动。

一旦模型处于其生产环境中,我们就可以监控其性能,并通过查看其在数据流上的性能来寻找概念漂移。

通过将数据流划分为时间范围(例如:小时、天、周),我们可以了解数据中发生了什么变化。 如果输入分布(即:p(X)p(X)p(X))发生变化,但真实标签 p(Y∣X)p(Y|X)p(YX) 没有变化,我们可以将其归类为虚拟漂移,并得出结论:输入数据发生了变化,但没有影响其性能。如果标签发生了实际变化,即 p(Y∣X)p(Y|X)p(YX) 发生了变化,这意味着在时间范围内发生了真正的漂移,我们将检测它的影响。

例如,我们有一个训练有素的模型,我们使用准确率作为指标来衡量它的性能。我们希望随着时间的推移查看它的准确率:如果模型的性能随着时间的推移而下降,这意味着模型会衰减。

模型退化(即模型漂移、过时)是指模型性能随时间的推移而下降,并且因用户场景而异。有些模型可以运行多年,而其他模型的保质期不到一天。

网络异常,图片无法展示
|

上图已经表明,在发生显着退化点之前定期重新训练模型有助于在一定程度上缓解问题,但在许多情况下,这根本不够,在其他情况下甚至可能使情况变得更糟。

  • 有时很难确定模型显着退化的点
  • 我们并不总是知道需要重新训练的时间范围:一周可能为时已晚,但每小时的维护成本可能很高。
  • 在许多情况下,重新训练的时间窗口是不断变化的,因此,需要监控和优化这个参数本身。
  • 在许多情况下,仅仅重新训练是不够的。概念上的重大变化可能需要一种全新的模型
  • 在某些情况下,变化源于流水线其他部分的缺陷,例如:schema更改、删除的字段、应用程序错误等。在这种情况下,用有缺陷的数据重新训练模型可能没有效果,甚至可能加剧问题。

避免概念漂移破坏模型的最佳方法是在监控工具的帮助下掌握它


相关文章
|
9月前
|
机器学习/深度学习 人工智能 算法
详解机器学习概念、算法
详解机器学习概念、算法
详解机器学习概念、算法
|
1月前
|
机器学习/深度学习 资源调度 算法
机器学习领域必知数学符号与概念(一)
本文介绍了一些数学符号以及这些符号的含义。
188 65
|
4月前
|
机器学习/深度学习 自然语言处理 JavaScript
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)是量化概率分布差异的关键概念。本文深入探讨了KL散度及其相关概念,包括Jensen-Shannon散度和Renyi散度。KL散度用于衡量两个概率分布之间的差异,而Jensen-Shannon散度则提供了一种对称的度量方式。Renyi散度通过可调参数α,提供了更灵活的散度度量。这些概念不仅在理论研究中至关重要,在实际应用中也广泛用于数据压缩、变分自编码器、强化学习等领域。通过分析电子商务中的数据漂移实例,展示了这些散度指标在捕捉数据分布变化方面的独特优势,为企业提供了数据驱动的决策支持。
316 2
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
|
4月前
|
机器学习/深度学习 传感器 算法
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
|
9月前
|
机器学习/深度学习 自然语言处理 算法
|
6月前
|
机器学习/深度学习 算法
【机器学习】解释对偶的概念及SVM中的对偶算法?(面试回答)
解释了对偶的概念,指出对偶性在优化问题中的重要性,尤其是在强对偶性成立时可以提供主问题的最优下界,并且详细阐述了支持向量机(SVM)中对偶算法的应用,包括如何将原始的最大间隔优化问题转换为对偶问题来求解。
125 2
|
6月前
|
机器学习/深度学习
【机器学习】准确率、精确率、召回率、误报率、漏报率概念及公式
机器学习评估指标中的准确率、精确率、召回率、误报率和漏报率等概念,并给出了这些指标的计算公式。
1185 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之深度学习算法概念
深度学习算法是一类基于人工神经网络的机器学习方法,其核心思想是通过多层次的非线性变换,从数据中学习表示层次特征,从而实现对复杂模式的建模和学习。深度学习算法在图像识别、语音识别、自然语言处理等领域取得了巨大的成功,成为人工智能领域的重要技术之一。
109 3
|
6月前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】凸集、凸函数、凸优化、凸优化问题、非凸优化问题概念详解
本文解释了凸集、凸函数、凸优化以及非凸优化的概念,并探讨了它们在机器学习中的应用,包括如何将非凸问题转化为凸问题的方法和技术。
806 0
|
8月前
|
机器学习/深度学习 人工智能 算法
【机器学习】深度探索:从基础概念到深度学习关键技术的全面解析——梯度下降、激活函数、正则化与批量归一化
【机器学习】深度探索:从基础概念到深度学习关键技术的全面解析——梯度下降、激活函数、正则化与批量归一化
130 3

热门文章

最新文章