使用遗传交叉算子进行过采样处理数据不平衡(三)

简介: 使用遗传交叉算子进行过采样处理数据不平衡

640.png

交叉过采样的所有变体以及带有SMOTE的所有值(最近邻参数#的所有值k)均胜过原始数据集和随机过采样。

表现最好的是SMOTE,k = 5和k = 10,以及单点交叉(有和没有KNN)。

以上结果是由较高的查全率驱动的,并且表明过采样数据的新颖性,因为随机森林分类器可以识别特征空间中可能对应于目标1的新区域。

但是,ROC AUC指标并不是在不平衡数据集中使用的最佳指标。我们接下来看的精度-召回曲线可以说更合适。

640.png

在上面可以清楚地看出,在不同的k个参数上,交叉过采样的所有变体都胜过SMOTE。

没有KNN的单点和两点交叉操作是过滤器中表现最好的。

我寻找的另一个度量标准是选择最佳概率阈值后可获得的最大F1分数。那就是下面的最大F1图。

640.png

同样,这些见解与从PR AUC图表获得的见解相同。交叉变体的表现尤其出色,尤其是没有KNN的单点和两点交叉。

640.png

平衡准确度等于召回率为1s和召回率为0s的未加权平均值。并且这两个值有相等的权重。

准确性和其他指标之间保持平衡的缺点是,假设使用0.5的概率阈值,他们会考虑模型的预测性能。通常,使用不同的阈值,模型可能会具有明显更好的性能。

但是,平衡的精度表明交叉采样率过高,这是明显的获胜者,并且在均匀交叉方面略有优势,并且没有KNN。

640.png

召回率的比较也再次证实了我们以前对交叉采样率过高的表现的见解。在这种情况下,参数为10的SMOTE也是性能最高的,但是在下面的精度比较中,我们可以看到,即使使用具有更多邻居的SMOTE可以添加一些新颖的数据来增加召回率,但精度下降是 与使用交叉机制相比,情况更为严重。

这说明了在更平衡的指标(例如PR AUC,平衡的精度和Max F1)上实现了更好的性能交叉采样。

640.png

交叉和SMOTE过采样实现的更高召回率带来了精度的提高。当我们开始以1为目标标记合成的过采样数据时,即使我们不确定应分配的标签是100%,精度也会下降。

通常,在大多数数据集中,此类过采样技术会降低精度。

如前所述,一个关键的见解是,通过交叉过采样获得的数据的精度要比具有高k的SMOTE更好。

640.png

最后F1分数表明,在实现召回率和精度的完美结合方面,具有单边和两点交叉优势的交叉过采样是最佳技术。我更喜欢使用考虑不同概率阈值的Max F1分数。

总结

我们可以设计出许多过采样技术。本文的目的是展示非常简单的技术如何通过允许特征空间中的非线性组合实现良好的性能。

这在上面的数据集中成立,但是我看到的数据集中,与此类技术相关的精度损失导致性能指标降低,因此每个数据集都是不同的,因此应以不同的方式处理。

最后一点是,我发现在将交叉过采样与SMOTE结合使用时,使用整体技术对数据进行过采样效果很好,因此尝试使用不同的技术生成综合数据也有助于创建更好的集合。

目录
相关文章
|
18天前
|
机器学习/深度学习 算法 测试技术
处理不平衡数据的过采样技术对比总结
在不平衡数据上训练的分类算法往往导致预测质量差。模型严重偏向多数类,忽略了对许多用例至关重要的少数例子。这使得模型对于涉及罕见但高优先级事件的现实问题来说不切实际。
174 0
|
18天前
|
存储 数据采集 数据可视化
R语言拟合线性混合效应模型、固定效应随机效应参数估计可视化生物生长、发育、繁殖影响因素
R语言拟合线性混合效应模型、固定效应随机效应参数估计可视化生物生长、发育、繁殖影响因素
|
18天前
极值分析:分块极大值BLOCK-MAXIMA、阈值超额法、广义帕累托分布GPD拟合降雨数据时间序列
极值分析:分块极大值BLOCK-MAXIMA、阈值超额法、广义帕累托分布GPD拟合降雨数据时间序列
极值分析:分块极大值BLOCK-MAXIMA、阈值超额法、广义帕累托分布GPD拟合降雨数据时间序列
|
10月前
基于贝叶斯推理估计稳态 (ST) 和非稳态 (NS) LPIII 模型分布拟合到峰值放电(Matlab代码实现)
基于贝叶斯推理估计稳态 (ST) 和非稳态 (NS) LPIII 模型分布拟合到峰值放电(Matlab代码实现)
|
10月前
|
机器学习/深度学习 传感器 算法
融合自适应惯性权重和柯西变异的秃鹰搜索算法(CBES) - 附matlab代码
融合自适应惯性权重和柯西变异的秃鹰搜索算法(CBES) - 附matlab代码
|
10月前
【时频分析,非线性中频】非线性STFT在瞬时频率估计中的应用(Matlab代码实现)
【时频分析,非线性中频】非线性STFT在瞬时频率估计中的应用(Matlab代码实现)
|
10月前
|
机器学习/深度学习 传感器 算法
融合自适应惯性权重和柯西变异的秃鹰搜索算法(CBES) 附matlab代码
融合自适应惯性权重和柯西变异的秃鹰搜索算法(CBES) 附matlab代码
|
11月前
|
算法
基于适应度距离平衡的全局优化问题导向机制的改进粘液-霉菌算法(Matlab代码实现)
基于适应度距离平衡的全局优化问题导向机制的改进粘液-霉菌算法(Matlab代码实现)
|
11月前
|
算法
基于自适应适应度-距离平衡的随机分形搜索算法(Matlab代码实现)
基于自适应适应度-距离平衡的随机分形搜索算法(Matlab代码实现)
|
11月前
|
算法 Serverless
基本粒子群算法及惯性权重分析
粒子群算法(particle swarm optimization,PSO)是计算智能领域,除了蚁群算法、鱼群算法之外的一种群体智能的优化算法。该算法最早由Kennedy和Eberhart在1995年提出的。PSO算法源于对鸟类捕食行为的研究,鸟类捕食时,找到食物最简单有效的策略就是搜寻当前距离食物最近的鸟的周围区域。PSO算法是从这种生物种群行为特征中得到启发并用于求解优化问题的,算法中每个粒子都代表问题的一个潜在解,每个粒子对应一个由适应度函数决定的适应度值。粒子的速度决定了粒子移动的方向和距离,速度随自身及其他粒子的移动经验进行动态调整,从而实现个体在可解空间中的寻优。

热门文章

最新文章