使用遗传交叉算子进行过采样处理数据不平衡(三)

简介: 使用遗传交叉算子进行过采样处理数据不平衡

640.png

交叉过采样的所有变体以及带有SMOTE的所有值(最近邻参数#的所有值k)均胜过原始数据集和随机过采样。

表现最好的是SMOTE,k = 5和k = 10,以及单点交叉(有和没有KNN)。

以上结果是由较高的查全率驱动的,并且表明过采样数据的新颖性,因为随机森林分类器可以识别特征空间中可能对应于目标1的新区域。

但是,ROC AUC指标并不是在不平衡数据集中使用的最佳指标。我们接下来看的精度-召回曲线可以说更合适。

640.png

在上面可以清楚地看出,在不同的k个参数上,交叉过采样的所有变体都胜过SMOTE。

没有KNN的单点和两点交叉操作是过滤器中表现最好的。

我寻找的另一个度量标准是选择最佳概率阈值后可获得的最大F1分数。那就是下面的最大F1图。

640.png

同样,这些见解与从PR AUC图表获得的见解相同。交叉变体的表现尤其出色,尤其是没有KNN的单点和两点交叉。

640.png

平衡准确度等于召回率为1s和召回率为0s的未加权平均值。并且这两个值有相等的权重。

准确性和其他指标之间保持平衡的缺点是,假设使用0.5的概率阈值,他们会考虑模型的预测性能。通常,使用不同的阈值,模型可能会具有明显更好的性能。

但是,平衡的精度表明交叉采样率过高,这是明显的获胜者,并且在均匀交叉方面略有优势,并且没有KNN。

640.png

召回率的比较也再次证实了我们以前对交叉采样率过高的表现的见解。在这种情况下,参数为10的SMOTE也是性能最高的,但是在下面的精度比较中,我们可以看到,即使使用具有更多邻居的SMOTE可以添加一些新颖的数据来增加召回率,但精度下降是 与使用交叉机制相比,情况更为严重。

这说明了在更平衡的指标(例如PR AUC,平衡的精度和Max F1)上实现了更好的性能交叉采样。

640.png

交叉和SMOTE过采样实现的更高召回率带来了精度的提高。当我们开始以1为目标标记合成的过采样数据时,即使我们不确定应分配的标签是100%,精度也会下降。

通常,在大多数数据集中,此类过采样技术会降低精度。

如前所述,一个关键的见解是,通过交叉过采样获得的数据的精度要比具有高k的SMOTE更好。

640.png

最后F1分数表明,在实现召回率和精度的完美结合方面,具有单边和两点交叉优势的交叉过采样是最佳技术。我更喜欢使用考虑不同概率阈值的Max F1分数。

总结

我们可以设计出许多过采样技术。本文的目的是展示非常简单的技术如何通过允许特征空间中的非线性组合实现良好的性能。

这在上面的数据集中成立,但是我看到的数据集中,与此类技术相关的精度损失导致性能指标降低,因此每个数据集都是不同的,因此应以不同的方式处理。

最后一点是,我发现在将交叉过采样与SMOTE结合使用时,使用整体技术对数据进行过采样效果很好,因此尝试使用不同的技术生成综合数据也有助于创建更好的集合。

目录
相关文章
|
canal 缓存 NoSQL
【Redis系列笔记】双写一致性
本文讨论了缓存不一致问题及其后果,如价格显示错误和订单计算错误。问题主要源于并发和双写操作的异常。解决方案包括使用分布式锁(但可能导致性能下降和复杂性增加)、延迟双删策略(通过延迟删除缓存来等待数据同步)以及异步同步方法,如通过Canal和MQ实现数据的最终一致性。面试中,可以提及这些策略来确保数据库和缓存数据的一致性。
1210 1
【Redis系列笔记】双写一致性
|
XML 前端开发 网络协议
WebService 教程(包含项目实践)
Web service是一个平台独立的,低耦合的,自包含的、基于可编程的web的应用程序,可使用开放的XML(标准通用标记语言下的一个子集)标准来描述、发布、发现、协调和配置这些应用程序,用于开发分布式的互操作的应用程序。
WebService 教程(包含项目实践)
一个免费功能强大的谷歌翻译api
分享一个免费且功能强大谷歌翻译api
10912 2
一个免费功能强大的谷歌翻译api
|
11月前
|
数据采集 自然语言处理 文字识别
92页的llama 3.1技术报告,我替你们啃下来了
作者花了半个月时间,认真读完了llama 3.1技术报告,并总结成本文,希望能帮到对这个感兴趣的小伙伴们。
92页的llama 3.1技术报告,我替你们啃下来了
|
机器学习/深度学习 人工智能 安全
安全多方计算之六:秘密共享
安全多方计算之六:秘密共享
|
测试技术 数据库 UED
【白盒测试】单元测试的理论基础及用例设计技术(6种)详解
【白盒测试】单元测试的理论基础及用例设计技术(6种)详解
1040 1
|
开发者 Python
手把手教你申请软件著作权(已下证 带模板)
手把手教你申请软件著作权(已下证 带模板)
|
存储 监控 数据安全/隐私保护
【HCIA】05.华为VRP
【HCIA】05.华为VRP
253 0
|
测试技术 uml 开发者
如何画出规范的 UML 用例图
如果你在做设计过程中有一些困惑,如:不会找用例、两个用例图分不清楚、不知道自己画的对不对。那么希望本文能帮助厘清上面几个问题,真正掌握用例图,在后面的设计中能运用的得心应手。