人工智能中非平衡数据处理方法、欠采样、过采样讲解(简单易懂)

简介: 人工智能中非平衡数据处理方法、欠采样、过采样讲解(简单易懂)

非平衡数据产生现象及原因

非平衡数据是人工智能安全中经常遇到的问题,一方面,在采集和准备数据时,由于安全事件发生的可能性不同等因素的影响,使得训练数据存在非平衡,另一方面,机器学习模型的攻击者也可能利用非平衡数据学习所产生的分类效果在多数类上的偏斜,而成为攻击者对机器学习模型攻击的一种手段,不管哪种情况,对机器学习系统的数据进行非平衡数据处理都是非常有必要的

在网络信息安全问题中,诸如恶意软件检测、SQL注入、不良信息检测等许多问题都可以归结为机器学习分类问题。这类机器学习应用问题中,普遍存在非平衡数据的现象

产生的原因:攻击者的理性特征使得攻击样本不会大规模出现。 警惕性高的攻击者,会经常变换攻击方式避免被防御方检测出来。少数类样本的信息量比多数类要少得很多。

非平衡数据对各种分类器的影响 KNN Bayes 决策树 Logistic回归 当用于非平衡数据分类时,为了最大化整个分类系统的分类精度,必然会使得分类模型偏向于多数类,从而造成少数类的分类准确性低

非平衡数据处理方法

欠抽样方法通过减少多数类样本来提高少数类的分类性能

常见的欠采样方法有随机欠采样、启发式欠采样等。随机欠采样通过随机地去掉一些多数类样本来减小多数类的规模,缺点是会丢失多数类的一些重要信息,不能够充分利用已有的信息

启发式欠采样基本出发点是保留重要样本、有代表性的样本,而这些样本的选择是基于若干启发式规则。经典的欠采样方法是邻域清理(NCL,Neighborhood cleaning rule)和Tome links法,其中NCL包含ENN,典型的有以下若干种

Edited Nearest Neighbor (ENN) 对于多数类的样本,如果其大部分k近邻样本都跟它自己本身的类别不一样,就将他删除。 也可以从少数类的角度来处理:对于少数类样本,如果其大部分k近邻样本都是少数类,则将其多数类近邻删除

把多数类样本转换为少数类 Condensed Nearest Neighbor(CNN) 对点进行KNN分类,如果分类错误,则将该点作为少数类样本。在实际运用中,选择比较小的K

Near Miss(NM) NearMiss-1:对于每个多数类样本,计算其与最近的三个少数类样本的平均距离,选择最小距离对应的多数类样本。 NearMiss-

2:与NearMiss-1相反,计算与最远的三个少数类样本的平均距离,并选择最小距离对应的多数类样本。 NearMiss-

3:对每个少数类样本,选择与之最接近的若干个多数类样本

NearMiss-1针对数据分布的局部特征;

NearMiss-2针对数据分布的全局特征。

NearMiss-1倾向于在比较集中的少数类附近找到更多的多数类样本,而在离群的少数类附近找到更少的多数类样本

Tomek Links方法    如果有两个不同类别的样本,它们的最近邻都是对方,也就是A的最近邻是B,B的最近邻是A,那么A,B就是Tomek link。 数学语言:两个不同类别的样本点xi和xj,它们之间的距离表示为d(xi,xj),如果不存在第三个样本点xl使得d(xl,xi)<d(xi,xj)或者d(xl,xj)<d(xi,xj)成立,则称(xi,xj)为一个Tomek link

Tomek Link Removal 处理方法:把所有Tomek link都删除掉,即对于Tomek link的两个样本,如果有一个属于多数类样本,就将该多数类样本删除掉

过采样

Synthetic Minority Oversampling Technique(SMOTE)

该算法只是简单在两个近邻之间进行插值采样,而没有考虑到采样点附近的样本分布情况,从而可能产生趋向于其他类别的样本,以及样本重复等问题

该算法根据少数类近邻样本的类别分布情况,判断该样本以后被误分的可能性,从而有选择地进行线性插值采样生成新的少数类样本

在DANGER数据集中的点不仅从S集中求最近邻并生成新的少数类点,同时也在L数据集中求最近邻,并生成新的少数类点。这会使得少数类的点更加接近其真实值

 

相关文章
|
7月前
|
人工智能 安全 数据挖掘
Pandas AI:Pandas与人工智能的结合,让你不再拘泥于如何使用pandas方法及处理语法
Pandas AI:Pandas与人工智能的结合,让你不再拘泥于如何使用pandas方法及处理语法
332 1
|
7月前
|
机器学习/深度学习 人工智能 算法
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
164 0
|
7月前
|
人工智能 语音技术
人工智能语音信号预处理采样
人工智能语音信号预处理采样
122 2
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】Foxmail邮箱在人工智能领域的应用方法及代码解析
Foxmail邮箱作为一款流行的邮件客户端软件,主要用于个人和企业的邮件收发、管理等功能。虽然它与人工智能(AI)技术有着潜在的融合点,但直接关于Foxmail邮箱在人工智能方面的应用代码并不是常规的讨论内容,因为邮箱客户端本身并不直接包含复杂的AI算法或代码。
219 58
|
3月前
|
机器学习/深度学习 存储 人工智能
深度学习中的模型压缩技术在人工智能领域,深度学习技术的迅猛发展带来了巨大的计算资源需求。为了解决这一问题,模型压缩技术应运而生。本文将介绍什么是模型压缩、常见的模型压缩方法以及其在实际应用中的意义。
随着深度学习技术的广泛应用,计算资源的需求也大幅增加。为减少资源消耗,提升模型效率,模型压缩技术成为研究热点。本文探讨了模型压缩的定义、主流方法和其重要性。通过量化、剪枝、知识蒸馏和轻量级架构等策略,模型得以在保持性能的同时减小体积,从而适用于资源受限的环境。这些技术不仅降低了计算成本,还推动了深度学习在移动设备和边缘计算等领域的应用,使AI技术更加普及和实用。总之,模型压缩在平衡模型性能与资源消耗之间发挥着关键作用,是未来AI发展的重要方向。
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
自然语言处理(NLP)是人工智能和语言学的一个交叉领域,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
自然语言处理(NLP)是人工智能和语言学的一个交叉领域,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
|
5月前
|
存储 人工智能 算法
探索人工智能伦理:技术发展与社会责任的平衡
随着人工智能(AI)技术的飞速进步,其对社会、经济以及人类生活的影响日益加深。本文将探讨AI技术发展中的伦理问题,分析数据隐私、算法偏见和自动化失业等关键议题。通过引用最新的科研研究和统计数据,文章旨在揭示AI技术背后的潜在风险,并提出相应的策略来促进科技与社会价值的和谐共存。
|
7月前
|
机器学习/深度学习 数据采集 人工智能
|
7月前
|
机器学习/深度学习 人工智能 算法
|
7月前
|
机器学习/深度学习 数据采集 人工智能