处理基于特征的挑战的网络入侵问题

简介: 处理基于特征的挑战的网络入侵问题

目录


处理基于特征的挑战的网络入侵问题

  • 处理基于特征的挑战的网络入侵问题
  • 处理噪声数据
  • 处理冗余数据
  • 处理弱相关数据
  • 模型鲁棒性的讨论
  • 对抗性攻击的容忍度探讨


正文


处理基于特征的挑战的网络入侵问题


处理噪声数据


问题:数据集中的一些流量数据可能包含异常值,这些异常值可能以不太常见的流量类别的形式出现。为了对抗噪声数据或具有异常值的数据,已应用特征归一化方法来缩放特征,并使它们在模型中具有相似的效果,以便噪声与其他数据的权重不会不同。在其他情况下,使用基于密度的特征选择,通过寻找特征概率分布之间的重叠和非重叠区域来识别最重要的特征。

image.png

Hsu等人开发了一种基于自动编码器、支持向量机和随机森林集合的在线入侵检测系统,其中对噪声进行特征归一化处理,他们使用了两个归一化函数:

bf93918bdbb03582f6304e29c285890f_cfaad199f18d4026aa98ef11dd797687.png

这些函数旨在将特征值重新调整到适当的范围,其中a是原始数据值,amax是相同特征下所有值中的最大值,(log(a + 1))max是相同特征下所有对数值的最大值log(原始值+ 1)。发送和接收的数据包是两个非常可变的特征,因为某些攻击(DDoS)在网络中包含更大的流量,所以这些特征值被归一化为其对数除以其最大值(第一个归一化方程)。对于方差较小的特征,通过除最大值进行归一化(第二个方程)。针对SVM对噪声固有的敏感性,Liu等人通过应用模糊隶属度来测量样本和超平面之间的距离,努力减轻SVM对噪声样本的敏感性,就像在SVM中那样。距离越大,样本的权重系数越小。每个样本对优化后的分类超平面有不同的影响,因此异常值和噪声(距离较大的值)不会对分类平面产生很大的影响,因为它们被赋予了较低的权重。


Density-based集群。在其他情况下,基于密度的聚类用于将来自同一类的数据分组在一起,并识别与观测到的簇异常遥远的离群点。由于无线传感器网络(WSNs)中DoS攻击的分散性,Shamshirband等人提出了一种基于密度算法和模糊逻辑的帝国竞争算法(ICA)。数据空间中的密集区域是簇,低密度区域(噪声)围绕着它们。基于密度的聚类可以检测形状簇并处理噪声。由于网络入侵检测涉及到离群点检测,因此可以将基于密度的方法扩展到离群点检测。Tang和He提出了一种有效的基于密度的离群点检测方法,该方法将基于相对密度的离群点分数分配给观测值,作为区分数据集中主要聚类和离群点的一种方法。类似地,Gu等将基于密度的初始聚类中心选择算法应用到基于hadoop的混合特征选择方法中,以缓解离群点的影响。


处理冗余数据


问题:网络入侵特征集中的一些特征可能对模型的预测能力没有显著贡献,因此可能会根据特征的重要性将它们删除。为了处理冗余数据,已经建立了框架来删除冗余。处理数据中冗余特征的重要方法如图3所示。

b156283873c2532508eb440eec954ec3_0c9e70523d6f4e818ec08b0c35292e96.png

功能框架。在网络入侵数据集中,数据冗余是一个普遍存在的问题,因此研究人员开发了框架,推荐使用特定的数据删除技术。从2000年到2010年,最初的特征去除方法被集成到计算智能方法中。2013年,Ganapathy等人写了一篇综述,详细介绍了一种渐进的特征去除方法和修改的互信息方法,该方法选择特征以最大化输出的信息(最大化输入和输出之间的相关性),条件随机场(CRF)作为分层方法(每一层代表一种攻击类型),以及遗传特征选择,其中生成一组树并提取最佳特征集。最近的研究似乎在反思如何将特征删除方法集成到更精简的模型创建过程中。Bamakan等人提出了一种有效的入侵检测框架,将特征选择嵌入到其目标中函数结合时变混沌粒子群优化算法(TVCPSO)。他们在流程图中简化了加权目标函数方法,其中,随着每次迭代,粒子的适应度在粒子群优化中更新,并进行混沌搜索以找到全局最优值。Carrion等人提供了一种结构化方法,涉及更严格的特征选择或删除技术,解决了网络入侵检测方法中缺乏评估的问题。如他们所说,包括如何进行特征选择或删除以达到最终精度的步骤,可以在网络入侵检测文献中更容易复制和更可靠的评估。


特征选择。特征选择可以排除冗余特征,在不显著降低模型性能的情况下选择数据中的一个特征子集。2010年初,Koc等人对基于过滤的特征选择方法感兴趣,将隐naïve贝叶斯(HNB)模型应用于具有高度相关特征的数据。伴随他们的HNB模型的是一个基于过滤器的特征选择模型,该模型既基于相关性又基于一致性,仅依赖于数据中的统计属性。相关性特征选择选择倾向于高度相关类的特征。基于一致性的过滤器有一个不一致性标准,指定何时停止对数据的降维。在基于过滤器的方法之后,有兴趣使用随机森林的前向选择进行特征排序Aljarrah等人。但最近,Elmasry等人并没有找到最优的特征集。也有研究表明特征选择的穷举搜索非常耗时,利用进化计算技术可以在更短的时间内找到近似最优解。


自动特征提取。在自动特征提取领域,粗糙集理论和自动编码器是两种重要的自动化方法。粗糙集从网络入侵数据中提取特征,用离散的区间代替原始属性值,形成一个信息系统。自编码器被认为是主成分分析的非线性推广,它使用一个自适应的、多层的“编码器”网络来降低数据维度。2010年初,基于粗糙集理论的特征选择引起了人们的研究兴趣。Chung和Wahid针对简化群优化算法(SSO)容易出现早熟解的问题,对其进行改进,在SSO之后进行局部加权搜索,以产生更满意的解。他们将k均值聚类应用于连续的网络数据值,并将粗糙集理论应用于特征的最小子集。他们将k均值聚类应用于连续的网络数据值,并将粗糙集理论应用于特征的最小子集。所选特征的优度是使用给定输入数据D的适应度函数来评估的,|C|是特征的数量,|R|是特征子集的长度,其中R是一个特征子集,γR是特征集R的分类质量:

3ad6f7b484ff4fcd13d3bc427e9af748_db7b18c175d6417f9acc629832bb8cb0.png


随着数据的快速变化,不相关特征的出现越来越多,Liu等引入了高斯混合模型来提取网络中的结构性特征,识别异常模式和正常模式,并使用模糊粗糙集理论去除冗余特征并优选重要特征。随着不相关特征和大数据时代的到来,模型的目标函数收敛速度变慢。模糊粗糙集方法和自动编码器都被设计用来处理大量数据。由于围绕着网络流量是正常还是异常的不确定性,Selvakumar等人提出了一种模糊粗糙集属性选择方法,将γP’ (D)对子集P的模糊依赖度定义为γP’ (D),其中特征子集根据其与数据的相关性进行评估。为了处理不断增长的数据,以及不相关的数据,Alqatf等人提出使用自编码器进行特征学习和降维,以提取最重要的特征并过滤掉冗余的特征。然后将约简后的数据输入SVM模型进行网络流量分类。


处理弱相关数据


问题:数据中特征之间缺乏强相关性可能会使模型的构建更具挑战性。相关性可以通过数据融合或引入新特征来人为地增加数据的维度。


增加维数。在给定一维特征数据的情况下,Li等人将数据增强到二维,并进行数据分割,分割后的数据再融合在一起进行网络入侵分类。他们根据相互关联的特征将特征数据分成四个独立的部分。将一维特征空间转换为灰度,然后将四个数据分量的输出数据合并传递到多融合CNN的输出层。


模型鲁棒性的讨论


问题。如果预测的准确性不受输入数据变化(如分布变化或异常值)的影响,那么这个模型就是鲁棒的。对于入侵检测来说,网络流量数据的变化也可能来自“敌手”,他们可能会“混淆”攻击有效载荷,以模拟其良性对应。为了减少噪声或对手对入侵检测精度的影响,人们提出了不同的鲁棒性方法。


健壮的方法。Gornitz等人将网络异常检测重构为一种主动学习任务,并测试了单类SVM的鲁棒性。他们首先将网络负载视为包含网络数据包数据的向量x,并使用字符串s和嵌入函数ϕ将其映射到向量空间。对于每个字符串s,如果s在有效载荷x中,ϕ(x)返回1,否则返回0。使用这种向量空间表示,就可以得到支持向量域描述(SVDD)。的设计使得正常数据可以从异常数据中分离出来,其中异常可以很容易地被区分为离群点。他们引导一名安全专家到特征或向量空间的低置信度区域进行主动学习,在这些区域中,更多的注意力集中在预测不准确的网络数据上。他们的SVM在设计时没有考虑到对手或网络数据中的噪声,因为模型鲁棒性没有考虑到SVM的构造。在对他们的方法进行实证评估期间,他们分析了敌手对模型性能的影响。


最近的工作集中在设计对分布变化或网络数据中异常值的鲁棒性的方法。论文要么解决鲁棒性方面的特定方法限制,如支持向量机对噪声的敏感性,要么解决导致高假阳性率或未检测到假阴性异常值的一般限制。Bamakan等算法利用斜坡损失来弥补支持向量对异常值的敏感性。ramp损失取代了hinge损失,后者是一种非凸损失函数,“压低”了这些异常值的压力,使支持向量模型更鲁棒和可靠。借助一个新的损失函数,作者应用“凹凸”过程来最小化斜坡损失,方法是在给定输入向量z的情况下,选择斜坡损失Rs (z)的最佳值。

那么对于每一对∀i, j∈{1,…,p} (i, j)对于p个输出标签,训练数据集被分为正类、负类和零类。初始化变量δ1, k = 1,并对第i次迭代的δi进行迭代更新,从而构造出这种形式的决策函数

image.png

网络数据包观测值x根据构造的决策函数预测其标签。斜坡损失导致支持向量模型更稀疏,或更多的零量,因为错误分类的训练样本不会简单地成为支持向量。

image.png


对抗性攻击的容忍度探讨


问题。“对手”可以是数据生成器或网络安全专家,他们可以掩盖网络有效载荷,使其看起来是良性的,但实际上它们是恶意的。他们的目的是欺骗入侵检测系统,让对计算机网络的攻击不被发现。在检测网络入侵时,确定敌手将如何行为以及如何减少误报或漏报是具有挑战性的,但已经设计了使用数据生成的方法来帮助模型处理对抗性情况。

image.png

Pawlicki和其他人没有使用一种对抗攻击生成方法,而是使用四种不同的方法构建了一个人工神经网络管道,每种方法都最小化了生成的对抗样本和真实样本之间的距离。将输入网络流量数据集划分为A、B、C、D四个子集。A部分用于训练入侵检测系统。B部分分为测试检测系统和通过执行四种对抗性攻击来训练敌手检测器——carlini和Wagner攻击、快速梯度符号方法、基本迭代方法、在1397个标记为“对抗性”的“攻击”样本上的投影梯度下降。将标记为“非对抗性”的剩余数据添加到“对抗性”样本中,形成对抗性检测器训练数据集。C、D用于测试对抗性检测器。



目录
相关文章
|
20天前
|
机器学习/深度学习 算法 计算机视觉
卷积神经网络中的卷积层,如何提取图片的特征?
卷积神经网络中的卷积层,如何提取图片的特征?
29 0
|
2月前
|
机器学习/深度学习 算法 内存技术
【CVPR2021】CondenseNetV2:用于深度网络的稀疏特征再激活
【CVPR2021】CondenseNetV2:用于深度网络的稀疏特征再激活
32 2
【CVPR2021】CondenseNetV2:用于深度网络的稀疏特征再激活
|
3月前
|
机器学习/深度学习 算法 机器人
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
|
1月前
|
机器学习/深度学习 算法 计算机视觉
|
2月前
|
机器学习/深度学习 编解码 自然语言处理
YOLOv5改进 | 主干篇 | RevColV1可逆列网络(特征解耦助力小目标检测)
YOLOv5改进 | 主干篇 | RevColV1可逆列网络(特征解耦助力小目标检测)
36 2
|
2月前
|
编解码 文件存储 计算机视觉
YOLOv5改进 | 2023Neck篇 | BiFPN双向特征金字塔网络(附yaml文件+代码)
YOLOv5改进 | 2023Neck篇 | BiFPN双向特征金字塔网络(附yaml文件+代码)
221 0
|
3月前
|
机器学习/深度学习 算法 Serverless
基于信号功率谱特征和GRNN广义回归神经网络的信号调制类型识别算法matlab仿真
基于信号功率谱特征和GRNN广义回归神经网络的信号调制类型识别算法matlab仿真
|
3月前
|
搜索推荐 算法 前端开发
基于用户特征的个性化网络小说推荐系统的设计与实现
基于用户特征的个性化网络小说推荐系统的设计与实现
|
3月前
|
机器学习/深度学习 编解码 数据可视化
【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割
【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割
|
6月前
|
机器学习/深度学习 传感器 算法
Elman分类预测 | Matlab基于递归神经网络Elman分类预测,多特征输入模型
Elman分类预测 | Matlab基于递归神经网络Elman分类预测,多特征输入模型