粒子群优化算法(PSO)之基于离散化的特征选择(FS)(四)

简介: 作者:Geppetto前面我们介绍了特征选择(Feature Selection,FS)与离散化数据的重要性,介绍了PSO在FS中的重要性和一些常用的方法、FS与离散化的背景,介绍了EPSO与PPSO方法。

作者:Geppetto

前面我们介绍了特征选择(Feature Selection,FS)与离散化数据的重要性,介绍了PSO在FS中的重要性和一些常用的方法、FS与离散化的背景,介绍了EPSO与PPSO方法。今天我们将介绍与实验相关的细节,包括数据集、用于与我们方法进行比较的基线方法、参数设置、终止标准以及实验的硬件配置。
A. 实验设计
(1) 数据集
为了在高维数据上测试PPSO的性能,我们使用了在http://www.gems-system.org上提供的10个基因表达数据集。表1描述了关于这些数据集的详细信息。

表1.数据集

(2)基线法

为了验证PPSO在离散化和FS中的有效性,我们比较了KNN在PPSO、原始数据集和EPSO转换数据集上的分类性能。我们还将PPSO与两阶段方法(PSO-FS)进行了比较,以确定单阶段方法的性能是否优于两阶段方法。在PSO-FS中,MDL用于在应用PSO进行特征子集选择之前对数据进行离散化。我们还比较了几种传统的两阶段方法,将MDL与LFS进行离散化,采用一致性方法和基于相关的FS (CFS)方法。我们还将PPSO与MChi2进行了比较,MChi2是一种典型的通过离散化处理FS的方法。

(3)参数设置与终止条件

表2描述了三种比较方法PSO-FS、EPSO和PPSO的参数设置。由于搜索空间的大小与问题的维数成正比,问题的维数因数据集而异。10个数据集中的特征数量从2000到12000,导致搜索空间的大小非常不同。因此,我们将总体大小设为特征数除以20,由于计算机内存有限,最大限制为300。最大迭代次数被设置为70。然而,当gbest在10次迭代之后没有得到改进时,也应用了早期停止。PPSO中的比例标准是gbest在10次迭代后没有得到改善,当前gbest适应度至少比以前gbest适应度好1%。对于多类数据集,PPSO的初始大小为150。但是,根据我们的实验,这个值对于二进制类问题也是一个很好的初始大小,因为PSO能够在演化过程中选择适当的特征子集大小。每次满足标度的标准时,初始大小就增加50。

表2.PSO参数设置

(4)实验配置

作为一种包装方法,PPSO可以使用任何学习算法的分类性能来评估粒子。本文使用k = 1的KNN,因为它简单、快速、参数少。

因为这些数据集小样本大小,我们使用10倍交叉验证(CV)产生训练集和测试集。在每一个CV,使用单一的形式使用测试集和剩下的九倍,形成训练集。测试集用于评估产生的离散化和FS基于训练集的每个解决方法。在进化过程中,一个内部循环的十倍的CV训练集用于fitness评估。因此,每一种方法都包含了推荐的两个CV循环,以避免FS偏差。

为了消除统计上的差异,每个方法都对每个数据集运行30次,每次都有不同的随机种子。由于每个数据集使用10倍CV分解为训练和测试集,每个方法总共执行300次。实验是在PC上运行的英特尔核心i7-4770 CPU @ 3.4 GHz和8-GB内存。用统计学的威克森显著性检验和5%显著性水平进行比较,比较了各方法的30次运行结果。

B . 实验结果

表3显示了PSO-FS、EPSO和PPSO的结果。每个方法在30次运行中返回的平均特征子集大小显示在“size”列中。用“full”表示KNN精度的最佳、平均和标准偏差。在第4和第5列中显示了所有连续的特性,或者使用每个比较方法转换的数据。所报告的结果是基于前面介绍的平衡精度公式的测试精度。

“+”或“−”意味着结果比PPSO明显更好或更糟。” = “表示他们有相似的表现。

表3.实验结果

C . PPSO结果分析

从表3中可以看出,PPSO选择的特征的平均数明显小于特征的总数。PPSO在4个数据集中选择的特性总数不到1%,在5个数据集中选择不到2%,在SRBCT中选择4.6%。一般来说,PPSO在六个数据集上实现最小的子集。

使用离散和选择的特性,PPSO比在所有10个数据集中使用所有连续的特性获得更好的分类性能。在10个数据集中有7个的准确度提高了5%以上,在9Tumor中提高了23%。

结果表明,通过同时离散和选择单个阶段的相关特征,PPSO可以为高维数据集生成更强大、更紧凑的表示。

D . 总结

在本系列文章中我们提出一种利用BBPSO在单阶段离散化和FS的集成方法。通过提出一种新的方法PPSO,采用一种新的PSO表示法来选择分割点来离散多个特征,同时选择特征。与使用完整的原始特性集EPSO和两阶段方法(PSO-FS)进行比较。

实验结果表明,PPSO可以同时离散多个特征,并选择数量更少的相关特征,具有更好的识别能力。PPSO与PSO-FS的比较表明,离散化与FS在单个阶段结合更有效。与EPSO相比,PPSO获得的结果是相同的或更好的,但功能的数量更少。进一步的分析也表明,与比较的PSO方法相比,PPSO更通用、更可靠。

将PPSO与四种代表两阶段和一阶段方法的传统方法MDL+LFS、MDL+CON、MDL+CFS、MChi2进行了比较。两个实验的结果表明,在大多数情况下,PPSO的性能比MDL+LFS、MDL+CON和MChi2和类似的性能要好得多。结果还表明,在处理高维问题时,PPSO比MDL+CFS和MChi2具有更好的可扩展性。对KNN和NB的比较结果表明,与训练过程中使用的分类器相比,PPSO得到的解可以推广到其他分类器。

作为一种二进制离散化方法,PPSO在需要被离散成多个区间的数据上可能不能很好地工作。此外,还计算了基于MDLP的潜在点。因此,在今后的工作中,我们将研究如何利用其他的算法进行切入点计算、多区间离散化以及优化搜索过程的不同方法。

实证结果表明,PPSO的运行时间可扩展到具有10000+特征的高维数据。但是,由于PPSO表示是静态的,并且与特性集大小成正比,因此对具有10万多个特性的数据集应用PPSO可能会受到内存容量的限制。此外,由于可能的解决方案的指数增长,搜索空间将变得更大,因此可能需要用不同的方法来解决这个问题。将来,我们将研究如何在PPSO中使用动态表示来克服这个限制。

参考文献:

文章:“A New Representation in PSO for Discretization-Based Feature Selection”

作者:Binh Tran, Student Member, IEEE, Bing Xue, Member, IEEE, and Mengjie Zhang, Senior Member, IEEE

目录
相关文章
|
2天前
|
机器学习/深度学习 算法
基于遗传优化的双BP神经网络金融序列预测算法matlab仿真
本项目基于遗传优化的双BP神经网络实现金融序列预测,使用MATLAB2022A进行仿真。算法通过两个初始学习率不同的BP神经网络(e1, e2)协同工作,结合遗传算法优化,提高预测精度。实验展示了三个算法的误差对比结果,验证了该方法的有效性。
|
5天前
|
机器学习/深度学习 数据采集 算法
基于PSO粒子群优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
本项目展示了基于PSO优化的CNN-GRU-SAM网络在时间序列预测中的应用。算法通过卷积层、GRU层、自注意力机制层提取特征,结合粒子群优化提升预测准确性。完整程序运行效果无水印,提供Matlab2022a版本代码,含详细中文注释和操作视频。适用于金融市场、气象预报等领域,有效处理非线性数据,提高预测稳定性和效率。
|
6天前
|
机器学习/深度学习 算法 索引
单目标问题的烟花优化算法求解matlab仿真,对比PSO和GA
本项目使用FW烟花优化算法求解单目标问题,并在MATLAB2022A中实现仿真,对比PSO和GA的性能。核心代码展示了适应度计算、火花生成及位置约束等关键步骤。最终通过收敛曲线对比三种算法的优化效果。烟花优化算法模拟烟花爆炸过程,探索搜索空间,寻找全局最优解,适用于复杂非线性问题。PSO和GA则分别适合快速收敛和大解空间的问题。参数调整和算法特性分析显示了各自的优势与局限。
|
9天前
|
机器学习/深度学习 算法
基于改进遗传优化的BP神经网络金融序列预测算法matlab仿真
本项目基于改进遗传优化的BP神经网络进行金融序列预测,使用MATLAB2022A实现。通过对比BP神经网络、遗传优化BP神经网络及改进遗传优化BP神经网络,展示了三者的误差和预测曲线差异。核心程序结合遗传算法(GA)与BP神经网络,利用GA优化BP网络的初始权重和阈值,提高预测精度。GA通过选择、交叉、变异操作迭代优化,防止局部收敛,增强模型对金融市场复杂性和不确定性的适应能力。
139 80
|
1天前
|
算法
基于梯度流的扩散映射卡尔曼滤波算法的信号预处理matlab仿真
本项目基于梯度流的扩散映射卡尔曼滤波算法(GFDMKF),用于信号预处理的MATLAB仿真。通过设置不同噪声大小,测试滤波效果。核心代码实现数据加载、含噪信号生成、扩散映射构建及DMK滤波器应用,并展示含噪与无噪信号及滤波结果的对比图。GFDMKF结合非线性流形学习与经典卡尔曼滤波,提高对非线性高维信号的滤波和跟踪性能。 **主要步骤:** 1. 加载数据并生成含噪测量值。 2. 使用扩散映射捕捉低维流形结构。 3. 应用DMK滤波器进行状态估计。 4. 绘制不同SNR下的轨迹示例。
|
28天前
|
算法
基于WOA算法的SVDD参数寻优matlab仿真
该程序利用鲸鱼优化算法(WOA)对支持向量数据描述(SVDD)模型的参数进行优化,以提高数据分类的准确性。通过MATLAB2022A实现,展示了不同信噪比(SNR)下模型的分类误差。WOA通过模拟鲸鱼捕食行为,动态调整SVDD参数,如惩罚因子C和核函数参数γ,以寻找最优参数组合,增强模型的鲁棒性和泛化能力。
|
2月前
|
机器学习/深度学习 算法 Serverless
基于WOA-SVM的乳腺癌数据分类识别算法matlab仿真,对比BP神经网络和SVM
本项目利用鲸鱼优化算法(WOA)优化支持向量机(SVM)参数,针对乳腺癌早期诊断问题,通过MATLAB 2022a实现。核心代码包括参数初始化、目标函数计算、位置更新等步骤,并附有详细中文注释及操作视频。实验结果显示,WOA-SVM在提高分类精度和泛化能力方面表现出色,为乳腺癌的早期诊断提供了有效的技术支持。
|
14天前
|
供应链 算法 调度
排队算法的matlab仿真,带GUI界面
该程序使用MATLAB 2022A版本实现排队算法的仿真,并带有GUI界面。程序支持单队列单服务台、单队列多服务台和多队列多服务台三种排队方式。核心函数`func_mms2`通过模拟到达时间和服务时间,计算阻塞率和利用率。排队论研究系统中顾客和服务台的交互行为,广泛应用于通信网络、生产调度和服务行业等领域,旨在优化系统性能,减少等待时间,提高资源利用率。
|
21天前
|
存储 算法
基于HMM隐马尔可夫模型的金融数据预测算法matlab仿真
本项目基于HMM模型实现金融数据预测,包括模型训练与预测两部分。在MATLAB2022A上运行,通过计算状态转移和观测概率预测未来值,并绘制了预测值、真实值及预测误差的对比图。HMM模型适用于金融市场的时间序列分析,能够有效捕捉隐藏状态及其转换规律,为金融预测提供有力工具。
|
30天前
|
算法
基于GA遗传算法的PID控制器参数优化matlab建模与仿真
本项目基于遗传算法(GA)优化PID控制器参数,通过空间状态方程构建控制对象,自定义GA的选择、交叉、变异过程,以提高PID控制性能。与使用通用GA工具箱相比,此方法更灵活、针对性强。MATLAB2022A环境下测试,展示了GA优化前后PID控制效果的显著差异。核心代码实现了遗传算法的迭代优化过程,最终通过适应度函数评估并选择了最优PID参数,显著提升了系统响应速度和稳定性。
134 15

热门文章

最新文章