粒子群优化算法(PSO)之基于离散化的特征选择(FS)(四)

简介: 作者:Geppetto前面我们介绍了特征选择(Feature Selection,FS)与离散化数据的重要性,介绍了PSO在FS中的重要性和一些常用的方法、FS与离散化的背景,介绍了EPSO与PPSO方法。

作者:Geppetto

前面我们介绍了特征选择(Feature Selection,FS)与离散化数据的重要性,介绍了PSO在FS中的重要性和一些常用的方法、FS与离散化的背景,介绍了EPSO与PPSO方法。今天我们将介绍与实验相关的细节,包括数据集、用于与我们方法进行比较的基线方法、参数设置、终止标准以及实验的硬件配置。
A. 实验设计
(1) 数据集
为了在高维数据上测试PPSO的性能,我们使用了在http://www.gems-system.org上提供的10个基因表达数据集。表1描述了关于这些数据集的详细信息。

表1.数据集

(2)基线法

为了验证PPSO在离散化和FS中的有效性,我们比较了KNN在PPSO、原始数据集和EPSO转换数据集上的分类性能。我们还将PPSO与两阶段方法(PSO-FS)进行了比较,以确定单阶段方法的性能是否优于两阶段方法。在PSO-FS中,MDL用于在应用PSO进行特征子集选择之前对数据进行离散化。我们还比较了几种传统的两阶段方法,将MDL与LFS进行离散化,采用一致性方法和基于相关的FS (CFS)方法。我们还将PPSO与MChi2进行了比较,MChi2是一种典型的通过离散化处理FS的方法。

(3)参数设置与终止条件

表2描述了三种比较方法PSO-FS、EPSO和PPSO的参数设置。由于搜索空间的大小与问题的维数成正比,问题的维数因数据集而异。10个数据集中的特征数量从2000到12000,导致搜索空间的大小非常不同。因此,我们将总体大小设为特征数除以20,由于计算机内存有限,最大限制为300。最大迭代次数被设置为70。然而,当gbest在10次迭代之后没有得到改进时,也应用了早期停止。PPSO中的比例标准是gbest在10次迭代后没有得到改善,当前gbest适应度至少比以前gbest适应度好1%。对于多类数据集,PPSO的初始大小为150。但是,根据我们的实验,这个值对于二进制类问题也是一个很好的初始大小,因为PSO能够在演化过程中选择适当的特征子集大小。每次满足标度的标准时,初始大小就增加50。

表2.PSO参数设置

(4)实验配置

作为一种包装方法,PPSO可以使用任何学习算法的分类性能来评估粒子。本文使用k = 1的KNN,因为它简单、快速、参数少。

因为这些数据集小样本大小,我们使用10倍交叉验证(CV)产生训练集和测试集。在每一个CV,使用单一的形式使用测试集和剩下的九倍,形成训练集。测试集用于评估产生的离散化和FS基于训练集的每个解决方法。在进化过程中,一个内部循环的十倍的CV训练集用于fitness评估。因此,每一种方法都包含了推荐的两个CV循环,以避免FS偏差。

为了消除统计上的差异,每个方法都对每个数据集运行30次,每次都有不同的随机种子。由于每个数据集使用10倍CV分解为训练和测试集,每个方法总共执行300次。实验是在PC上运行的英特尔核心i7-4770 CPU @ 3.4 GHz和8-GB内存。用统计学的威克森显著性检验和5%显著性水平进行比较,比较了各方法的30次运行结果。

B . 实验结果

表3显示了PSO-FS、EPSO和PPSO的结果。每个方法在30次运行中返回的平均特征子集大小显示在“size”列中。用“full”表示KNN精度的最佳、平均和标准偏差。在第4和第5列中显示了所有连续的特性,或者使用每个比较方法转换的数据。所报告的结果是基于前面介绍的平衡精度公式的测试精度。

“+”或“−”意味着结果比PPSO明显更好或更糟。” = “表示他们有相似的表现。

表3.实验结果

C . PPSO结果分析

从表3中可以看出,PPSO选择的特征的平均数明显小于特征的总数。PPSO在4个数据集中选择的特性总数不到1%,在5个数据集中选择不到2%,在SRBCT中选择4.6%。一般来说,PPSO在六个数据集上实现最小的子集。

使用离散和选择的特性,PPSO比在所有10个数据集中使用所有连续的特性获得更好的分类性能。在10个数据集中有7个的准确度提高了5%以上,在9Tumor中提高了23%。

结果表明,通过同时离散和选择单个阶段的相关特征,PPSO可以为高维数据集生成更强大、更紧凑的表示。

D . 总结

在本系列文章中我们提出一种利用BBPSO在单阶段离散化和FS的集成方法。通过提出一种新的方法PPSO,采用一种新的PSO表示法来选择分割点来离散多个特征,同时选择特征。与使用完整的原始特性集EPSO和两阶段方法(PSO-FS)进行比较。

实验结果表明,PPSO可以同时离散多个特征,并选择数量更少的相关特征,具有更好的识别能力。PPSO与PSO-FS的比较表明,离散化与FS在单个阶段结合更有效。与EPSO相比,PPSO获得的结果是相同的或更好的,但功能的数量更少。进一步的分析也表明,与比较的PSO方法相比,PPSO更通用、更可靠。

将PPSO与四种代表两阶段和一阶段方法的传统方法MDL+LFS、MDL+CON、MDL+CFS、MChi2进行了比较。两个实验的结果表明,在大多数情况下,PPSO的性能比MDL+LFS、MDL+CON和MChi2和类似的性能要好得多。结果还表明,在处理高维问题时,PPSO比MDL+CFS和MChi2具有更好的可扩展性。对KNN和NB的比较结果表明,与训练过程中使用的分类器相比,PPSO得到的解可以推广到其他分类器。

作为一种二进制离散化方法,PPSO在需要被离散成多个区间的数据上可能不能很好地工作。此外,还计算了基于MDLP的潜在点。因此,在今后的工作中,我们将研究如何利用其他的算法进行切入点计算、多区间离散化以及优化搜索过程的不同方法。

实证结果表明,PPSO的运行时间可扩展到具有10000+特征的高维数据。但是,由于PPSO表示是静态的,并且与特性集大小成正比,因此对具有10万多个特性的数据集应用PPSO可能会受到内存容量的限制。此外,由于可能的解决方案的指数增长,搜索空间将变得更大,因此可能需要用不同的方法来解决这个问题。将来,我们将研究如何在PPSO中使用动态表示来克服这个限制。

参考文献:

文章:“A New Representation in PSO for Discretization-Based Feature Selection”

作者:Binh Tran, Student Member, IEEE, Bing Xue, Member, IEEE, and Mengjie Zhang, Senior Member, IEEE

目录
打赏
0
0
0
0
27
分享
相关文章
|
13天前
|
解析公司屏幕监控软件中 C# 字典算法的数据管理效能与优化策略
数字化办公的时代背景下,企业为维护信息安全并提升管理效能,公司屏幕监控软件的应用日益普及。此软件犹如企业网络的 “数字卫士”,持续记录员工电脑屏幕的操作动态。然而,伴随数据量的持续增长,如何高效管理这些监控数据成为关键议题。C# 中的字典(Dictionary)数据结构,以其独特的键值对存储模式和高效的操作性能,为公司屏幕监控软件的数据管理提供了有力支持。下文将深入探究其原理与应用。
31 4
基于GA遗传优化的最优阈值计算认知异构网络(CHN)能量检测算法matlab仿真
本内容介绍了一种基于GA遗传优化的阈值计算方法在认知异构网络(CHN)中的应用。通过Matlab2022a实现算法,完整代码含中文注释与操作视频。能量检测算法用于感知主用户信号,其性能依赖检测阈值。传统固定阈值方法易受噪声影响,而GA算法通过模拟生物进化,在复杂环境中自动优化阈值,提高频谱感知准确性,增强CHN的通信效率与资源利用率。预览效果无水印,核心程序部分展示,适合研究频谱感知与优化算法的学者参考。
企业内训|智能调控系统算法与优化——某汽车厂商
5月9日,东北某市,TsingtaoAI团队为某汽车厂商的智能驾驶业务和研发团队交付“智能调控系统算法与优化”课程。 本课程系统化解析智能调控系统的核心算法原理与前沿优化技术,深度融合经典控制、现代控制及模型预测控制(MPC)三大理论体系,聚焦自动驾驶与工业自动化场景的实践需求。课程从硬件层(传感器、异构计算芯片、执行器)到软件层(闭环反馈、实时优化)逐层拆解系统架构,结合车辆横纵向控制等实际案例,详解PID参数整定、LQR最优控制、MPC多目标优化等关键技术。
48 16
基于GA遗传算法的悬索桥静载试验车辆最优布载matlab仿真
本程序基于遗传算法(GA)实现悬索桥静载试验车辆最优布载的MATLAB仿真(2022A版)。目标是自动化确定车辆位置,使加载效率ηq满足0.95≤ηq≤1.05且尽量接近1,同时减少车辆数量与布载时间。核心原理通过优化模型平衡最小车辆使用与ηq接近1的目标,并考虑桥梁载荷、车辆间距等约束条件。测试结果展示布载方案的有效性,适用于悬索桥承载能力评估及性能检测场景。
基于双向RRT算法的三维空间最优路线规划matlab仿真
本程序基于双向RRT算法实现三维空间最优路径规划,适用于机器人在复杂环境中的路径寻找问题。通过MATLAB 2022A测试运行,结果展示完整且无水印。算法从起点和终点同时构建两棵随机树,利用随机采样、最近节点查找、扩展等步骤,使两棵树相遇以形成路径,显著提高搜索效率。相比单向RRT,双向RRT在高维或障碍物密集场景中表现更优,为机器人技术提供了有效解决方案。
基于和声搜索优化算法的机器工作调度matlab仿真,输出甘特图
本程序基于和声搜索优化算法(Harmony Search, HS),实现机器工作调度的MATLAB仿真,输出甘特图展示调度结果。算法通过模拟音乐家即兴演奏寻找最佳和声的过程,优化任务在不同机器上的执行顺序,以最小化完成时间和最大化资源利用率为目标。程序适用于MATLAB 2022A版本,运行后无水印。核心参数包括和声记忆大小(HMS)等,适应度函数用于建模优化目标。附带完整代码与运行结果展示。
基于AES的遥感图像加密算法matlab仿真
本程序基于MATLAB 2022a实现,采用AES算法对遥感图像进行加密与解密。主要步骤包括:将彩色图像灰度化并重置大小为256×256像素,通过AES的字节替换、行移位、列混合及轮密钥加等操作完成加密,随后进行解密并验证图像质量(如PSNR值)。实验结果展示了原图、加密图和解密图,分析了图像直方图、相关性及熵的变化,确保加密安全性与解密后图像质量。该方法适用于保护遥感图像中的敏感信息,在军事、环境监测等领域具有重要应用价值。
基于免疫算法的最优物流仓储点选址方案MATLAB仿真
本程序基于免疫算法实现物流仓储点选址优化,并通过MATLAB 2022A仿真展示结果。核心代码包括收敛曲线绘制、最优派送路线规划及可视化。算法模拟生物免疫系统,通过多样性生成、亲和力评价、选择、克隆、变异和抑制机制,高效搜索最优解。解决了物流仓储点选址这一复杂多目标优化问题,显著提升物流效率与服务质量。附完整无水印运行结果图示。
基于免疫算法的最优物流仓储点选址方案MATLAB仿真
基于GA遗传优化TCN-GRU时间卷积神经网络时间序列预测算法matlab仿真
本项目基于MATLAB2022a开发,提供无水印算法运行效果预览及核心程序(含详细中文注释与操作视频)。通过结合时间卷积神经网络(TCN)和遗传算法(GA),实现复杂非线性时间序列的高精度预测。TCN利用因果卷积层与残差连接提取时间特征,GA优化超参数(如卷积核大小、层数等),显著提升模型性能。项目涵盖理论概述、程序代码及完整实现流程,适用于金融、气象、工业等领域的时间序列预测任务。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等