【文本分类】混合CHI和MI的改进文本特征选择方法

2023-02-23 92

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【文本分类】混合CHI和MI的改进文本特征选择方法

摘要：改进CHI算法、改进MI算法，结合改进CHI+改进MI，应用于文本的特征选择，提高了精度。

参考文献：[1]王振,邱晓晖.混合CHI和MI的改进文本特征选择方法[J].计算机技术与发展,2018,28(04):87-90+94.

一、引言

通过特征选择方法，降低特征向量的维数，减少分类算法的运行时间，从而最终提高分类准确度。常用的特征选择算法有：文档频率DF、互信息MI、卡方检验CHI、信息增益IG。

二、基础算法

互信息的概念出自信息论中，原本互信息用来衡量两个信号间的关联程度。在文本分类中，表现为特征与类别之间的关联程度。

从CHI算法的缺点出发：传统 CHI 统计方法只考虑了特征词在所有文档集中出现的文档数量，而没有考虑特征词在某一篇文档中出现的次数，从而夸大了低频词的作用。所以引入词频因子：

从MI算法的缺点出发：没有考虑特征本身出现的频度，这会造成 MI 方法在评估特征时会倾向于选择一些低频特征。

通过引入β，添加词频信息，适当增加中高频特征所占比重，降低低频特征的互信息值，避免互信息方法选择过多的低频特征，从而降低低频词对互信息方法的负效用。

不同类别之间，特征的词频也代表了不同的类别区分能力。一个区分能力强的特征词，应该集中分布在某些特定的类别中，也就是不同类别中的特征词频的方差应该尽可能大，这样的特征含有更多的类别区分信息为此，引入不同类别间特征的词频的方差对 MI 方法进行优化。

最终改进后的CHMI算法公式为：

根据以下5种方法：

（1）普通CHI算法来选择特征

（2）改良ICHI算法来选择特征

（3）普通MI算法来选择特征

（4）改良MI算法来选择特征

（5）混合CHMI算法来选择特征

比较不同算法之间，文本分类的准确率。

数据来源于 https://github.com/cystanford/text_classification 。数据集共包含四个类别，分别为“女性”，“体育”，“文学”，“校园”，原始数据集已经划分了测试集和训练集，并给出了停用词文档。

【注】表中标黄为同一维度下最高准确率。

实验结果分析：

1、从前2000维上分析，可以看到本文提出的混合CHMI算法准确率效果确实最好；

2、但当维度变高时，本文提出的CHMI算法效果并不好。

思考一：为什么会出现低维效果好，高维效果差的情况？能否有理论依据？

思考二：求MI的时候，会出现log(0)的情况，本文并没有提到解决方法。

文章标签：

算法