卡方检验用于文本分类中的特征提取

简介: 卡方检验(Chi-square Test) 卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(“原假设”),然后观察实际值(观察值)与理论值(这个理论值是指“如果两者确实独立”的情况下应该有的值)的偏差程度,如果偏差足够小,我们就认为误差是很自然的样本误差,是测量手段不够精确导致或者偶然发生的,两者确确实实是独立的,此时

卡方检验(Chi-square Test)

卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(“原假设”),然后观察实际值(观察值)与理论值(这个理论值是指“如果两者确实独立”的情况下应该有的值)的偏差程度,如果偏差足够小,我们就认为误差是很自然的样本误差,是测量手段不够精确导致或者偶然发生的,两者确确实实是独立的,此时就接受原假设;如果偏差大到一定程度,使得这样的误差不太可能是偶然产生或者测量不精确所致,我们就认为两者实际上是相关的,即否定原假设,而接受备择假设。

理论值为E,实际值为x,偏差程度的计算公式为:

这个式子就是开方检验使用的差值衡量公式。当提供了数个样本的观察值x1x2,……xi,……xn之后,代入到式中就可以求得开方值,用这个值与事先设定的阈值比较,如果大于阈值(即偏差很大),就认为原假设不成立,反之则认为原假设成立。

在文本分类的特征选择阶段,一般使用“词t与类别c不相关”来做原假设计算出的开方值越大,说明对原假设的偏离越大,我们越倾向于认为原假设的反面情况是正确的选择的过程为每个词计算它与类别c的开方值,从大到小排个序(此时开方值越大越相关),取前k个就可以。

例如,N篇文档,分类有体育和非体育,考察特征词“篮球”与类别“体育”的相关性。


特征选择

1.属于“体育”

2.不属于“体育”

1.包含“篮球”

A

B

A+B

2.不包含“篮球”

C

D

C+D

A+C

B+D

N

根据原假设,“体育”类别中包含“篮球”的文档比例应与所有文档中包含“篮球”的文档比例相同。故,A的理论值应为:

差值:

同样计算剩下三种情况的差值D12D21D22。最后计算“篮球”与“体育”类文章的开方值

进一步化简,注意如果给定了一个文档集合(例如我们的训练集)和一个类别,则NMN-M(即A+CB+D)对同一类别文档中的所有词来说都是一样的,而我们只关心一堆词对某个类别的开方值的大小顺序,而并不关心具体的值,因此把它们去掉是完全可以的,故实际计算的时候我们都使用

卡方检验的缺点是:它只统计文档是否出现词,而不管出现了几次。这会使得他对低频词有所偏袒(因为它夸大了低频词的作用)。甚至会出现有些情况,一个词在一类文章的每篇文档中都只出现了一次,其开方值却大过了在该类文章99%的文档中出现了10次的词,其实后面的词才是更具代表性的,但只因为它出现的文档数比前面的词少了“1”,特征选择的时候就可能筛掉后面的词而保留了前者。这就是开方检验著名的“低频词缺陷”。因此开方检验也经常同其他因素如词频综合考虑来扬长避短。

目录
相关文章
|
8月前
|
机器学习/深度学习 自然语言处理 算法
神经网络分类算法的应用及其实现
神经网络分类算法的应用及其实现
118 0
|
6月前
|
机器学习/深度学习 数据采集 人工智能
Python实现深度神经网络RNN-LSTM分类模型(医学疾病诊断)
Python实现深度神经网络RNN-LSTM分类模型(医学疾病诊断)
Python实现深度神经网络RNN-LSTM分类模型(医学疾病诊断)
|
3月前
|
机器学习/深度学习 调度 知识图谱
TimeDART:基于扩散自回归Transformer 的自监督时间序列预测方法
近年来,深度神经网络成为时间序列预测的主流方法。自监督学习通过从未标记数据中学习,能够捕获时间序列的长期依赖和局部特征。TimeDART结合扩散模型和自回归建模,创新性地解决了时间序列预测中的关键挑战,在多个数据集上取得了最优性能,展示了强大的泛化能力。
113 0
TimeDART:基于扩散自回归Transformer 的自监督时间序列预测方法
|
7月前
|
存储 算法
预训练特征分类器
【6月更文挑战第11天】
41 1
|
8月前
|
机器学习/深度学习 算法 TensorFlow
【视频】神经网络正则化方法防过拟合和R语言CNN分类手写数字图像数据MNIST|数据分享
【视频】神经网络正则化方法防过拟合和R语言CNN分类手写数字图像数据MNIST|数据分享
|
机器学习/深度学习 存储 数据采集
使用深度神经网络对肿瘤图像进行分类
使用 Inception-v3 深度神经网络对可能不适合内存的多分辨率全玻片图像 (WSI) 进行分类。 用于肿瘤分类的深度学习方法依赖于数字病理学,其中整个组织切片被成像和数字化。生成的 WSI 具有高分辨率,大约为 200,000 x 100,000 像素。WSI 通常以多分辨率格式存储,以促进图像的高效显示、导航和处理。
167 0
|
机器学习/深度学习 存储 算法
深度学习实战(11):使用多层感知器分类器对手写数字进行分类
MLP 是一种监督机器学习 (ML) 算法,属于前馈人工神经网络 [1] 类。该算法本质上是在数据上进行训练以学习函数。给定一组特征和一个目标变量(例如标签),它会学习一个用于分类或回归的非线性函数。在本文中,我们将只关注分类案例。
385 0
|
机器学习/深度学习 算法
【文本分类】《融合后验概率校准训练的文本分类算法》
【文本分类】《融合后验概率校准训练的文本分类算法》
【文本分类】《融合后验概率校准训练的文本分类算法》
|
算法
【文本分类】基于改进CHI和PCA的文本特征选择
【文本分类】基于改进CHI和PCA的文本特征选择
175 0
【文本分类】基于改进CHI和PCA的文本特征选择
|
机器学习/深度学习 编解码 算法
卷积神经网络分类算法的模型训练
卷积神经网络分类算法的模型训练
174 0

热门文章

最新文章