卡方检验用于文本分类中的特征提取

简介: 卡方检验(Chi-square Test) 卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(“原假设”),然后观察实际值(观察值)与理论值(这个理论值是指“如果两者确实独立”的情况下应该有的值)的偏差程度,如果偏差足够小,我们就认为误差是很自然的样本误差,是测量手段不够精确导致或者偶然发生的,两者确确实实是独立的,此时

卡方检验(Chi-square Test)

卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(“原假设”),然后观察实际值(观察值)与理论值(这个理论值是指“如果两者确实独立”的情况下应该有的值)的偏差程度,如果偏差足够小,我们就认为误差是很自然的样本误差,是测量手段不够精确导致或者偶然发生的,两者确确实实是独立的,此时就接受原假设;如果偏差大到一定程度,使得这样的误差不太可能是偶然产生或者测量不精确所致,我们就认为两者实际上是相关的,即否定原假设,而接受备择假设。

理论值为E,实际值为x,偏差程度的计算公式为:

这个式子就是开方检验使用的差值衡量公式。当提供了数个样本的观察值x1x2,……xi,……xn之后,代入到式中就可以求得开方值,用这个值与事先设定的阈值比较,如果大于阈值(即偏差很大),就认为原假设不成立,反之则认为原假设成立。

在文本分类的特征选择阶段,一般使用“词t与类别c不相关”来做原假设计算出的开方值越大,说明对原假设的偏离越大,我们越倾向于认为原假设的反面情况是正确的选择的过程为每个词计算它与类别c的开方值,从大到小排个序(此时开方值越大越相关),取前k个就可以。

例如,N篇文档,分类有体育和非体育,考察特征词“篮球”与类别“体育”的相关性。


特征选择

1.属于“体育”

2.不属于“体育”

1.包含“篮球”

A

B

A+B

2.不包含“篮球”

C

D

C+D

A+C

B+D

N

根据原假设,“体育”类别中包含“篮球”的文档比例应与所有文档中包含“篮球”的文档比例相同。故,A的理论值应为:

差值:

同样计算剩下三种情况的差值D12D21D22。最后计算“篮球”与“体育”类文章的开方值

进一步化简,注意如果给定了一个文档集合(例如我们的训练集)和一个类别,则NMN-M(即A+CB+D)对同一类别文档中的所有词来说都是一样的,而我们只关心一堆词对某个类别的开方值的大小顺序,而并不关心具体的值,因此把它们去掉是完全可以的,故实际计算的时候我们都使用

卡方检验的缺点是:它只统计文档是否出现词,而不管出现了几次。这会使得他对低频词有所偏袒(因为它夸大了低频词的作用)。甚至会出现有些情况,一个词在一类文章的每篇文档中都只出现了一次,其开方值却大过了在该类文章99%的文档中出现了10次的词,其实后面的词才是更具代表性的,但只因为它出现的文档数比前面的词少了“1”,特征选择的时候就可能筛掉后面的词而保留了前者。这就是开方检验著名的“低频词缺陷”。因此开方检验也经常同其他因素如词频综合考虑来扬长避短。

目录
相关文章
|
关系型数据库 MySQL 索引
【mysql】 limit 关键字
【mysql】 limit 关键字
451 0
|
SQL JSON 数据格式
SQL老司机,在SQL中计算 array & map & json数据
场景 通常,我们处理数据,一列数据类型要么是字符串,要么是数字,这些都是primitive类型的数据。在某些比较复杂的业务场景下,我们会在一列中使用复杂的格式,例如数组array, 对象(map),json等格式来表示复杂的数据,例如: __source__: 11.
10357 0
|
8月前
|
缓存 自然语言处理 搜索推荐
深入优化基于DeepSeek的智能客服系统:从基础到高级
本文在上一篇构建的DeepSeek智能客服系统基础上,深入探讨了性能优化、用户体验提升和高级功能集成的方法。通过缓存机制、异步处理优化性能;利用情感分析、个性化回答提升用户体验;引入语音识别、知识图谱等高级功能增强智能化水平。结合具体案例与代码示例,帮助开发者打造更高效、智能的客服系统。
|
测试技术 计算机视觉 Python
Python PyAutoGUI是什么?
**PyAutoGUI库简介** PyAutoGUI是Python的一个库,用于自动化GUI任务,包括模拟鼠标和键盘操作。它可以用来做屏幕截图、自动填写表单、自动化测试等。安装库使用`pip install pyautogui`。基本操作涉及导入库、获取屏幕尺寸、控制鼠标(如获取位置、移动、点击和滚动)以及键盘操作(如输入文本和模拟快捷键)。此外,还有等待功能,如延迟执行和根据屏幕图像定位。PyAutoGUI还可用于识别屏幕颜色、查找图像位置和屏幕录制。它在各种场景下都非常有用,例如自动化日常任务或网页操作。
294 1
|
机器学习/深度学习 搜索推荐 算法
基于深度学习的图书管理推荐系统(附python代码)
基于Keras的图书推荐系统利用深度学习的Embedding技术,根据用户评分预测高评分书籍。模型包括用户和书籍的Embedding层,concatenation和全连接层。通过训练集与测试集划分,使用adam优化器和MSE损失函数进行训练。程序展示了模型预测的图书ID和评分概率,以及实际推荐的Top 10书单。代码中包含数据预处理、模型训练与预测功能。
 基于深度学习的图书管理推荐系统(附python代码)
|
边缘计算 运维 安全
云上物联网边缘节点:重塑连接智能世界的桥梁
结语 云上物联网边缘节点作为物联网技术的重要组成部分,正以其独特的优势和潜力推动着物联网的快速发展。面对未来的机遇和挑战,我们需要不断创新和完善边缘节点的技术架构和应用模式,推动物联网技术的深度融合和广泛应用,为构建智慧社会贡献力量。
348 0
|
算法 安全 网络安全
AIGC涉及七大风险
【1月更文挑战第17天】AIGC涉及七大风险
1184 1
AIGC涉及七大风险
|
存储 数据库 数据安全/隐私保护
Windows系统部署AnyTXT Searcher并实现远程搜索本地内网设备中文件
Windows系统部署AnyTXT Searcher并实现远程搜索本地内网设备中文件
|
关系型数据库 MySQL Linux
Linux下C语言实现MySQL操作——连接、查询、插入与客户端打造
Linux下C语言实现MySQL操作——连接、查询、插入与客户端打造
565 0
Linux下C语言实现MySQL操作——连接、查询、插入与客户端打造
|
NoSQL Shell Redis
Docker镜像编译与Docker-Compose部署与编排
Docker镜像编译与Docker-Compose部署与编排