机器学习数学基础十一:方差分析

简介: 分析四个行业之间的服务质量是否有显著差异,也就是要判断“行业”对“投诉次数”是否有显著影响。如果它们的均值相等,就意味着“行业”对投诉次数是没有影响的,即它们之间的服务质量没有显著差异;如果均值不全相等,则意味着“行业”对投诉次数是有影响的,它们之间的服务质量有显著差异

一,方差分析概述


检验多个总体均值是否相等,通过分析察数据的误差判断各总体均值是否相等


abba7b91fb144c1c8810a9263831d3f9.png


例子:


e75d686900064711883f4d95790899e5.png


要做的事:


分析四个行业之间的服务质量是否有显著差异,也就是要判断“行业”对“投诉次数”是否有显著影响

如果它们的均值相等,就意味着“行业”对投诉次数是没有影响的,即它们之间的服务质量没有显著差异;如果均值不全相等,则意味着“行业”对投诉次数是有影响的,它们之间的服务质量有显著差异


二,方差的比较


●因素或因子(factor): 所要检验的对象,要分析行业对投诉次数是否有影响,行业是要检验的因素或因子

●水平或处理(treatment):因素的不同表现,即每个自变量的不同取值称为因素的水平

●观察值:在每个因素水平下得到的样本值,每个行业被投诉的次数就是观察值

●试验:这里只涉及-一个因素,因此称为单因素四水平的试验

●总体:因素的每一个水平可以看作是一个总体,比如零售业、旅游业、航空公司、家电制造业可以看作是四个总体

●样本数据:被投诉次数可以看作是从这四个总体中抽取的样本数据


4f730080f5bc47dcaae9707443535962.png


●不同行业被投诉的次数是有明显差异的

●即使是在同一个行业,不同企业被投诉的次数也明显不同

●家电制造也被投诉的次数较高,航空公司被投诉的次数较低

●行业与被投诉次数之间有一定的关系


但是

●仅从散点图上观察还不能提供充分的证据证明不同行业被投诉的次数之间有显著差异

●这种差异也可能是由于抽样的随机性所造成的

●需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析

●之所以叫方差分析,因为虽然我们感兴趣的是均值,但在判断均值之间是否有差异时则需要借助于方差


1,基本思想:


●比较两类误差,以检验均值是否相等

●比较的基础是方差比

●如果系统(处理)误差显著地不同于随机误差,则均值就是不相等的;反之,均值就是相等的


2,随机误差:


●因素的同一水平(总体)下,样本各观察值之间的差异

●比如,同一行业下不同企业被投诉次数是不同的

●这种差异可以看成是随机因素的影响,称为随机误差


3,系统误差:


●因素的不同水平(不同总体)下,各观察值之间的差异

●比如,不同行业之间的被投诉次数之间的差异

●这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差


4,组内方差:


●因素的同一水平(同一个总体)下样本数据的方差

●比如,零售业被投诉次数的方差

●组内方差只包含随机误差


5,组间方差:


●因素的不同水平(不同总体)下各样本之间的方差

●比如,四个行业被投诉次数之间的方差

●组间方差既包括随机误差,也包括系统误差


6,方差的比较:


●若不同行业对投诉次数没有影响,则组间误差中只包含随机误差,没有系统误差。这时,组间误差与组内误差经过平均后的数值就应该很接近,它们的比值就会接近1

●若不同行业对投诉次数有影响,在组间误差中除了包含随机误差外,还会包含有系统误差,这时组间误差平均后的数值就会大于组内误差平均后的数值,它们之间的比值就会大于1

●这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响

●判断行业对投诉次数是否有显著影响,实际上也就是检验被投诉次数的差异主要是由于什么原因所引起的。如果这种差异主要是系统误差,说明不同行业对投诉次数有显著影响


三,方差分析计算方法


每个总体都应服从正态分布


●对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本

●比如,每个行业被投诉的次数必需服从正态分布



各个总体的方差必须相同


●各组观察数据是从具有相同方差的总体中抽取的

●比如,四个行业被投诉次数的方差都相等



观察值是独立的


●比如,每个行业被投诉的次数与其他行业被投诉的次数独立



在上述假定条件下,判断行业对投诉次数是否有显著影响,实际上也就是检验具有同方差的四个正态总体的均值是否相等



原假设成立,即H0:μ1=μ2=μ3= μ4


●四个行业被投诉次数的均值都相等意味着每个样本都来自均值为μ、方差为σ^2的同一-正态总体


d412e979689e45fd9bbdff08e37662b6.png


备择假设成立,即H1: μ1 μ2 μ3 μ4不完全相等

●至少有一个总体的均值是不同的,四个样本分别来自均值不同的四个正态总体


80e08ccad94e4b698f26d3a47c54826c.png


1,单因素方差分析:


模型中有一个自变量(因素)和一个观测变量,其实就是关于在一个影响因素的不同水平下,观测变量均值差异的显著性检验。


0b85a78b4cf64e9c9637d0b3011887ce.png


提出假设:


●H0:μ1=μ2=。。。=μk,自变量对因变量没有显著影响



●即H1:μ1μ2。。。μ4不完全相等,自变量对因变量有显著影响


拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等


2,检验的统计量:


●水平的均值

●全部观察值的总均值

●误差平方和

●均方(MS)


1)总误差平方和:


901c7199fdab4b048f76b98a3caf1327.png


2)水平项平方和


各组平均值与总平均值的离差平方和,反映各总体的样本均值之间的差异程度,又称组间平方和,该平方和既包括随机误差,也包括系统误差


de5dfeb8b6cc4979a0928c672b2229a2.png


3)误差项平方和


每个水平或组的各样本数据与其组平均值的离差平方和,反映每个样本各观察值的离散状况,又称组内平方和,该平方和反映的是随机误差的大小


1d451b136aee482bb6ceefff01eeba29.png


4)平方和之间的关系


a7a73e58c2c14cf59385afc57d6af94d.png


SST反映全部数据总的误差程度;SSE反映随机误差的大小;SSA反映随机误差和系统误差的大小,如果原假设成立,则表明没有系统误差,组间平方和SSA除以自由度后的均方与组内平方和SSE和除以自由度后的均方差异就不会太大;如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差,判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小


5)均方


各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差,计算方法是用误差平方和除以相应的自由度


12bf5a9b5e4248958b1835e2c8fd0947.png


6)F统计量


859fe638f6f346a190ed066c7345efd4.png


根据给定的显著性水平,在F分布表中查找与第一自由度pf1=k-1、第二自由度df2=n-k相应的临界值

●若F>Fa,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响

●若F<Fa,则不拒绝原假设H0,不能认为所检验的因素对观察值有显著影响


四,方差分析中的多重比较


●通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异.

●可采用Fisher提出的最小显著差异方法,简写为LSD

●LSD方法是对检验两个总体均值是否相等的t检验方法的总体方差估计而得到的


c44636c454784648a949ce0962683f27.png


例子:


ac0302fd6d5d4429b8abf1181736ae21.png


d0dbe37109724ae88b31a98926da56c3.png


五,多因素方差分析


●无交互效应的多因素方差分析

●有交互效应的多因素方差分析


1,主效应与交互效应:


●主效应(maineffect):各个因素对观测变量的单独影响称为主效应。

●交互效应(interactioneffect):各个因素不同水平的搭配所产生的新的影响称为交互效应。


2,双因素方差分析的类型:


●双因素方差分析中因素A和B对结果的影响相互独立时称为无交互效应的双因素方差分析。

●如果除了A和B对结果的单独影响外还存在交互效应,这时的双因素方差分析称为有交互效应的双因素方差分析。


3,无交互效应的双因素方差分析模型:


a8b4123dac5e4140b03f7d7fbda18c5f.png


4,有交互效应的双因素方差分析模型:


42cfaba53e6d45fa9d9312de4d96faa5.png

d32d9d766bbb45508be4ea9ee2a7219a.png


5,双因素方差分析步骤:


1)提出假设:


●要说明因素A有无显著影响,就是检验如下假设:

HO:因素A不同水平下观测变量的总体均值无显著差异。

H1:因素A不同水平下观测变量的总体均值存在显著差异。

●要说明因素B有无显著影响,就是检验如下假设:

HO:因素B不同水平下观测变量的总体均值无显著差异。

H1:因素B不同水平下观测变量的总体均值存在显著差异。

●在有交互效应的双因素方差中,要说明两个因素的交互效应是否显著,还要检验第三组零假设和备择假设:

HO:因素A和因素B的交互效应对观测变量的总体均值无显著差异。

H1:因素A和因素B的交互效应对观测变量的总体均值存在显著差异。


2)构建统计量:


cde500f7a4b643a38b4fe5b1428f8d1f.png


利用原假设和样本数据分别计算3个F统计量的值和其对应的p值,对比p值和a,结合原假设作出推断。若p<a,则拒绝关于这个因素的原假设,得出此因素不同水平下观测变量各总体均值存在显著差异的结论。


3)计算各平方和


b0899ce7859f4369a283f808aeebba0b.png


4)计算均方:


误差平方和除以相应的自由度

●总离差平方和SST的自由度为kr-1

●行因素的离差平方和SSR的自由度为k-1

●列因素的离差平方和SSC的自由度为r-1

●随机误差平方和SSE的自由度为(k-1)*(r-1)


5)计算检验统计量:


c8910d66394d409fb30b7095e246495e.png

目录
相关文章
|
2月前
|
机器学习/深度学习 算法 数据可视化
机器学习模型中特征贡献度分析:预测贡献与错误贡献
本文将探讨特征重要性与特征有效性之间的关系,并引入两个关键概念:预测贡献度和错误贡献度。
259 3
|
4月前
|
机器学习/深度学习 数据可视化 搜索推荐
Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。
【7月更文挑战第5天】Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。流程包括数据获取、预处理、探索、模型选择、评估与优化,以及结果可视化。示例展示了用户行为、话题趋势和用户画像分析。Python的丰富生态使得社交媒体洞察变得高效。通过学习和实践,可以提升社交媒体分析能力。
82 1
|
1月前
|
数据采集 移动开发 数据可视化
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
这篇文章介绍了数据清洗、分析、可视化、模型搭建、训练和预测的全过程,包括缺失值处理、异常值处理、特征选择、数据归一化等关键步骤,并展示了模型融合技术。
53 1
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
|
1月前
|
机器学习/深度学习 数据可视化 数据挖掘
机器学习中空间和时间自相关的分析:从理论基础到实践应用
空间和时间自相关是数据分析中的重要概念,揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础,并通过野火风险预测的实际案例,展示了如何利用随机森林模型捕捉时空依赖性,提高预测准确性。
46 0
机器学习中空间和时间自相关的分析:从理论基础到实践应用
|
1月前
|
机器学习/深度学习 数据可视化 算法
机器学习中的回归分析:理论与实践
机器学习中的回归分析:理论与实践
|
1月前
|
机器学习/深度学习 数据采集 算法
【Python篇】从零到精通:全面分析Scikit-Learn在机器学习中的绝妙应用
【Python篇】从零到精通:全面分析Scikit-Learn在机器学习中的绝妙应用
38 2
|
1月前
|
机器学习/深度学习 数据挖掘
二、机器学习之回归模型分析
二、机器学习之回归模型分析
99 0
|
2月前
|
机器学习/深度学习 存储 人工智能
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
使用Python作为开发语言,基于文本数据集(一个积极的xls文本格式和一个消极的xls文本格式文件),使用Word2vec对文本进行处理。通过支持向量机SVM算法训练情绪分类模型。实现对文本消极情感和文本积极情感的识别。并基于Django框架开发网页平台实现对用户的可视化操作和数据存储。
49 0
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
|
3月前
|
机器学习/深度学习 人工智能 数据处理
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
探测外太空中的系外行星是天文学和天体物理学的重要研究领域。随着望远镜观测技术的进步和大数据的积累,科学家们已经能够观测到大量恒星的光度变化,并尝试从中识别出由行星凌日(行星经过恒星前方时遮挡部分光线)引起的微小亮度变化。然而,由于数据量巨大且信号微弱,传统方法难以高效准确地识别所有行星信号。因此,本项目旨在利用机器学习技术,特别是深度学习,从海量的天文观测数据中自动识别和分类系外行星的信号。这要求设计一套高效的数据处理流程、构建适合的机器学习模型,并实现自动化的预测和验证系统。
66 1
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
|
2月前
|
机器学习/深度学习 存储 数据挖掘
Hologres 与机器学习的融合:为实时分析添加预测性分析功能
【9月更文第1天】随着数据科学的发展,企业越来越依赖于从数据中获取洞察力来指导决策。传统的数据仓库主要用于存储和查询历史数据,而现代的数据仓库如 Hologres 不仅提供了高性能的查询能力,还能够支持实时数据分析。将 Hologres 与机器学习技术相结合,可以在实时数据流中引入预测性分析,为企业提供更深入的数据洞见。本文将探讨如何将 Hologres 与机器学习集成,以便实现实时的预测性分析。
84 4

热门文章

最新文章