机器学习数学基础九:回归分析

简介: 高斯分布:银行可能会多给,也可能会少给,但是绝大多数情况下这个浮动不会太大,极小情况下浮动会比较大,符合正常情况

一,回归分析概述


1af8bcbb6d30467194ea379ec32d03f1.png

69fb0ba33ee945cb9d001bc0670fa4ba.png


残差==误差项


相关分析是研究两个或两个以上的变量之间相关程度及大小的一种统计方法


回归分析是寻找存在相关关系的变量间的数学表达式,并进行统计推断的一种统计方法


在对回归分析进行分类时,主要有两种分类方式:

●根据变量的数目,可以分类一元回归、多元回归

●根据自变量与因变量的表现形式,分为线性与非线性


所以,回归分析包括四个方向:一 元线性回归分析、多元线性回归分析、一元非线性回归分析、多元非线性回归分析。


二,一元线性回归分析


●因变量(dependent variable): 被预测或被解释的变量,用y表示

●自变量(independent variable):预测或解释因变量的一一个或多个变量,用x表示

●对于具有线性关系的两个变量,可以用一个方程来表示它们之间的线性关系

●描述因变量y如何依赖于自变量x和误差项8的方程称为回归模型。对于只涉及一个自变量的一元线性回归模型可表示为:


b239716191ac462c9d32cdcedca5bc7a.png


回归方程:


6808326d5c6a4f95ae593e35be5bb7e2.png


三,误差


1d923c82deae4d2f9392de7845e47c30.png


高斯分布:银行可能会多给,也可能会少给,但是绝大多数情况下这个浮动不会太大,极小情况下浮动会比较大,符合正常情况


b966c36e46454dfebb3b4391bc684032.png


四,最小二乘法的推导和求解


848d807f74954df09209dbef2d8e25b3.png


最小二乘法推导:


f4ac7858a09a48eab3ea9858ff5f6c44.png

65602bd18c2a4adb884103d8a509ca5c.png


660fcbe08738436584fe44e77d81315b.png

f115462ad28849d1b2aea247a2cd5cc2.png

ed0a4ae9f6014f2d9e7d10df8a81e303.png


利用回归直线进行估计与预测:


点估计:利用估计的回归方程,对于x的某一个特定的值,求出y的一个估计值就是点估计

区间估计:利用估计的回归方程,对于x的一个特定值,求出y的一个估计值的区间就是区间估计


估计标准差:


为了度量回归方程的可靠性,通常计算估计标准误差。它度量观察值回绕着回归直线的变化程度或分散程度。


fd4b960444cc43c48968ef17c5290b8d.png


●公式中根号内的分母是n-2,而不是n,因而自由度为n-2。

●估计标准误差越大,则数据点围绕回归直线的分散程度就越大,回归方程的代表性越小。

●估计标准误差越小,则数据点围绕回归直线的分散程度越小,回归方程的代表愈大,其可靠性越高。


自由度就是一个系统在不违反任何限制条件下,可以自由变化的维度。


6900449f9e6d4baf890cb50f10b2d69b.png


影响区间宽度的因素:


●置信水平(1 -a),区间宽度随置信水平的增大而增大

●数据的离散程度Se,区间宽度随离程度的增大而增大样本容量,区间宽度随样本容量的增大而减小

●X0与X均值之间的差异,随着差异程度的增大而增大


五,回归直线的拟合优度


回归直线与各观测点的接近程度称为回归直线对数据的拟合优度


5ccabf464a104eeb8e8d9a6762fce518.png


总平方和可以分解为回归平方和、残差平方和两部分: SST= SSR+SSE

●总平方和(SST),反映因变量的n个观察值与其均值的总离差

●回归平方和SSR反映了y的总变差中,由于x与y之间的线性关系引起的y的变化部分

●残差平方和SSE反映了除了x对y的线性影响之外的其他因素对y变差的作用,是不能由回归直线来解释的y的变差部分


判定系数:


回归平方和占总平方和的比例,用R^2表示,其值在0到1之间。

●R^2== 0: 说明y的变化与x无关,x完全无助于解释y的变差

●R^2== 1:说明残差平方和为0,拟合是完全的,y的变化只与x有关


e2683d5d437a4794842acb0352b90ac6.png


六,显著性检验:


显著性检验的主要目的是根据所建立的估计方程用自变量x来估计或预测因变量y的取值。当建立了估计方程后,还不能马上进行估计或预测,因为该估计方程是根据样本数据得到的,它是否真实的反映了变量x和y之间的关系,则需要通过检验后才能证实。


根据样本数据拟合回归方程时,实际上就已经假定变量x与y之间存在着线性关系,并假定误差项是一个服从正态分布的随机变量,且具有相同的方差。但这些假设是否成立需要检验


1,显著性检验包括两方面:


1)线性关系检验


线性关系检验是检验自变量x和因变量y之间的线性关系是否显著,或者说,它们之间能否用一个线性模型来表示。


将均方回归(MSR)同均方残差(MSE)加以比较,应用F检验来分析二者之间的差别是否显著。


●均方回归:回归平方和SSR除以相应的自由度(自变量的个数K)

●均方残差:残差平方和SSE除以相应的自由度(n-k-1)


H0: β1=0 所有回归系数与零无显著差异,y与全体x的线性关系不显著


968f6fd8a0f34c93b416ae00ec5af859.png


2)回归系数检验


回归系数显著性检验的目的是通过检验回归系数β的值与0是否有显著性差异,来判断Y与X之间是否有显著的线性关系.若B=0,则总体回归方程中不含X项(即Y不随X变动而变动),因此,变量Y与X之间并不存在线性关系;若β≠0,说明变量Y与X之间存在显著的线性关系。


5aab983255f3481c89707b440dca0f0f.png


753746898308457eb842f24bb0b9e284.png


2,线性关系检验与回归系数检验的区别:


线性关系的检验是检验自变量与因变量是否可以用线性来表达,而回归系数的检验是对样本数据计算的回归系数检验总体中回归系数是否为0


●在一元线性回归中,自变量只有一个,线性关系检验与回归系数检验是等价的

●多元回归分析中,这两种检验的意义是不同的。线性关系检验只能用来检验总体回归关系的显著性,而回归系数检验可以对各个回归系数分别进行检验


七,多元线性回归


经常会遇到某一现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况,这时需用多元线性回归分析。


多元线性回归分析预测法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测和控制的方法


fa52c28a95f14c019c36b7429318fb4e.png


1f2027718bf14c6fb16dd2289162251a.png


八,曲线回归分析


直线关系是两变量间最简单的一种关系,曲线回归分析的基本任务是通过两个相关变量x与y的实际观测数据建立曲线回归方程,以揭示x与y间的曲线联系的形式。


曲线回归分析最困难和首要的工作是确定自变量与因变量间的曲线关系的类型,曲线回归分析的基本过程:


1)先将x或y进行变量转换

2)对新变量进行直线回归分析、建立直线回归方程并进行显著性检验和区间估计

3)将新变量还原为原变量,由新变量的直线回归方程和置信区间得出原变量的曲线回归方程和置信区间.


由于曲线回归模型种类繁多,所以没有通用的回归方程可直接使用。但是对于某些特殊的回归模型,可以通过变量代换、取对数等方法将其线性化,然后使用标准方程求解参数,再将参数带回原方程就是所求。


例子:


9a7cca1fa4ad40fd93400db84e7db565.png


9c6bfa332de74034ae7c227216a512c3.png

a878cd02ac2549008bd4694e8158fc17.png


九,多重共线性


回归模型中两个或两个以上的自变量彼此相关的现象



1,多重共线性带来的问题有:


1)回归系数估计值的不稳定性增强

2)回归系数假设检验的结果不显著等


2,多重共线性检验的主要方法:


1)容忍度

2)方差膨胀因子(VIF)


3,容忍度


1602c93ce5e44dbfb3bb5e6734ac1e5c.png


●Ri是解释变量xi与方程中其他解释变量间的复相关系数;

●容忍度在0~1之间,越接近于0,表示多重共线性越强,越接近于1,表示多重共线性越弱。


4,方差膨胀因子


方差膨胀因子是容忍度的倒数


87e869ed90f641cc800d2895253b87e3.png


●VIFi越大,特别是大于等于10,说明解释变量xi与方程中其他解释变量之间有严重的多重共线性;

●VIFi越接近1,表明解释变量xi和其他解释变量之间的多重共线性越弱。

目录
相关文章
|
3月前
|
机器学习/深度学习 算法 数据可视化
机器学习模型中特征贡献度分析:预测贡献与错误贡献
本文将探讨特征重要性与特征有效性之间的关系,并引入两个关键概念:预测贡献度和错误贡献度。
399 3
|
5天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
64 15
|
10天前
|
机器学习/深度学习 数据采集 运维
机器学习在运维中的实时分析应用:新时代的智能运维
机器学习在运维中的实时分析应用:新时代的智能运维
54 12
|
1月前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
207 5
|
5月前
|
机器学习/深度学习 数据可视化 搜索推荐
Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。
【7月更文挑战第5天】Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。流程包括数据获取、预处理、探索、模型选择、评估与优化,以及结果可视化。示例展示了用户行为、话题趋势和用户画像分析。Python的丰富生态使得社交媒体洞察变得高效。通过学习和实践,可以提升社交媒体分析能力。
92 1
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
机器学习中空间和时间自相关的分析:从理论基础到实践应用
空间和时间自相关是数据分析中的重要概念,揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础,并通过野火风险预测的实际案例,展示了如何利用随机森林模型捕捉时空依赖性,提高预测准确性。
110 0
机器学习中空间和时间自相关的分析:从理论基础到实践应用
|
2月前
|
数据采集 移动开发 数据可视化
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
这篇文章介绍了数据清洗、分析、可视化、模型搭建、训练和预测的全过程,包括缺失值处理、异常值处理、特征选择、数据归一化等关键步骤,并展示了模型融合技术。
153 1
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
|
2月前
|
机器学习/深度学习 数据可视化 算法
机器学习中的回归分析:理论与实践
机器学习中的回归分析:理论与实践
|
2月前
|
机器学习/深度学习 数据采集 算法
【Python篇】从零到精通:全面分析Scikit-Learn在机器学习中的绝妙应用
【Python篇】从零到精通:全面分析Scikit-Learn在机器学习中的绝妙应用
54 2
|
2月前
|
机器学习/深度学习 数据挖掘
二、机器学习之回归模型分析
二、机器学习之回归模型分析
190 0

热门文章

最新文章