AI遮天传 ML-回归分析入门

简介: AI遮天传 ML-回归分析入门

相信大家初高中都学习过求解回归线方程,大学概率论的第九章也有讲,忘记了也不要紧,这里简单回忆一下:

线性回归方程为:

我们可以先求出x、y的均值:    

                                             

对于系数 :          

对于系数 :        

例:已知x、y之间的一组数据:

x 0 1 2 3
y 1 3 5 7

求y与x的回归方程:

答案 :  其实连起来就是一条线段

一、什么是回归分析

Regression

回归分析我们通常叫做 Regression ,它其实是一大类方法。我们之前了解到的Predicition它即包括了Regression也包括了Classification,即回归和分类。像是决策树适合的离散型输出,我们一般叫做分类;而对于连续型输出的问题,比如用户的满意度、一个家庭一年的开销或者是用户星级的评价、用户的点击又或是一些概率等等,就要用到这次介绍的Regression方法。

回归分析是描述变量间关系的一种统计分析方法


       • 例:在线教育场景


               • 因变量 Y:在线学习课程满意度


               • 自变量 X:平台交互性、教学资源、课程设计


• 预测性的建模技术,通常用于预测分析


• 预测的结果多为连续值(但也可以是离散值,甚至是二值)

二、简单线性回归

线性回归 (Linear regression)

因变量和自变量之间是线性关系,就可以使用线性回归来建模

线性回归的目的即找到最能匹配(解释)数据的截距斜率

  • 有些变量间的线性关系是确定性的
x 1 2 3 4 5 6
y 3 5 7 9 11 13

所以当 x=7时,我们预测为15.

  • 然而通常情况下,变量间是近似的线性关系
x 1 2 3 4 5 6
y 3 2 8 8 11 13

 我们要解决的问题就是如何得到一条直线能够最好地解释数据?

拟合数据

假设只有一个因变量和自变量,每个训练样例表示 (𝑥𝑖 , 𝑦𝑖)

用  表示根据拟合直线和 x𝑖 对 𝑦𝑖 的预测值:  

定义  为误差项/残差

这里引入了一个新的定义:误差项,它是用样本的真实值减去样本的估计值。

我们的目标就是得到一条直线使得对于所有训练样例的误差项尽可能小 

线性回归的基本假设

我们假设:

假设自变量与因变量间存在线性关系

数据点之间独立

       输出结果y1,y2,y3...没有关系


自变量之间无共线性,相互独立

       对于走路累不累:如果特征是 伞 和 书包  伞和书包这两个变量没什么关系


                                    如果是 天气 伞 书包       则 天气 和 伞 我们认为并不是相互独立的


残差独立、等方差、符合正态分布

       error独立、等方差(面对同一个问题,也是同分布的)


       根据中心极限定理:设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。

三、损失函数(loss function)的定义

多种损失函数都是可行的,凭直觉就可以想到:

  • 所有误差项的加和
  • 所有误差项绝对值的加和

考虑到优化等问题,最常用的是基于误差平方和的损失函数

用误差平方和作为损失函数有很多优点


       • 损失函数是严格的凸函数,有唯一解


       • 求解过程简单且容易计算


• 同时也伴随着一些缺点


       • 结果对数据中的“离群点”(outlier)非常敏感


               • 解决方法:提前检测离群点并去除


       • 损失函数对于超过和低于真实值的预测是等价的


               • 但有些真实情况下二者带来的影响是不同的  

我们需要求出合适的参数b1、b2使得误差平方和最小。

最小二乘法(Least Square, LS)

为了求解最优的截距和斜率,可以转化为一个针对损失函数的 凸优化问题,称为最小二乘法:

们分别对b1、b2求偏导:

这就是我们文章最开始回忆的线性回归方程,我们使用时当然不用去求偏导了,直接用。


梯度下降法(Gradient Descent, GD)


除了最小二乘法,还可以用基于梯度的方法迭代更新截距和斜率:


可以随机先初始化 𝑏1, 𝑏2

重复:      

有了初始化的一组b1、b2,我们就可以得到对应比如样本1的误差项error1,基于误差项去更新b,b=b-a,其中a是系数的更新(和误差有关的函数,比如0.1*error),这样就有了新的b1、b2,用样本2的误差项error2求出a不断更新迭代...  直到收敛。

四、多元线性回归(Multiple Linear Regression)

当因变量有多个时,我们可以用矩阵方式表达

基于以上矩阵表示,可以写为

此时:

注:

  • 矩阵X的第一列都是1,其与β相乘表示截距。
  • 损失函数结果还是数字
  • 通过最小二乘法得到求解β的公式

例如:

记录了 25 个家庭每年在快销品和日常服务

  • 总开销(𝑌)
  • 每年固定收入( 𝑋2)、持有的流动资产( 𝑋3)

可以构建如下线性回归模型:

五、线性回归的相协方差、关系数、决定系数

协方差:协方差,描述两个变量 X 和 Y 的线性相关程度

相关系数:取值区间[-1,1]

如:

决定系数:决定系数  ,也称作判定系数、拟合优度

注意有可能小于0,它不是一个数的平方。

衡量了模型对数据的解释程度

  • y的波动有多少百分比能被x的波动所描述
  • 𝑅 2越接近1,表示回归分析中自变量对因变量的解释越好

特别注意:变量相关 ≠ 存在因果关系

基于回归分析的世界大学综合得分预测

回归分析预测世界大学综合得分_老师我作业忘带了的博客-CSDN博客

相关文章
|
18天前
|
人工智能 算法 计算机视觉
【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡
【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡
107 62
【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡
|
21天前
|
机器学习/深度学习 人工智能 运维
智能日志分析:用AI点亮运维的未来
智能日志分析:用AI点亮运维的未来
148 15
|
1月前
|
机器学习/深度学习 人工智能 算法
AI在体育分析与预测中的深度应用:变革体育界的智能力量
AI在体育分析与预测中的深度应用:变革体育界的智能力量
145 31
|
1月前
|
机器学习/深度学习 人工智能 算法
FinRobot:开源的金融专业 AI Agent,提供市场预测、报告分析和交易策略等金融解决方案
FinRobot 是一个开源的 AI Agent 平台,专注于金融领域的应用,通过大型语言模型(LLMs)构建复杂的金融分析和决策工具,提供市场预测、文档分析和交易策略等多种功能。
247 13
FinRobot:开源的金融专业 AI Agent,提供市场预测、报告分析和交易策略等金融解决方案
|
4月前
|
人工智能 JSON Java
【极速入门版】编程小白也能轻松上手Comate AI编程插件
【极速入门版】编程小白也能轻松上手Comate AI编程插件
65 0
|
1月前
|
传感器 机器学习/深度学习 人工智能
智能电网巡检与传感器数据AI自动分析
智能电网设备巡检与传感器数据分析利用AI技术实现自动化分析和预警。通过信息抽取、OCR技术和机器学习,系统可高效处理巡检报告和实时数据,生成精准报告并提供故障预判和早期识别。AI系统24小时监控设备状态,实时发出异常警报,确保设备正常运行,提升运维效率和可靠性。
|
1月前
|
人工智能 自然语言处理 Java
Spring Cloud Alibaba AI 入门与实践
本文将介绍 Spring Cloud Alibaba AI 的基本概念、主要特性和功能,并演示如何完成一个在线聊天和在线画图的 AI 应用。
349 7
|
2月前
|
机器学习/深度学习 数据采集 人工智能
AI在用户行为分析中的应用:实现精准洞察与决策优化
AI在用户行为分析中的应用:实现精准洞察与决策优化
161 15
|
1月前
|
传感器 机器学习/深度学习 人工智能
技术分享:智能电网巡检与传感器数据自动分析——AI助力设备状态实时监控与故障预警
这篇文章介绍了AI在智能电网巡检与传感器数据分析中的应用,通过信息抽取、OCR识别和机器学习等技术,实现设备状态监控和故障预警的自动化。AI系统能够高效处理巡检报告和传感器数据,精准识别设备故障并实时预警,显著提升了电网运营的安全性和可靠性。随着AI技术的发展,其在智能电网管理中的作用将日益重要。
|
2月前
|
数据采集 机器学习/深度学习 人工智能
基于AI的网络流量分析:构建智能化运维体系
基于AI的网络流量分析:构建智能化运维体系
217 13