AI遮天传 ML-回归分析入门

简介: AI遮天传 ML-回归分析入门

相信大家初高中都学习过求解回归线方程,大学概率论的第九章也有讲,忘记了也不要紧,这里简单回忆一下:

线性回归方程为:

我们可以先求出x、y的均值:    

                                             

对于系数 :          

对于系数 :        

例:已知x、y之间的一组数据:

x 0 1 2 3
y 1 3 5 7

求y与x的回归方程:

答案 :  其实连起来就是一条线段

一、什么是回归分析

Regression

回归分析我们通常叫做 Regression ,它其实是一大类方法。我们之前了解到的Predicition它即包括了Regression也包括了Classification,即回归和分类。像是决策树适合的离散型输出,我们一般叫做分类;而对于连续型输出的问题,比如用户的满意度、一个家庭一年的开销或者是用户星级的评价、用户的点击又或是一些概率等等,就要用到这次介绍的Regression方法。

回归分析是描述变量间关系的一种统计分析方法


       • 例:在线教育场景


               • 因变量 Y:在线学习课程满意度


               • 自变量 X:平台交互性、教学资源、课程设计


• 预测性的建模技术,通常用于预测分析


• 预测的结果多为连续值(但也可以是离散值,甚至是二值)

二、简单线性回归

线性回归 (Linear regression)

因变量和自变量之间是线性关系,就可以使用线性回归来建模

线性回归的目的即找到最能匹配(解释)数据的截距斜率

  • 有些变量间的线性关系是确定性的
x 1 2 3 4 5 6
y 3 5 7 9 11 13

所以当 x=7时,我们预测为15.

  • 然而通常情况下,变量间是近似的线性关系
x 1 2 3 4 5 6
y 3 2 8 8 11 13

 我们要解决的问题就是如何得到一条直线能够最好地解释数据?

拟合数据

假设只有一个因变量和自变量,每个训练样例表示 (𝑥𝑖 , 𝑦𝑖)

用  表示根据拟合直线和 x𝑖 对 𝑦𝑖 的预测值:  

定义  为误差项/残差

这里引入了一个新的定义:误差项,它是用样本的真实值减去样本的估计值。

我们的目标就是得到一条直线使得对于所有训练样例的误差项尽可能小 

线性回归的基本假设

我们假设:

假设自变量与因变量间存在线性关系

数据点之间独立

       输出结果y1,y2,y3...没有关系


自变量之间无共线性,相互独立

       对于走路累不累:如果特征是 伞 和 书包  伞和书包这两个变量没什么关系


                                    如果是 天气 伞 书包       则 天气 和 伞 我们认为并不是相互独立的


残差独立、等方差、符合正态分布

       error独立、等方差(面对同一个问题,也是同分布的)


       根据中心极限定理:设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。

三、损失函数(loss function)的定义

多种损失函数都是可行的,凭直觉就可以想到:

  • 所有误差项的加和
  • 所有误差项绝对值的加和

考虑到优化等问题,最常用的是基于误差平方和的损失函数

用误差平方和作为损失函数有很多优点


       • 损失函数是严格的凸函数,有唯一解


       • 求解过程简单且容易计算


• 同时也伴随着一些缺点


       • 结果对数据中的“离群点”(outlier)非常敏感


               • 解决方法:提前检测离群点并去除


       • 损失函数对于超过和低于真实值的预测是等价的


               • 但有些真实情况下二者带来的影响是不同的  

我们需要求出合适的参数b1、b2使得误差平方和最小。

最小二乘法(Least Square, LS)

为了求解最优的截距和斜率,可以转化为一个针对损失函数的 凸优化问题,称为最小二乘法:

们分别对b1、b2求偏导:

这就是我们文章最开始回忆的线性回归方程,我们使用时当然不用去求偏导了,直接用。


梯度下降法(Gradient Descent, GD)


除了最小二乘法,还可以用基于梯度的方法迭代更新截距和斜率:


可以随机先初始化 𝑏1, 𝑏2

重复:      

有了初始化的一组b1、b2,我们就可以得到对应比如样本1的误差项error1,基于误差项去更新b,b=b-a,其中a是系数的更新(和误差有关的函数,比如0.1*error),这样就有了新的b1、b2,用样本2的误差项error2求出a不断更新迭代...  直到收敛。

四、多元线性回归(Multiple Linear Regression)

当因变量有多个时,我们可以用矩阵方式表达

基于以上矩阵表示,可以写为

此时:

注:

  • 矩阵X的第一列都是1,其与β相乘表示截距。
  • 损失函数结果还是数字
  • 通过最小二乘法得到求解β的公式

例如:

记录了 25 个家庭每年在快销品和日常服务

  • 总开销(𝑌)
  • 每年固定收入( 𝑋2)、持有的流动资产( 𝑋3)

可以构建如下线性回归模型:

五、线性回归的相协方差、关系数、决定系数

协方差:协方差,描述两个变量 X 和 Y 的线性相关程度

相关系数:取值区间[-1,1]

如:

决定系数:决定系数  ,也称作判定系数、拟合优度

注意有可能小于0,它不是一个数的平方。

衡量了模型对数据的解释程度

  • y的波动有多少百分比能被x的波动所描述
  • 𝑅 2越接近1,表示回归分析中自变量对因变量的解释越好

特别注意:变量相关 ≠ 存在因果关系

基于回归分析的世界大学综合得分预测

回归分析预测世界大学综合得分_老师我作业忘带了的博客-CSDN博客

相关文章
|
2月前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段四:学术分析 AI 项目 RAG 落地指南:基于 Spring AI 的本地与阿里云知识库实践
本文介绍RAG(检索增强生成)技术,结合Spring AI与本地及云知识库实现学术分析AI应用,利用阿里云Qwen-Plus模型提升回答准确性与可信度。
906 90
AI 超级智能体全栈项目阶段四:学术分析 AI 项目 RAG 落地指南:基于 Spring AI 的本地与阿里云知识库实践
|
3月前
|
存储 人工智能 测试技术
手把手带你入门AI智能体:从核心概念到第一个能跑的Agent
AI智能体是一种能感知环境、自主决策并执行任务的人工智能系统。它不仅能生成回应,还可通过工具使用、计划制定和记忆管理完成复杂工作,如自动化测试、脚本编写、缺陷分析等。核心包括大语言模型(LLM)、任务规划、工具调用和记忆系统。通过实践可逐步构建高效智能体,提升软件测试效率与质量。
|
3月前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
本文讲解 Prompt 基本概念与 10 个优化技巧,结合学术分析 AI 应用的需求分析、设计方案,介绍 Spring AI 中 ChatClient 及 Advisors 的使用。
1205 133
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
|
4月前
|
数据采集 人工智能 分布式计算
ODPS在AI时代的发展战略与技术演进分析报告
ODPS(现MaxCompute)历经十五年发展,从分布式计算平台演进为AI时代的数据基础设施,以超大规模处理、多模态融合与Data+AI协同为核心竞争力,支撑大模型训练与实时分析等前沿场景,助力企业实现数据驱动与智能化转型。
381 4
|
2月前
|
存储 人工智能 JSON
揭秘 Claude Code:AI 编程入门、原理和实现,以及免费替代 iFlow CLI
本文面向对 AI Coding 感兴趣的朋友介绍 Claude Code。通过此次分享,可以让没有体验过的快速体验,体验过的稍微理解其原理,以便后续更好地使用。
814 18
揭秘 Claude Code:AI 编程入门、原理和实现,以及免费替代 iFlow CLI
|
4月前
|
人工智能 数据可视化 安全
Dify入门系列(1)| Dify 是什么?真能开启低代码 AI 应用开发?
Dify 是一个融合 BaaS 与 LLMOps 的开源平台,通过可视化编排、预置组件与企业级引擎,帮助企业快速、安全、低成本地构建 AI 应用。无论是客服机器人还是复杂业务流程,Dify 都能将开发周期从数周缩短至分钟级,推动低代码 AI 开发进入实用阶段。
|
3月前
|
人工智能 关系型数据库 数据库
公募REITs专属AI多智能体查询分析项目
公募REITs专属AI多智能体查询分析项目。本项目是基于 OpenAI Agent 框架的多智能体项目,提供二级市场数据查询分析、招募说明书内容检索、公告信息检索、政策检索等多板块查询服务。支持图标绘制、文件生成。
公募REITs专属AI多智能体查询分析项目
|
3月前
|
人工智能
AI推理方法演进:Chain-of-Thought、Tree-of-Thought与Graph-of-Thought技术对比分析
大语言模型推理能力不断提升,从早期的规模扩展转向方法创新。2022年Google提出Chain-of-Thought(CoT),通过展示推理过程显著提升模型表现。随后,Tree-of-Thought(ToT)和Graph-of-Thought(GoT)相继出现,推理结构由线性链条演进为树状分支,最终发展为支持多节点连接的图网络。CoT成本低但易错传,ToT支持多路径探索与回溯,GoT则实现非线性、多维推理,适合复杂任务。三者在计算成本与推理能力上形成递进关系,推动AI推理向更接近人类思维的方向发展。
242 4

热门文章

最新文章