备案控制台

开发者社区人工智能文章正文

AI遮天传 ML-回归分析入门

2023-01-08 203

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： AI遮天传 ML-回归分析入门

相信大家初高中都学习过求解回归线方程，大学概率论的第九章也有讲，忘记了也不要紧，这里简单回忆一下：

线性回归方程为：

我们可以先求出x、y的均值：

对于系数 :

对于系数 :

例：已知x、y之间的一组数据：

x	0	1	2	3
y	1	3	5	7

求y与x的回归方程：

答案： 其实连起来就是一条线段

一、什么是回归分析

Regression

回归分析我们通常叫做 Regression ，它其实是一大类方法。我们之前了解到的Predicition它即包括了Regression也包括了Classification，即回归和分类。像是决策树适合的离散型输出，我们一般叫做分类；而对于连续型输出的问题，比如用户的满意度、一个家庭一年的开销或者是用户星级的评价、用户的点击又或是一些概率等等，就要用到这次介绍的Regression方法。

回归分析是描述变量间关系的一种统计分析方法

• 例：在线教育场景

• 因变量 Y：在线学习课程满意度

• 自变量 X：平台交互性、教学资源、课程设计

• 预测性的建模技术，通常用于预测分析

• 预测的结果多为连续值（但也可以是离散值，甚至是二值）

二、简单线性回归

线性回归 (Linear regression)

因变量和自变量之间是线性关系，就可以使用线性回归来建模

线性回归的目的即找到最能匹配(解释)数据的截距和斜率

有些变量间的线性关系是确定性的

x	1	2	3	4	5	6
y	3	5	7	9	11	13

所以当 x=7时，我们预测为15.

然而通常情况下，变量间是近似的线性关系

x	1	2	3	4	5	6
y	3	2	8	8	11	13

我们要解决的问题就是如何得到一条直线能够最好地解释数据？

拟合数据

假设只有一个因变量和自变量，每个训练样例表示 (𝑥𝑖 , 𝑦𝑖)

用表示根据拟合直线和 x𝑖 对 𝑦𝑖 的预测值:

定义为误差项/残差

这里引入了一个新的定义：误差项，它是用样本的真实值减去样本的估计值。

我们的目标就是得到一条直线使得对于所有训练样例的误差项尽可能小

线性回归的基本假设

我们假设：

假设自变量与因变量间存在线性关系

数据点之间独立

输出结果y1,y2,y3...没有关系

自变量之间无共线性，相互独立

对于走路累不累：如果特征是伞和书包伞和书包这两个变量没什么关系

如果是天气伞书包则天气和伞我们认为并不是相互独立的

残差独立、等方差、符合正态分布

error独立、等方差(面对同一个问题，也是同分布的)

根据中心极限定理：设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。

三、损失函数(loss function)的定义

多种损失函数都是可行的，凭直觉就可以想到：

所有误差项的加和
所有误差项绝对值的加和

考虑到优化等问题，最常用的是基于误差平方和的损失函数

用误差平方和作为损失函数有很多优点

• 损失函数是严格的凸函数，有唯一解

• 求解过程简单且容易计算

• 同时也伴随着一些缺点

• 结果对数据中的“离群点”(outlier)非常敏感

• 解决方法：提前检测离群点并去除

• 损失函数对于超过和低于真实值的预测是等价的

• 但有些真实情况下二者带来的影响是不同的

我们需要求出合适的参数b1、b2使得误差平方和最小。

最小二乘法（Least Square, LS)

为了求解最优的截距和斜率，可以转化为一个针对损失函数的凸优化问题，称为最小二乘法：

们分别对b1、b2求偏导：

这就是我们文章最开始回忆的线性回归方程，我们使用时当然不用去求偏导了，直接用。

梯度下降法(Gradient Descent, GD)

除了最小二乘法，还可以用基于梯度的方法迭代更新截距和斜率：

可以随机先初始化 𝑏1, 𝑏2

重复：

有了初始化的一组b1、b2，我们就可以得到对应比如样本1的误差项error1，基于误差项去更新b，b=b-a，其中a是系数的更新(和误差有关的函数，比如0.1*error)，这样就有了新的b1、b2，用样本2的误差项error2求出a不断更新迭代... 直到收敛。

四、多元线性回归(Multiple Linear Regression)

当因变量有多个时，我们可以用矩阵方式表达

基于以上矩阵表示，可以写为

此时：

注：

矩阵X的第一列都是1，其与β相乘表示截距。
损失函数结果还是数字
通过最小二乘法得到求解β的公式：

例如：

记录了 25 个家庭每年在快销品和日常服务

总开销（𝑌）
每年固定收入（ 𝑋2）、持有的流动资产（ 𝑋3）

可以构建如下线性回归模型：

五、线性回归的相协方差、关系数、决定系数

协方差：协方差，描述两个变量 X 和 Y 的线性相关程度

相关系数：取值区间[-1,1]

如：

决定系数：决定系数 ,也称作判定系数、拟合优度

注意：有可能小于0，它不是一个数的平方。

衡量了模型对数据的解释程度

y的波动有多少百分比能被x的波动所描述
𝑅 2越接近1，表示回归分析中自变量对因变量的解释越好

特别注意：变量相关 ≠ 存在因果关系

基于回归分析的世界大学综合得分预测

回归分析预测世界大学综合得分_老师我作业忘带了的博客-CSDN博客

文章标签：

数据挖掘

人工智能

关键词：

AI分析

AI入门

AI ml

老师我作业忘带了

目录

相关文章

卓伊凡

|

18天前

|

人工智能算法计算机视觉

【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡

【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡

卓伊凡

107 62 63

【01】opencv项目实践第一步opencv是什么-opencv项目实践-opencv完整入门以及项目实践介绍-opencv以土壤和水滴分离的项目实践-人工智能AI项目优雅草卓伊凡

Echo_Wish

|

21天前

|

机器学习/深度学习人工智能运维

智能日志分析：用AI点亮运维的未来

智能日志分析：用AI点亮运维的未来

Echo_Wish

148 15 15

Echo_Wish

|

1月前

|

机器学习/深度学习人工智能算法

AI在体育分析与预测中的深度应用：变革体育界的智能力量

AI在体育分析与预测中的深度应用：变革体育界的智能力量

Echo_Wish

145 31 34

蚝油菜花

|

1月前

|

机器学习/深度学习人工智能算法

FinRobot：开源的金融专业 AI Agent，提供市场预测、报告分析和交易策略等金融解决方案

FinRobot 是一个开源的 AI Agent 平台，专注于金融领域的应用，通过大型语言模型（LLMs）构建复杂的金融分析和决策工具，提供市场预测、文档分析和交易策略等多种功能。

蚝油菜花

247 13 13

FinRobot：开源的金融专业 AI Agent，提供市场预测、报告分析和交易策略等金融解决方案

Codelinghu

|

4月前

|

人工智能 JSON Java

【极速入门版】编程小白也能轻松上手Comate AI编程插件

【极速入门版】编程小白也能轻松上手Comate AI编程插件

Codelinghu

65 0 0

1778908750453455

|

1月前

|

传感器机器学习/深度学习人工智能

智能电网巡检与传感器数据AI自动分析

智能电网设备巡检与传感器数据分析利用AI技术实现自动化分析和预警。通过信息抽取、OCR技术和机器学习，系统可高效处理巡检报告和实时数据，生成精准报告并提供故障预判和早期识别。AI系统24小时监控设备状态，实时发出异常警报，确保设备正常运行，提升运维效率和可靠性。

1778908750453455

49 6 6

zlt2000

|

1月前

|

人工智能自然语言处理 Java

Spring Cloud Alibaba AI 入门与实践

本文将介绍 Spring Cloud Alibaba AI 的基本概念、主要特性和功能，并演示如何完成一个在线聊天和在线画图的 AI 应用。

zlt2000

349 7 7

Echo_Wish

|

2月前

|

机器学习/深度学习数据采集人工智能

AI在用户行为分析中的应用：实现精准洞察与决策优化

AI在用户行为分析中的应用：实现精准洞察与决策优化

Echo_Wish

161 15 15

1778908750453455

|

1月前

|

传感器机器学习/深度学习人工智能

技术分享：智能电网巡检与传感器数据自动分析——AI助力设备状态实时监控与故障预警

这篇文章介绍了AI在智能电网巡检与传感器数据分析中的应用，通过信息抽取、OCR识别和机器学习等技术，实现设备状态监控和故障预警的自动化。AI系统能够高效处理巡检报告和传感器数据，精准识别设备故障并实时预警，显著提升了电网运营的安全性和可靠性。随着AI技术的发展，其在智能电网管理中的作用将日益重要。

1778908750453455

67 1 1

Echo_Wish

|

2月前

|

数据采集机器学习/深度学习人工智能

基于AI的网络流量分析：构建智能化运维体系

基于AI的网络流量分析：构建智能化运维体系

Echo_Wish

217 13 13

热门文章

最新文章

手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型，创建个性化 AI 助手

AnythingLLM：34K Star！一键上传文件轻松打造个人知识库，构建只属于你的AI助手，附详细部署教程

AstrBot：轻松将大模型接入QQ、微信等消息平台，打造多功能AI聊天机器人的开发框架，附详细教程

Spring AI，搭建个人AI助手

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

Cursor 为低代码加速，AI 生成应用新体验！

解决方案评测｜AI 剧本生成与动画创作

低代码 + AI 落地实践，让业务效率翻倍，解锁未来生产力！

[转载] 太神奇了！钉钉低代码×DeepSeek =5分钟手搓出学生个性化习题AI生成器

AI 驱动的 WordPress（MEAP）（一）（5）

AI 驱动的 WordPress（MEAP）（一）（4）

AI 驱动的 WordPress（MEAP）（一）（3）

AI 驱动的 WordPress（MEAP）（一）（2）

AI 驱动的 WordPress（MEAP）（一）（1）

AI 驱动的开发者（MEAP）（二）（4）

AI 驱动的开发者（MEAP）（二）（3）

AI 驱动的开发者（MEAP）（二）（2）

AI 驱动的开发者（MEAP）（二）（1）

AI 驱动的开发者（MEAP）（一）（5）

相关课程

更多

AI应用开发

基于Gradio的AI应用搭建实践课

AI通识课-人工智能通识基础

使用Higress AI网关优化AI调用成本

基于通义灵码实现高效 AI 编码

通义灵码 AI 编码实战

相关电子书

更多

Lindorm：打造AI时代的一体化数据平台

Lindorm AI 能力介绍

2023云栖大会：PolarDB for AI

相关实验场景

更多

体育赛事！零代码生成运动风格AI写真。

【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板

使用容器计算服务 ACS 算力快速搭建生成式 AI 会话应用

SAE 极速部署专属AI证件照神器

流水线运行出错排查难？AI帮你智能排查

以电商场景为例搭建AI语义搜索应用

下一篇

PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型