简单线性回归:预测事物间简单关系的利器

简介: 简单线性回归:预测事物间简单关系的利器

🍀简介

数据科学领域,线性回归是一种基本而强大的统计分析方法。它广泛应用于各个领域,从经济学到生物医学研究,从市场营销到城市规划,目的是建立和利用变量之间的简单关系,以便预测未来趋势或做出决策。在本文中,我们将深入探讨简单线性回归的工作原理、应用场景和使用步骤,以帮助您更好地理解和应用这一强大的分析工具。


🍀什么是简单线性回归?

简单线性回归是一种线性回归模型的基本形式,用于分析两个变量之间的关系。其中一个变量被称为“自变量”或“预测变量”,而另一个变量被称为“因变量”或“响应变量”。简单线性回归假设自变量和因变量之间存在线性关系,即以自变量的值来预测因变量的值。


🍀简单线性回归的应用场景

  • 预测销售量:根据广告投入金额预测产品销售量。
  • 理解变量之间的关系:比如研究学习时间和考试分数之间是否存在正相关关系。
  • 预测趋势:根据过去几年的数据,预测未来的市场趋势。

使用步骤:

  • 收集数据:收集包含自变量和因变量的样本数据。
  • 数据预处理:对数据进行清洗,去除异常值或缺失数据。
  • 绘制散点图:可视化数据以了解自变量和因变量之间的总体关系。
  • 拟合回归线:使用最小二乘法拟合一条直线,使其最好地拟合数据分布。
  • 解释结果:根据回归线的斜率和截距解释变量之间的关系。
  • 进行预测:利用已知自变量的值,通过回归方程预测因变量的值。

注意事项:

  • 线性回归模型可能不适用于非线性关系的数据。
  • 数据的质量对于回归分析的准确性至关重要,要确保数据的准确性一致性
  • 线性回归模型的结果需要进行合理的解释和验证。

🍀代码演示

上代码前我们可以先了解一下最小二乘法

最小二乘法是一种常用的数学方法,用于拟合数据点与数学模型之间的关系。它的目标是通过调整模型的参数,使模型预测值与实际观测值之间的误差的平方和最小化。这种方法广泛应用于统计学、机器学习、工程学和自然科学等领域,用于分析和拟合数据,寻找数据背后的模式和趋势。

最小二乘法的基本思想是,通过最小化观测值与模型预测值之间的残差平方和来找到最优的模型参数。残差是指每个观测值与对应模型预测值之间的差异。通过求解最小化残差平方和的问题,可以得到最优的模型参数。

公式的推导可以看这位大佬的文章https://blog.csdn.net/weixin_40255714/article/details/125841394

import numpy as np
import matplotlib.pyplot as plt
x = np.array([1,2,3,4,5])
y = np.array([1,3,2,3,5])
plt.scatter(x,y)
plt.axis([0,6,0,6])
plt.show()
#  y = a*x+b  需要计算出a和b
x_mean = np.mean(x)
y_mean = np.mean(y)
num = 0.0 # 分子
d = 0.0  #  分母
for x_i,y_i in zip(x,y):
    num += (x_i-x_mean)*(y_i-y_mean)
    d += (x_i-x_mean)**2
a = num/d
b = y_mean-a*x_mean

a和b求出来之后,我们就可以进行绘制一下,记住这里指的是找到一条直线,使得每一个点的预测值和真实值之差达到最小

预测就很简单了,带入求值即可

🍀结论

简单线性回归是一种简单而有效的分析方法,可用于预测和理解变量之间的关系。通过收集和处理数据,我们可以建立一个可靠的回归模型,从而进行预测和决策。但要注意变量之间的线性关系是否真实存在,并且合理解释结果。希望本文对您理解简单线性回归有所帮助,并且能够在您的实际问题中应用这一强大的分析工具。

挑战与创造都是很痛苦的,但是很充实。

相关文章
|
机器学习/深度学习 监控 算法
信用风险评估评分卡建模方法及原理| 学习笔记
快速学习信用风险评估评分卡建模方法及原理。
信用风险评估评分卡建模方法及原理| 学习笔记
|
3月前
|
机器学习/深度学习 数据采集 数据挖掘
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
因果推断方法为特征工程提供了一个更深层次的框架,使我们能够区分真正的因果关系和简单的统计相关性。这种方法在需要理解干预效果的领域尤为重要,如经济学、医学和市场营销。
96 1
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
|
6月前
|
机器学习/深度学习 Python
贝叶斯分析与决策理论:用于确定分类问题决策点的应用
在分类问题中,一个常见的难题是决定输出为数字时各类别之间的切分点
74 9
贝叶斯分析与决策理论:用于确定分类问题决策点的应用
|
8月前
|
机器学习/深度学习 SQL 算法
如何在因果推断中更好地利用数据?
本报告从两个方面来介绍我们如何利用更多的数据来做好因果推断,一个是利用历史对照数据来显式缓解混淆偏差,另一个是多源数据融合下的因果推断。
|
6月前
|
算法 Python
关联规则挖掘是一种在大型数据集中发现项集之间有趣关系的方法。
关联规则挖掘是一种在大型数据集中发现项集之间有趣关系的方法。
|
7月前
|
机器学习/深度学习 数据采集 数据可视化
基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究附录
k均值聚类模型多元线性回归模型随机森林模型在数据分析项目中,选择合适的模型是至关重要的。本项目中,我们采用了三种不同的模型来分析蓝莓的生长条件和产量,以确保从不同角度全面理解数据。一、K均值聚类模型K均值聚类模型是一种无监督学习方法,用于根据数据的相似性将样本分成不同的组。在这个项目中,我们使用K均值聚类模型来识别具有相似特征的蓝莓品种。通过聚类分析,我们将蓝莓分为4个类别,每个类别代表了不同的生长条件和产量特性。这种分类有助于我们理解在不同环境条件下,哪些因素对蓝莓产量有显著影响。
基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究附录
|
7月前
|
机器学习/深度学习 算法 数据格式
机器学习线性回归——概念梳理及非线性拟合
机器学习线性回归——概念梳理及非线性拟合
113 0
|
8月前
|
机器学习/深度学习 存储 人工智能
【机器学习】如何理解贝叶斯定理?
【5月更文挑战第10天】【机器学习】如何理解贝叶斯定理?
|
7月前
|
机器学习/深度学习 数据采集 数据可视化
基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究
k均值聚类模型多元线性回归模型随机森林模型在数据分析项目中,选择合适的模型是至关重要的。本项目中,我们采用了三种不同的模型来分析蓝莓的生长条件和产量,以确保从不同角度全面理解数据。一、K均值聚类模型K均值聚类模型是一种无监督学习方法,用于根据数据的相似性将样本分成不同的组。在这个项目中,我们使用K均值聚类模型来识别具有相似特征的蓝莓品种。通过聚类分析,我们将蓝莓分为4个类别,每个类别代表了不同的生长条件和产量特性。这种分类有助于我们理解在不同环境条件下,哪些因素对蓝莓产量有显著影响。
|
8月前
|
数据可视化 数据挖掘
singleCellNet(代码开源)|单细胞层面对细胞分类进行评估,褒贬不一,有胜于无
`singleCellNet`是一款用于单细胞数据分析的R包,主要功能是进行细胞分类评估。它支持多物种和多分组分析,并提供了一个名为`CellNet`的类似工具的示例数据集。用户可以通过安装R包并下载测试数据来运行demo。在demo中,首先加载查询和测试数据,然后训练分类器,接着进行评估,包括查看准确率和召回率的曲线图、分类热图和比例堆积图等。此外,`singleCellNet`还支持跨物种评估,将人类基因映射到小鼠直系同源物进行分析。整体而言,`singleCellNet`是一个用于单细胞分类评估的综合工具,适用于相关领域的研究。
106 6