【机器学习实战】10分钟学会Python怎么用LR线性回归进行预测(十)

简介: 【机器学习实战】10分钟学会Python怎么用LR线性回归进行预测(十)

[toc]

1 前言

还没看过前九节的同学可以回顾一下,经典的Logistic回归、Bayes、SVM-RFE、KNN、LDA、DT等机器学习必学算法:



注意这里的LR指的是Linear Regression,线性回归。而非逻辑回归Logistic Regression,虽然二者简称都是LR,但是后者我们还是俗称Logistic多点

1.1 LR的介绍

线性回归(Linear Regression)是一种用于建立自变量与连续因变量之间线性关系模型的统计学和机器学习方法。它是最简单、最常见的回归分析方法之一。

线性回归的目标是通过拟合最优的直线(一元线性回归)或超平面(多元线性回归)来描述自变量与因变量之间的关系。它假设自变量和因变量之间存在线性关系,即因变量可以被自变量的线性组合所解释。

一元线性回归模型的数学表达式为:Y = β0 + β1*X + ε,其中Y是因变量,X是自变量,β0和β1是回归系数,ε是误差项。这个模型描述了因变量Y与自变量X之间的直线关系,β0是截距,β1是斜率。

多元线性回归模型扩展了一元线性回归,可以处理多个自变量。数学表达式为:Y = β0 + β1X1 + β2X2 + ... + βn*Xn + ε,其中Y是因变量,X1, X2, ..., Xn是多个自变量,β0, β1, β2, ..., βn是回归系数,ε是误差项。

优点:

  • 简单和解释性: 线性回归是一种简单直观的方法,易于理解和解释。它建立了自变量与因变量之间的线性关系,通过回归系数可以解释自变量对因变量的影响程度和方向。
  • 计算效率高: 线性回归的计算效率通常很高,特别是在具有大量样本和低维特征空间的情况下。拟合线性回归模型的计算复杂度较低,可以处理大规模数据集。
  • 可解释性强: 线性回归可以提供变量之间的关系和影响程度的定量信息。回归系数可以量化自变量对因变量的贡献,帮助了解变量之间的关联关系。
  • 预测准确度高: 在数据符合线性关系的情况下,线性回归可以提供较高的预测准确度。当自变量与因变量之间存在线性关系时,线性回归可以得到较好的拟合效果。

缺点:

  • 线性假设限制: 线性回归假设自变量和因变量之间存在线性关系,这在实际问题中并不总是成立。如果数据的真实关系是非线性的,线性回归模型可能无法捕捉到复杂的模式和关联。
  • 对异常值敏感: 线性回归对异常值(在因变量或自变量中的极端值)比较敏感。异常值可能对模型的拟合产生显著影响,导致模型的不准确性。
  • 无法处理高维特征: 线性回归在处理高维特征空间的问题时面临挑战。当自变量的数量远大于样本数量时,线性回归可能会遇到过拟合问题。
  • 缺乏灵活性: 线性回归的灵活性较低,无法捕捉复杂的非线性关系。对于非线性问题,需要采用其他更复杂的模型来提高拟合能力。

1.2 LR的应用

这是最基础的机器学习算法,应用领域也十分广泛:

  1. 经济学和金融学:线性回归可以用于预测经济指标(如GDP、通货膨胀率等)与自变量(如消费、投资、出口等)之间的关系,进行经济预测和政策分析。在金融领域,线性回归可用于预测股票价格、利率等金融指标。
  2. 市场营销:线性回归可以用于市场营销研究,例如预测销售量与广告投入、价格等因素之间的关系,进行市场需求分析和营销策略制定。
  3. 医学和健康科学:线性回归可用于分析医学和健康领域的数据,例如预测疾病发展与风险因素之间的关系,评估治疗方法的效果,分析生物医学数据等。
  4. 社会科学:线性回归可用于社会科学领域的研究,如教育研究中预测学生成绩与学习时间、家庭背景等因素之间的关系,社会经济学中分析收入与教育水平、职业等的相关性。
  5. 环境科学:线性回归可用于分析环境数据,如预测气温与温室气体排放、大气污染物之间的关系,评估环境因素对生态系统的影响。
  6. 工程和物理科学:线性回归可用于建立物理模型和工程设计中的预测。例如,预测材料强度与温度、压力等因素之间的关系,分析电子元件的性能与设计参数的关联。

2. weather数据集实战演示

2.1 导入函数

import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
import seaborn as seabornInstance 
from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LinearRegression
from sklearn import metrics
%matplotlib inline

2.2 导入数据

weather数据集包括降水,降雪,温度,风速以及当天是否包括雷暴或其他恶劣天气条件。任务是预测以输入特征为最低温度的最高温度。
下载地址:https://github.com/Vaibhav-Mehta-19/linear-regression-weather-dataset

dataset = pd.read_csv('weather.csv')
print(dataset.shape)
dataset.describe()

2.3 数据整体可视化

# 最高温和最低温的二维散点图
dataset.plot(x='MinTemp', y='MaxTemp', style='o')  
plt.title('MinTemp vs MaxTemp')  
plt.xlabel('MinTemp')  
plt.ylabel('MaxTemp')  
plt.show()

# 检查平均最高温
plt.figure(figsize=(15,10))
plt.tight_layout()
seabornInstance.distplot(dataset['MaxTemp'])


根据结果看大概在15~20。

2.4 训练模型

X = dataset['MinTemp'].values.reshape(-1,1)
y = dataset['MaxTemp'].values.reshape(-1,1)
# 老惯例,训练集/测试集按7/3分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
regressor = LinearRegression()  
regressor.fit(X_train, y_train)

计算截距和斜率:

print(regressor.intercept_)
print(regressor.coef_)


意味着最小温度每变化一个单位,最高温度的变化约为0.82

2.5 预测模型

y_pred = regressor.predict(X_test)
df = pd.DataFrame({'Actual': y_test.flatten(), 'Predicted': y_pred.flatten()})
df

# 柱状图可视化结果
df1 = df.head(25)
df1.plot(kind='bar',figsize=(16,10))
plt.grid(which='major', linestyle='-', linewidth='0.5', color='green')
plt.grid(which='minor', linestyle=':', linewidth='0.5', color='black')
plt.show()


这里展示了25组数据,模型准确性有点不高,但是预测的百分比还是相对接近实际百分比

# 绘制组间比较线
plt.scatter(X_test, y_test,  color='gray')
plt.plot(X_test, y_pred, color='red', linewidth=2)
plt.show()

2.6 评估模型

  • 平均绝对误差(MAE),误差绝对值的平均值:

MAE = (1/n) * Σ|i - yi|

  • 均方误差(MSE),平方误差的平均值:

MSE = (1/n) * Σ(i - yi)^2

  • 均方根误差(RMSE),平方误差均值的平方根:

RMSE = √(MSE)

评估模型主要是以上三个指标,用Scikit-Learn库预构建的函数计算即可

print('Mean Absolute Error:', metrics.mean_absolute_error(y_test, y_pred))  
print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))  
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))


三个指标都是越小越好,虽然有点差强人意,不过均方根误差为4.42,平均绝对误差为3.76,可以认为该模型的预测误差相对较小

3.讨论

我认为线性回归是机器学习中最基础和常见的模型之一。线性回归模型通过建立特征与目标变量之间的线性关系来进行预测。它具有一些优点,如模型的简单性和可解释性,使其在许多应用领域得到广泛应用。

然而,线性回归模型也有一些限制。它假设特征与目标之间的关系是线性的,并且对异常值敏感,像2.3的散点图中可以看出数据的发散性较强。此外,它不能捕捉到非线性关系和特征之间的复杂交互作用。对于这些情况,可能需要考虑更复杂的模型或对特征进行转换。

目录
相关文章
|
11天前
|
数据采集 机器学习/深度学习 人工智能
Python编程入门:从基础到实战
【10月更文挑战第36天】本文将带你走进Python的世界,从基础语法出发,逐步深入到实际项目应用。我们将一起探索Python的简洁与强大,通过实例学习如何运用Python解决问题。无论你是编程新手还是希望扩展技能的老手,这篇文章都将为你提供有价值的指导和灵感。让我们一起开启Python编程之旅,用代码书写想法,创造可能。
|
8天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
29 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
11天前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
27 2
|
12天前
|
机器学习/深度学习 数据可视化 数据处理
Python数据科学:从基础到实战
Python数据科学:从基础到实战
21 1
|
13天前
|
机器学习/深度学习 数据采集 搜索推荐
利用Python和机器学习构建电影推荐系统
利用Python和机器学习构建电影推荐系统
31 1
|
8天前
|
数据采集 存储 数据处理
探索Python中的异步编程:从基础到实战
【10月更文挑战第39天】在编程世界中,时间就是效率的代名词。Python的异步编程特性,如同给程序穿上了一双翅膀,让它们在执行任务时飞得更高、更快。本文将带你领略Python异步编程的魅力,从理解其背后的原理到掌握实际应用的技巧,我们不仅会讨论理论基础,还会通过实际代码示例,展示如何利用这些知识来提升你的程序性能。准备好让你的Python代码“起飞”了吗?让我们开始这场异步编程的旅程!
21 0
|
12天前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
29天前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
|
1月前
|
机器学习/深度学习 人工智能 算法
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
玉米病害识别系统,本系统使用Python作为主要开发语言,通过收集了8种常见的玉米叶部病害图片数据集('矮花叶病', '健康', '灰斑病一般', '灰斑病严重', '锈病一般', '锈病严重', '叶斑病一般', '叶斑病严重'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。再使用Django搭建Web网页操作平台,实现用户上传一张玉米病害图片识别其名称。
56 0
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
下一篇
无影云桌面