【机器学习实战】10分钟学会Python怎么用LR线性回归进行预测(十)

简介: 【机器学习实战】10分钟学会Python怎么用LR线性回归进行预测(十)

[toc]

1 前言

还没看过前九节的同学可以回顾一下,经典的Logistic回归、Bayes、SVM-RFE、KNN、LDA、DT等机器学习必学算法:



注意这里的LR指的是Linear Regression,线性回归。而非逻辑回归Logistic Regression,虽然二者简称都是LR,但是后者我们还是俗称Logistic多点

1.1 LR的介绍

线性回归(Linear Regression)是一种用于建立自变量与连续因变量之间线性关系模型的统计学和机器学习方法。它是最简单、最常见的回归分析方法之一。

线性回归的目标是通过拟合最优的直线(一元线性回归)或超平面(多元线性回归)来描述自变量与因变量之间的关系。它假设自变量和因变量之间存在线性关系,即因变量可以被自变量的线性组合所解释。

一元线性回归模型的数学表达式为:Y = β0 + β1*X + ε,其中Y是因变量,X是自变量,β0和β1是回归系数,ε是误差项。这个模型描述了因变量Y与自变量X之间的直线关系,β0是截距,β1是斜率。

多元线性回归模型扩展了一元线性回归,可以处理多个自变量。数学表达式为:Y = β0 + β1X1 + β2X2 + ... + βn*Xn + ε,其中Y是因变量,X1, X2, ..., Xn是多个自变量,β0, β1, β2, ..., βn是回归系数,ε是误差项。

优点:

  • 简单和解释性: 线性回归是一种简单直观的方法,易于理解和解释。它建立了自变量与因变量之间的线性关系,通过回归系数可以解释自变量对因变量的影响程度和方向。
  • 计算效率高: 线性回归的计算效率通常很高,特别是在具有大量样本和低维特征空间的情况下。拟合线性回归模型的计算复杂度较低,可以处理大规模数据集。
  • 可解释性强: 线性回归可以提供变量之间的关系和影响程度的定量信息。回归系数可以量化自变量对因变量的贡献,帮助了解变量之间的关联关系。
  • 预测准确度高: 在数据符合线性关系的情况下,线性回归可以提供较高的预测准确度。当自变量与因变量之间存在线性关系时,线性回归可以得到较好的拟合效果。

缺点:

  • 线性假设限制: 线性回归假设自变量和因变量之间存在线性关系,这在实际问题中并不总是成立。如果数据的真实关系是非线性的,线性回归模型可能无法捕捉到复杂的模式和关联。
  • 对异常值敏感: 线性回归对异常值(在因变量或自变量中的极端值)比较敏感。异常值可能对模型的拟合产生显著影响,导致模型的不准确性。
  • 无法处理高维特征: 线性回归在处理高维特征空间的问题时面临挑战。当自变量的数量远大于样本数量时,线性回归可能会遇到过拟合问题。
  • 缺乏灵活性: 线性回归的灵活性较低,无法捕捉复杂的非线性关系。对于非线性问题,需要采用其他更复杂的模型来提高拟合能力。

1.2 LR的应用

这是最基础的机器学习算法,应用领域也十分广泛:

  1. 经济学和金融学:线性回归可以用于预测经济指标(如GDP、通货膨胀率等)与自变量(如消费、投资、出口等)之间的关系,进行经济预测和政策分析。在金融领域,线性回归可用于预测股票价格、利率等金融指标。
  2. 市场营销:线性回归可以用于市场营销研究,例如预测销售量与广告投入、价格等因素之间的关系,进行市场需求分析和营销策略制定。
  3. 医学和健康科学:线性回归可用于分析医学和健康领域的数据,例如预测疾病发展与风险因素之间的关系,评估治疗方法的效果,分析生物医学数据等。
  4. 社会科学:线性回归可用于社会科学领域的研究,如教育研究中预测学生成绩与学习时间、家庭背景等因素之间的关系,社会经济学中分析收入与教育水平、职业等的相关性。
  5. 环境科学:线性回归可用于分析环境数据,如预测气温与温室气体排放、大气污染物之间的关系,评估环境因素对生态系统的影响。
  6. 工程和物理科学:线性回归可用于建立物理模型和工程设计中的预测。例如,预测材料强度与温度、压力等因素之间的关系,分析电子元件的性能与设计参数的关联。

2. weather数据集实战演示

2.1 导入函数

import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
import seaborn as seabornInstance 
from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LinearRegression
from sklearn import metrics
%matplotlib inline

2.2 导入数据

weather数据集包括降水,降雪,温度,风速以及当天是否包括雷暴或其他恶劣天气条件。任务是预测以输入特征为最低温度的最高温度。
下载地址:https://github.com/Vaibhav-Mehta-19/linear-regression-weather-dataset

dataset = pd.read_csv('weather.csv')
print(dataset.shape)
dataset.describe()

2.3 数据整体可视化

# 最高温和最低温的二维散点图
dataset.plot(x='MinTemp', y='MaxTemp', style='o')  
plt.title('MinTemp vs MaxTemp')  
plt.xlabel('MinTemp')  
plt.ylabel('MaxTemp')  
plt.show()

# 检查平均最高温
plt.figure(figsize=(15,10))
plt.tight_layout()
seabornInstance.distplot(dataset['MaxTemp'])


根据结果看大概在15~20。

2.4 训练模型

X = dataset['MinTemp'].values.reshape(-1,1)
y = dataset['MaxTemp'].values.reshape(-1,1)
# 老惯例,训练集/测试集按7/3分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
regressor = LinearRegression()  
regressor.fit(X_train, y_train)

计算截距和斜率:

print(regressor.intercept_)
print(regressor.coef_)


意味着最小温度每变化一个单位,最高温度的变化约为0.82

2.5 预测模型

y_pred = regressor.predict(X_test)
df = pd.DataFrame({'Actual': y_test.flatten(), 'Predicted': y_pred.flatten()})
df

# 柱状图可视化结果
df1 = df.head(25)
df1.plot(kind='bar',figsize=(16,10))
plt.grid(which='major', linestyle='-', linewidth='0.5', color='green')
plt.grid(which='minor', linestyle=':', linewidth='0.5', color='black')
plt.show()


这里展示了25组数据,模型准确性有点不高,但是预测的百分比还是相对接近实际百分比

# 绘制组间比较线
plt.scatter(X_test, y_test,  color='gray')
plt.plot(X_test, y_pred, color='red', linewidth=2)
plt.show()

2.6 评估模型

  • 平均绝对误差(MAE),误差绝对值的平均值:

MAE = (1/n) * Σ|i - yi|

  • 均方误差(MSE),平方误差的平均值:

MSE = (1/n) * Σ(i - yi)^2

  • 均方根误差(RMSE),平方误差均值的平方根:

RMSE = √(MSE)

评估模型主要是以上三个指标,用Scikit-Learn库预构建的函数计算即可

print('Mean Absolute Error:', metrics.mean_absolute_error(y_test, y_pred))  
print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))  
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))


三个指标都是越小越好,虽然有点差强人意,不过均方根误差为4.42,平均绝对误差为3.76,可以认为该模型的预测误差相对较小

3.讨论

我认为线性回归是机器学习中最基础和常见的模型之一。线性回归模型通过建立特征与目标变量之间的线性关系来进行预测。它具有一些优点,如模型的简单性和可解释性,使其在许多应用领域得到广泛应用。

然而,线性回归模型也有一些限制。它假设特征与目标之间的关系是线性的,并且对异常值敏感,像2.3的散点图中可以看出数据的发散性较强。此外,它不能捕捉到非线性关系和特征之间的复杂交互作用。对于这些情况,可能需要考虑更复杂的模型或对特征进行转换。

目录
相关文章
|
1天前
|
机器学习/深度学习 自然语言处理 算法
机器学习算法原理与应用:深入探索与实战
【5月更文挑战第2天】本文深入探讨机器学习算法原理,包括监督学习(如线性回归、SVM、神经网络)、非监督学习(聚类、PCA)和强化学习。通过案例展示了机器学习在图像识别(CNN)、自然语言处理(RNN/LSTM)和推荐系统(协同过滤)的应用。随着技术发展,机器学习正广泛影响各领域,但也带来隐私和算法偏见问题,需关注解决。
|
2天前
|
机器学习/深度学习 边缘计算 TensorFlow
【Python机器学习专栏】Python机器学习工具与库的未来展望
【4月更文挑战第30天】本文探讨了Python在机器学习中的关键角色,重点介绍了Scikit-learn、TensorFlow和PyTorch等流行库。随着技术进步,未来Python机器学习工具将聚焦自动化、智能化、可解释性和可信赖性,并促进跨领域创新,结合云端与边缘计算,为各领域应用带来更高效、可靠的解决方案。
|
2天前
|
机器学习/深度学习 传感器 物联网
【Python机器学习专栏】机器学习在物联网(IoT)中的集成
【4月更文挑战第30天】本文探讨了机器学习在物联网(IoT)中的应用,包括数据收集预处理、实时分析决策和模型训练更新。机器学习被用于智能家居、工业自动化和健康监测等领域,例如预测居民行为以优化能源效率和设备维护。Python是支持物联网项目机器学习集成的重要工具,文中给出了一个使用`scikit-learn`预测温度的简单示例。尽管面临数据隐私、安全性和模型解释性等挑战,但物联网与机器学习的结合将持续推动各行业的创新和智能化。
|
2天前
|
机器学习/深度学习 数据采集 算法
【Python 机器学习专栏】机器学习在医疗诊断中的前沿应用
【4月更文挑战第30天】本文探讨了机器学习在医疗诊断中的应用,强调其在处理复杂疾病和大量数据时的重要性。神经网络、决策树和支持向量机等方法用于医学影像诊断、疾病预测和基因数据分析。Python作为常用工具,简化了模型构建和数据分析。然而,数据质量、模型解释性和伦理法律问题构成挑战,需通过数据验证、可解释性研究及建立规范来应对。未来,机器学习将更深入地影响医疗诊断,带来智能和精准的诊断工具,同时也需跨学科合作推动其健康发展。
|
2天前
|
机器学习/深度学习 分布式计算 物联网
【Python机器学习专栏】联邦学习:保护隐私的机器学习新趋势
【4月更文挑战第30天】联邦学习是保障数据隐私的分布式机器学习方法,允许设备在本地训练数据并仅共享模型,保护用户隐私。其优势包括数据隐私、分布式计算和模型泛化。应用于医疗、金融和物联网等领域,未来将发展更高效的数据隐私保护、提升可解释性和可靠性的,并与其他技术融合,为机器学习带来新机遇。
|
2天前
|
机器学习/深度学习 自然语言处理 搜索推荐
【Python机器学习专栏】迁移学习在机器学习中的应用
【4月更文挑战第30天】迁移学习是利用已有知识解决新问题的机器学习方法,尤其在数据稀缺或资源有限时展现优势。本文介绍了迁移学习的基本概念,包括源域和目标域,并探讨了其在图像识别、自然语言处理和推荐系统的应用。在Python中,可使用Keras或TensorFlow实现迁移学习,如示例所示,通过预训练的VGG16模型进行图像识别。迁移学习提高了学习效率和性能,随着技术发展,其应用前景广阔。
|
2天前
|
机器学习/深度学习 人工智能 算法
【Python 机器学习专栏】强化学习在游戏 AI 中的实践
【4月更文挑战第30天】强化学习在游戏AI中展现巨大潜力,通过与环境交互和奖励信号学习最优策略。适应性强,能自主探索,挖掘出惊人策略。应用包括策略、动作和竞速游戏,如AlphaGo。Python是实现强化学习的常用工具。尽管面临训练时间长和环境复杂性等挑战,但未来强化学习将与其他技术融合,推动游戏AI发展,创造更智能的游戏体验。
|
2天前
|
机器学习/深度学习 传感器 自动驾驶
【Python机器学习专栏】深度学习在自动驾驶中的应用
【4月更文挑战第30天】本文探讨了深度学习在自动驾驶汽车中的应用及其对技术发展的推动。深度学习通过模拟神经网络处理数据,用于环境感知、决策规划和控制执行。在环境感知中,深度学习识别图像和雷达数据;在决策规划上,学习人类驾驶行为;在控制执行上,实现精确的车辆控制。尽管面临数据需求、可解释性和实时性挑战,但通过数据增强、规则集成和硬件加速等方法,深度学习将持续优化自动驾驶性能,并在安全性和可解释性上取得进步。
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【Python机器学习专栏】机器学习前沿与趋势
【4月更文挑战第30天】机器学习快速发展,深度学习、强化学习、联邦学习和自监督学习是前沿技术。未来趋势包括提升模型可解释性、跨模态学习、AI伦理法规及人机协作。Python作为常用工具,简化了机器学习模型的构建。随着技术进步,新应用将持续涌现,关注伦理法律问题和持续学习至关重要。
|
2天前
|
机器学习/深度学习 自然语言处理 PyTorch
【Python 机器学习专栏】自然语言处理中的深度学习应用
【4月更文挑战第30天】本文探讨了深度学习在自然语言处理(NLP)中的应用,包括文本分类、情感分析和机器翻译等任务。深度学习的优势在于自动特征学习、强大的表达能力和处理大规模数据的能力。常见模型如RNN、LSTM、GRU、CNN和注意力机制在NLP中发挥作用。Python的TensorFlow、PyTorch、NLTK和SpaCy等工具支持NLP研究。然而,数据稀缺、模型解释性和计算资源需求高等挑战仍待解决。随着技术进步,未来深度学习将进一步推动NLP发展,实现更智能的语言交互。