线性回归 梯度下降原理与基于Python的底层代码实现

简介: 梯度下降是一种常用的优化算法,可以用来求解许包括线性回归在内的许多机器学习中的问题。前面讲解了直接使用公式求解θ \thetaθ (最小二乘法的求解推导与基于Python的底层代码实现),但是对于复杂的函数来说,可能较难求出对应的公式,因此需要使用梯度下降。

1 梯度下降算法原理


梯度下降是一种常用的优化算法,可以用来求解许包括线性回归在内的许多机器学习中的问题。前面讲解了直接使用公式求解θ \thetaθ (最小二乘法的求解推导与基于Python的底层代码实现),但是对于复杂的函数来说,可能较难求出对应的公式,因此需要使用梯度下降。


假设我们要求解的线性回归公式是:

image.png


image.png


其中 y  是因变量,β i \beta_iβ i 是回归系数,x i x_ix i  是自变量,ϵ \epsilonϵ 是误差项我们的目标是找到一组回归系数 β i \beta_iβ i使得模型能够最小化误差。

使用梯度下降算法求解线性回归可以分为以下步骤:


随机初始化回归系数 β i \beta_iβ i


计算模型的预测值 y ^ \hat{y}


image.png

计算误差(或损失函数):

image.png


其中 m  是样本数量,y i y_iy i  是第 i ii 个样本的真实值,y i ^ \hat{y_i}  是对应的预测值。


计算误差对于每个回归系数的偏导数:


image.png

其中 x i j x_{ij}x ij  是第 i ii 个样本的第 j jj 个特征值。

使用梯度下降更新回归系数


image.png

其中 α \alphaα 是学习率,用来控制更新的步长。


重复步骤 2-5多次,直到误差达到某个预定的阈值或者达到预设的迭代次数。

梯度下降算法会不断迭代,直到误差最小化。通过不断更新回归系数,模型逐渐拟合数据,从而得到最终的结果。


47c1ea6b76774584b79da2d75f939ef8.png





(非常经典的图,已经要盘包浆了)


2 一元函数梯度下降示例代码


导入此次代码所需的包,设置绘图时正常处理中文字符。

import numpy as np  
import matplotlib as mpl  
import matplotlib.pyplot as plt  
mpl.rcParams['font.sans-serif'] = [u'SimHei']  
mpl.rcParams['axes.unicode_minus'] = False


定义本次要模拟的函数。为了方便起见,这里直接对函数的导数进行了定义。也可根据需要调包求梯度或者自己写一个求偏导的类。

# 一维原始图像  
def f1(x):  
    return 0.5 * (x - 2) ** 2  
# 导函数  
def h1(x):  
    return 0.5 * 2 * (x - 2)


初始化梯度下降中的参数

GD_X = []  
GD_Y = []  
x = 4  
alpha = 0.1  
f_change = 1  
f_current = f1(x)  
GD_X.append(x)  
GD_Y.append(f_current)  
iter_num = 0


此处GD_X与GD_Y两个列表分别用于存储梯度下降的每一步取值,用于后面的画图。x是梯度下降的起点,可设置为随机数。f_change用于存储执行每次循环之后,y的变化值。此处赋值的意义仅在于确保能进入下面的循环而不会报错。iter_num用于记录循环执行的次数。alpha学习率,取值过大容易难以收敛,取值过小容易增加计算量。

4. 梯度下降步骤的循环


while f_change > 1e-10 and iter_num < 1000:
    iter_num += 1  
    x = x - alpha * h1(x)  
    tmp = f1(x)  
    f_change = np.abs(f_current - tmp)  
    f_current  = tmp  
    GD_X.append(x)  
    GD_Y.append(f_current)


循环结束的标准为:两次循环的y值变化(即f_change)小于1e-10或循环次数大于100。

每次循环,x的变化量都是学习率乘以这一点的梯度。之后计算变化后x对应的y和变化前x对应的外,获得两次y的差值。并将每次运行的结果使用append保存到列表之中。

5. 结果输出


print(u"最终结果为:(%.5f, %.5f)" % (x, f_current))  
print(u"迭代次数:%d" % iter_num)
1

27326fdd998cba42434327178fd59ad62.png


大概100次后,我们找到了损失函数最小值所对应的x。

6. 结果绘图


X = np.arange(-2, 6, 0.05)  
Y = np.array(list(map(lambda t: f1(t), X)))  
plt.figure(facecolor='w')  
plt.plot(X, Y, 'r-', linewidth=2)  
plt.plot(GD_X, GD_Y, 'bo--', linewidth=2)  
plt.title(f'函数$y=0.5 * (θ - 2)^2$ \n学习率:{alpha:.3f}  最终解:x={x:.3f} y={f_current:.3f}  迭代次数:{iter_num}')  
plt.show()


可以自行尝试不同的起点,不同的学习速率对结果的影响。


8850df1bc4ab4b3ea2b15a076df7b25b.png



ba4b2e8a01d94feb86070f62e405a628.png


3 多元函数梯度下降示例代码


当变量数为2时,梯度下降可以使用3维绘图展示。当变量书超过2时,损失函数变为超平面难以展示,因此此处以二元函数为例。


定义本次要模拟的函数。

# 二元函数定义  
def f2(x, y):  
    return (x - 2) ** 2 + 2* (y + 1) ** 2  
# 偏导数  
def hx2(x, y):  
    return 2*(x - 2)  
def hy2(x, y):  
    return 4*(y + 1)
1


与一元函数相同,我们对函数的偏导数直接定义,减少非本博客相关的代码。

2. 初始化梯度下降中的参数


GD_X1 = []  
GD_X2 = []  
GD_Y = []  
x1 = 4  
x2 = 4  
alpha = 0.01  
f_change = 1  
f_current = f2(x1, x2)  
GD_X1.append(x1)  
GD_X2.append(x2)  
GD_Y.append(f_current)  
iter_num = 0


这里与一元函数的参数基本相同,只是多了一个用于存储额外维度的listGD_X2。

3. 梯度下降步骤的循环

while f_change > 1e-10 and iter_num < 1000:  
    iter_num += 1  
    prex1 = x1  
    prex2 = x2  
    x1 = x1 - alpha * hx2(prex1, prex2)  
    x2 = x2 - alpha * hy2(prex1, prex2)  
    tmp = f2(x1, x2)  
    f_change = np.abs(f_current - tmp)  
    f_current = tmp  
    GD_X1.append(x1)  
    GD_X2.append(x2)  
    GD_Y.append(f_current)  
print(u"最终结果为:(%.3f, %.3f, %.3f)" % (x1, x2, f_current))  
print(u"迭代次数:%d" % iter_num)


此处的逻辑与一元函数基本相同。对于每一个x,都使用对应的偏导数乘以学习速率,从而获得新的x值。如果是二元以上的多元函数同理。

运行结果为:

ad10322e44490b59e56ed99abca86602.png


绘图

X1 = np.arange(-5, 5, 0.2)  
X2 = np.arange(-5, 5, 0.2)  
X1, X2 = np.meshgrid(X1, X2)  
Y = np.array(list(map(lambda t: f2(t[0], t[1]), zip(X1.flatten(), X2.flatten()))))  
Y.shape = X1.shape
fig = plt.figure(facecolor='w')  
ax = Axes3D(fig)  
ax.plot_surface(X1, X2, Y, rstride=1, cstride=1, cmap=plt.cm.jet, alpha=0.8)  
ax.plot(GD_X1, GD_X2, GD_Y, 'ko-')  
ax.set_xlabel('x')  
ax.set_ylabel('y')  
ax.set_zlabel('z')  
plt.show()


对于三维数据,我们使用meshgrid构建了绘图网格,用于绘制函数图像。在绘制完函数图像的基础上,绘制梯度下降每一步的图像。绘制折线图时,ko-代表黑色、圆点、虚线。

(3D图像建议设置为单独显示,方便拖动视角查看)

b1b853092234409bbb36329e3b8dd66e.png



实际上,梯度下降的种类也有很多,比如随机梯度下降、批量梯度下降,小批量梯度下降。这些内容将会在下一篇博客中进行讲解。

相关文章
|
6月前
|
机器学习/深度学习 监控 数据挖掘
Python 高效清理 Excel 空白行列:从原理到实战
本文介绍如何使用Python的openpyxl库自动清理Excel中的空白行列。通过代码实现高效识别并删除无数据的行与列,解决文件臃肿、读取错误等问题,提升数据处理效率与准确性,适用于各类批量Excel清理任务。
629 0
|
6月前
|
数据可视化 关系型数据库 MySQL
【可视化大屏】全流程讲解用python的pyecharts库实现拖拽可视化大屏的背后原理,简单粗暴!
本文详解基于Python的电影TOP250数据可视化大屏开发全流程,涵盖爬虫、数据存储、分析及可视化。使用requests+BeautifulSoup爬取数据,pandas存入MySQL,pyecharts实现柱状图、饼图、词云图、散点图等多种图表,并通过Page组件拖拽布局组合成大屏,支持多种主题切换,附完整源码与视频讲解。
680 4
【可视化大屏】全流程讲解用python的pyecharts库实现拖拽可视化大屏的背后原理,简单粗暴!
|
7月前
|
机器学习/深度学习 文字识别 Java
Python实现PDF图片OCR识别:从原理到实战的全流程解析
本文详解2025年Python实现扫描PDF文本提取的四大OCR方案(Tesseract、EasyOCR、PaddleOCR、OCRmyPDF),涵盖环境配置、图像预处理、核心识别与性能优化,结合财务票据、古籍数字化等实战场景,助力高效构建自动化文档处理系统。
1964 0
机器学习/深度学习 算法 自动驾驶
1287 0
|
7月前
|
数据可视化 Linux iOS开发
Python脚本转EXE文件实战指南:从原理到操作全解析
本教程详解如何将Python脚本打包为EXE文件,涵盖PyInstaller、auto-py-to-exe和cx_Freeze三种工具,包含实战案例与常见问题解决方案,助你轻松发布独立运行的Python程序。
1831 2
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
259 2
|
数据采集 机器学习/深度学习 数据处理
Python编程之魔法:从基础到进阶的代码实践
在编程的世界里,Python以其简洁和易读性而闻名。本文将通过一系列精选的代码示例,引导你从Python的基础语法出发,逐步探索更深层次的应用,包括数据处理、网络爬虫、自动化脚本以及机器学习模型的构建。每个例子都将是一次新的发现,带你领略Python编程的魅力。无论你是初学者还是希望提升技能的开发者,这些示例都将是你的宝贵财富。让我们开始这段Python编程之旅,一起揭开它的魔法面纱。
|
大数据 Python
Python 高级编程:深入探索高级代码实践
本文深入探讨了Python的四大高级特性:装饰器、生成器、上下文管理器及并发与并行编程。通过装饰器,我们能够在不改动原函数的基础上增添功能;生成器允许按需生成值,优化处理大数据;上下文管理器确保资源被妥善管理和释放;多线程等技术则助力高效完成并发任务。本文通过具体代码实例详细解析这些特性的应用方法,帮助读者提升Python编程水平。
704 5
|
人工智能 数据挖掘 数据处理
揭秘Python编程之美:从基础到进阶的代码实践之旅
【9月更文挑战第14天】本文将带领读者深入探索Python编程语言的魅力所在。通过简明扼要的示例,我们将揭示Python如何简化复杂问题,提升编程效率。无论你是初学者还是有一定经验的开发者,这篇文章都将为你打开一扇通往高效编码世界的大门。让我们开始这段充满智慧和乐趣的Python编程之旅吧!
|
机器学习/深度学习 人工智能 算法
探索人工智能:机器学习的基本原理与Python代码实践
【9月更文挑战第6天】本文深入探讨了人工智能领域中的机器学习技术,旨在通过简明的语言和实际的编码示例,为初学者提供一条清晰的学习路径。文章不仅阐述了机器学习的基本概念、主要算法及其应用场景,还通过Python语言展示了如何实现一个简单的线性回归模型。此外,本文还讨论了机器学习面临的挑战和未来发展趋势,以期激发读者对这一前沿技术的兴趣和思考。

推荐镜像

更多