学习笔记: 机器学习经典算法-多项式回归

简介: 机器学习经典算法-个人笔记和学习心得分享

多元线性回归分析 基于数据间存在线性关系的前提假设进行数据的建模和回归分析,但在实际应用场景中很少有能够满足具有强线性关系特点的数据集,更多地是表现出 非线性关系 的数据。多项式回归 方法基于线性回归的处理逻辑提出,主要应用于非线性关系数据的 回归预测任务。

1、算法基本过程

在线性回归中模型中,类如平面直线模型 $f(x) = ax + b$,其中就有 $x$ 为样本特征,$a,b$ 为模型参数。而对于一组满足非线性关系的数据,类如样本输出标记与样本特征满足二次曲线,使用线性回归生成的拟合模型就不如二次曲线的拟合效果好。同样是一个特征的样本,那么这个样本特征 $x$ 与样本输出标记 $y$ 的曲线关系可描述为 :

$y = ax^2 + bx +c$

1.2 多项式与线性关系式的转换

从样本的 一个特征 角度来理解,二次方程 $y = ax^2_{1} + bx_{1} +c $ 描述了样本的特征 $x_{1}$ 与样本输出标记 $y$ 之间的非线性关系。但如果将方程中的 $x^2_{1}$ 视作样本的另一个特征来看( 升维处理 ),为了方便识别换元成 $x_{2} = x_1$,一元二次方程此时变成了多元线性方程 $y = ax_2 + bx_{1} + c$ ,最后应用线性回归的方法求解多项式的参数,即 多项式回归 的基本过程。 多项式回归 的关键在于为原始数据样本添加新特征(升维),这些新特征来自原始特征的多项式组合,来转换成线性关系式,从而求解多项式参数。

### Prepare datasets
import numpy as np
x = np.random.uniform(-3,3,size = 100).reshape((-1,1))
y = .5 * x ** 2 + 1*x + 2 + np.random.normal(size =(100,1))

### 通过添加特征 x^2 的方式 转换多项式为 多元线性关系式并基于线性回归的方法进行参数求解
X = np.hstack([x**2,x])
from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
lin_reg.fit(X,y)
lin_reg.coef_

2、scikit-learn 框架下的多项式回归处理流程

  • Step.1 基于原始特征构造新特征
### Raw datasets
import numpy as np
x = np.random.uniform(-3,3,size = 100).reshape((-1,1))
y = .5 * x ** 2 + 1*x + 2 + np.random.normal(size =(100,1))
### PolynomialFeatures 特征构造
from sklearn.preprocessing import PolynomialFeatures 
poly = PolynomialFeatures(degree=2) ### 构造最高二次幂的新特征
poly.fit(x)
X = poly.transform(x) ### 返回添加了构造特征的特征矩阵,分别是 (x^0,x^1,X^2构造特征列

原始特征数目与构造特征的数目关系
(1) 原始样本仅包含一个特征$x_1$,构造最高2次幂的特征将返回$(x_1^{0},x_1^{1},x_1^{2})$的结果。
(2) 原始样本包含两个以上的特征,如包含两个特征$x_1,x_2$,则构造最高2次幂的特征将返回$(1,x_1^{1},x_2^{1},x_1^{2}, x_1x_2 ,x_2^{2})$ 6 个特征构造结果。

import numpy as np
x = np.arange(1,11).reshape(5,2) ### Raw Features

from sklearn.preprocessing import PolynomialFeatures ### 特征构造
poly = PolynomialFeatures(degree=2) ### 构造二次幂样本特征
poly.fit(x)
poly.transform(x)   ### PolynomialFeatures


(3) 基于 2个初始特征构造最高 3 次幂的新特征, 将产生十种组合特征:
$$1,x_1,x_2$$
$$x_1^{2},x_2^{2},x_1x_2$$
$$x_1^{3},x_2^{3},x_1^{2}x_2,x_1x_2^{2}$$
在构造特征的时候,阶数越高,模型的参数发生指数级增长,意味模型复杂度越高

  • Step.2 基于添加了构造特征的数据进行线性回归
    from sklearn.linear_model import LinearRegression
    lin_reg = LinearRegression()
    lin_reg.fit(X,y)
    lin_reg.coef_
    

2.2 使用scikit-learn 的Pipline 流程处理多步骤的分析任务

### Prepare datasets
import numpy as np
x = np.random.uniform(-3,3,size = 100).reshape((-1,1))
y = .5 * x ** 2 + 1*x + 2 + np.random.normal(size =(100,1))

### make pipline
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
poly_reg = Pipeline([
    ("poly",PolynomialFeatures(degree=2)), ### 格式为 管道名,当前管道需执行的函数
    ("std_scaler",StandardScaler()),
    ("lin_reg",LinearRegression())
])

### use pipline to predict
poly_reg.fit(x,y)
poly_reg.predict(x)
目录
相关文章
|
4月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
9月前
|
机器学习/深度学习 数据采集 人工智能
20分钟掌握机器学习算法指南
在短短20分钟内,从零开始理解主流机器学习算法的工作原理,掌握算法选择策略,并建立对神经网络的直观认识。本文用通俗易懂的语言和生动的比喻,帮助你告别算法选择的困惑,轻松踏入AI的大门。
631 8
|
10月前
|
机器学习/深度学习 存储 Kubernetes
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
407 6
|
机器学习/深度学习 算法 数据安全/隐私保护
基于机器学习的人脸识别算法matlab仿真,对比GRNN,PNN,DNN以及BP四种网络
本项目展示了人脸识别算法的运行效果(无水印),基于MATLAB2022A开发。核心程序包含详细中文注释及操作视频。理论部分介绍了广义回归神经网络(GRNN)、概率神经网络(PNN)、深度神经网络(DNN)和反向传播(BP)神经网络在人脸识别中的应用,涵盖各算法的结构特点与性能比较。
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
2325 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
机器学习/深度学习 算法 网络安全
CCS 2024:如何严格衡量机器学习算法的隐私泄露? ETH有了新发现
在2024年CCS会议上,苏黎世联邦理工学院的研究人员提出,当前对机器学习隐私保护措施的评估可能存在严重误导。研究通过LiRA攻击评估了五种经验性隐私保护措施(HAMP、RelaxLoss、SELENA、DFKD和SSL),发现现有方法忽视最脆弱数据点、使用较弱攻击且未与实际差分隐私基线比较。结果表明这些措施在更强攻击下表现不佳,而强大的差分隐私基线则提供了更好的隐私-效用权衡。
323 14
|
12月前
|
人工智能 编解码 算法
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
409 0
|
机器学习/深度学习 人工智能 自然语言处理
解锁机器学习的新维度:元学习的算法与应用探秘
元学习作为一个重要的研究领域,正逐渐在多个应用领域展现其潜力。通过理解和应用元学习的基本算法,研究者可以更好地解决在样本不足或任务快速变化的情况下的学习问题。随着研究的深入,元学习有望在人工智能的未来发展中发挥更大的作用。
|
算法
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
460 2