Python3入门机器学习 - 多项式回归与学习曲线

简介: 非线性方程的拟合,例如 y=x^2+0.5x+1 , 就是将x^2看作X的一个特征值#准备数据import numpy as npimport matplotlib.

非线性方程的拟合,例如 y=x^2+0.5x+1 , 就是将x^2看作X的一个特征值

#准备数据
import numpy as np
import matplotlib.pyplot as plt

x = np.random.uniform(-3,3,size=100)
X = x.reshape(-1,1)

y = 0.5*x**2 + x + 2 +np.random.normal(0,1,size=100)
X2 = np.hstack([X,X**2])  #将X和X^2共同作为特征值构成心得矩阵

from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
lin_reg.fit(X2,y)

plt.scatter(x,y)
plt.plot(np.sort(x),lin_reg.predict(X2)[np.argsort(x)],color='r')

img_9d2250eddb0eb97f8c267a20954b9c62.png


scikit-learn中的多项式回归

from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=3)
poly.fit(X)
X2 = poly.transform(X)
# X2.shape = (100,4)
img_4f34df20b3fdd541a1bc53fb7dae007c.png
将X拓展为了具有X,X^2,X^3的矩阵

当数据具有多个特征时,即X不止有一列时

img_6253dcfffccf24fffa2e1e95e1a17f48.png


多项式回归应用于PipeLine


使用PipeLine管道一次性进行多项式回归、数据归一化、线性回归预测

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

poly_reg = Pipeline([
    ("poly",PolynomialFeatures(degree=2)),
    ("std_scaler",StandardScaler()),
    ("lin_reg",LinearRegression())
])

poly_reg.fit(X,y)

y_predict = poly_reg.predict(X)

plt.scatter(x,y)
plt.plot(np.sort(x),y_predict[np.argsort(x)],color='r')
plt.show()
img_28dd7997b269fdf876f7c3830a1922a1.png


学习曲线


由学习曲线看欠拟合和过拟合,横轴代表训练用数据数量,纵轴为均方根误差

def plot_learning_curve(algo,X_train,X_test,y_train,y_test):
    
    train_score = []
    test_score = []
    
    for i in range(1,len(X_train)+1):
        algo.fit(X_train[:i],y_train[:i])
        
        y_train_predict = algo.predict(X_train[:i])
        train_score.append(sqrt(mean_squared_error(y_train_predict[:i],y_train[:i])))
        
        y_test_predict = algo.predict(X_test)
        test_score.append(sqrt(mean_squared_error(y_test_predict,y_test)))
        
    plt.plot([i for i in range(1,len(X_train)+1)],train_score,label="train")
    plt.plot([i for i in range(1,len(X_train)+1)],test_score,label="test")
    plt.legend()
    plt.axis([0,len(X_train)+1,0,4])
    plt.show()
plot_learning_curve(LinearRegression(),X_train,X_test,y_train,y_test)
img_12e60bb1327f5ab02fca629daec3dca1.png
欠拟合,误差较大
poly2_reg = PolynomialRegression(degree=2)
plot_learning_curve(poly2_reg,X_train,X_test,y_train,y_test)
img_e45e78636fad3d42bc243924a60a3c84.png
最佳
poly20_reg = PolynomialRegression(degree=20)
plot_learning_curve(poly20_reg,X_train,X_test,y_train,y_test)
img_fcd1853ed6ea29401a96f3da5b83a55c.png
过拟合,泛化能力较差,较好拟合训练集,难以拟合测试集
目录
相关文章
|
22小时前
|
存储 算法 Python
【10月更文挑战第16天】「Mac上学Python 27」小学奥数篇13 - 动态规划入门
本篇将通过 Python 和 Cangjie 双语介绍动态规划的基本概念,并解决一个经典问题:斐波那契数列。学生将学习如何使用动态规划优化递归计算,并掌握编程中的重要算法思想。
24 3
|
3天前
|
设计模式 开发者 Python
Python编程中的设计模式:从入门到精通####
【10月更文挑战第14天】 本文旨在为Python开发者提供一个关于设计模式的全面指南,通过深入浅出的方式解析常见的设计模式,帮助读者在实际项目中灵活运用这些模式以提升代码质量和可维护性。文章首先概述了设计模式的基本概念和重要性,接着逐一介绍了几种常用的设计模式,并通过具体的Python代码示例展示了它们的实际应用。无论您是Python初学者还是经验丰富的开发者,都能从本文中获得有价值的见解和实用的技巧。 ####
|
5天前
|
机器学习/深度学习 人工智能 架构师
Python学习圣经:从入门到精通Python,打好 LLM大模型的基础
Python学习圣经:从0到1精通Python,打好AI基础
|
5天前
|
数据可视化 定位技术 Python
Python数据可视化--Matplotlib--入门
Python数据可视化--Matplotlib--入门
12 0
|
5天前
|
数据挖掘 索引 Python
Python数据分析篇--NumPy--入门
Python数据分析篇--NumPy--入门
15 0
|
5天前
|
IDE 开发工具 索引
Python基础知识---入门
Python基础知识---入门
5 0
|
5月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
227 14
|
5月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
102 1
|
5月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
5月前
|
机器学习/深度学习 数据采集 算法
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
279 0