sklearn调包侠之学习曲线和Pipeline

简介: 今天不单独讲解某个机器学习算法,而是讲解机器学习中常用的工具或者说是方法。一是绘制学习曲线,看模型的好坏程度(过拟合还是欠拟合);而是减少代码量,利用pipeline构造算法流水线。
img_f5c0d09d8588138ba4eda9fb8257d999.png

今天不单独讲解某个机器学习算法,而是讲解机器学习中常用的工具或者说是方法。一是绘制学习曲线,看模型的好坏程度(过拟合还是欠拟合);而是减少代码量,利用pipeline构造算法流水线。

学习曲线

训练模型通常有三种情况:欠拟合、拟合较好和过拟合。欠拟合一般比较好判别,模型准确度不高都可以说是模型欠拟合。但判断模型是否过拟合,单独看准确度是不可信的,模型越复杂,其准确度越高,也很容易过拟合,这时就需要绘制学习曲线观察模型的拟合情况。

img_b78c7f8a4f842ec02c118ac2bde9d8cc.png
绘制流程
  • 把数据集划分为多等分(5份或其它)
  • 把数据集划分为训练集和测试集
  • 以训练集准确性和验证集准确性做为纵坐标,训练集个数作为横坐标。
  • 每次增加1等分
绘制函数

在sklearn中,可以通过sklearn.model_selection中的learning_curve来画出学习曲线。这里使用之前KNN算法,通过图可以看出,KNN算法是处于欠拟合状态。

from sklearn.neighbors import KNeighborsClassifier,RadiusNeighborsClassifier

model1 = KNeighborsClassifier(n_neighbors=2)
model1.fit(X_train, Y_train)
score1 = model1.score(X_test, Y_test)

from sklearn.model_selection import learning_curve

train_size, train_score, test_score = learning_curve(model1, X, Y, cv=10, train_sizes=np.linspace(0.1, 1.0, 5))

train_scores_mean = np.mean(train_score, axis=1)
train_scores_std = np.std(train_score, axis=1)
test_scores_mean = np.mean(test_score, axis=1)
test_scores_std = np.std(test_score, axis=1)

plt.fill_between(train_size, train_scores_mean - train_scores_std,
                     train_scores_mean + train_scores_std, alpha=0.1,
                     color="r")
plt.fill_between(train_size, test_scores_mean - test_scores_std,
                     test_scores_mean + test_scores_std, alpha=0.1, color="g")
plt.plot(train_size, train_scores_mean, 'o--', color="r",
             label="Training score")
plt.plot(train_size, test_scores_mean, 'o-', color="g",
             label="Cross-validation score")

plt.grid()
plt.title('Learn Curve for KNN')
plt.legend(loc="best")
img_bb4cd2590bee4a1e24df5032c20156b5.png

Pipeline

在之前的线性回归案例中,我们可以加入多项式项来增加模型的精度,但每次都需要先将数据通过PolynomialFeatures转换为新数据,然后再拟合模型,模型预测和评估也需要将测试集进行多项式转换。那能不能将数据处理和模型拟合结合在一起,减少代码量了?答案是可以,通过Pipeline(管道)技术就行。

Pipeline技术

Pipeline 的中间过程由sklearn相适配的转换器(transformer)构成,最后一步是一个estimator(模型)。中间的节点都可以执行fit和transform方法,这样预处理都可以封装进去;最后节点只需要实现fit方法,通常就是我们的模型。流程如下图所示。

img_8ed1339d0bd102fda1158998a5ddb434.png
Pipeline代码

以线性回归为例:

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import Normalizer
norm = Normalizer()
poly = PolynomialFeatures(2, include_bias=False)
lr = LinearRegression()
pipeline = Pipeline([('norm', norm),('poly',poly),('lr', lr)])
pipeline.fit(X_train, y_train)
img_0cdf7248b986119362895cf2583cf9e8.png
相关文章
|
5G 网络架构 索引
安装一个开源虚拟路由器VPP-20.09
安装一个开源虚拟路由器VPP-20.09
|
机器学习/深度学习 数据采集 算法
论题:基于深度学习的图像识别系统
论题:基于深度学习的图像识别系统
509 0
|
传感器
差动放大器的介绍
一、差动放大器的原理 差动放大器是通过两个输入信号的差值来放大信号的一种电路。它由两个输入端口和一个输出端口组成,输入端口分别连接两个输入信号,输出端口连接放大后的信号。差动放大器的原理基于差动放大模式,即将两个输入信号分别连接到两个晶体管的基极端口,通过晶体管的放大作用将差值放大后输出。 差动放大器的工作原理是利用两个晶体管的共射放大作用,通过对输入信号进行差分放大,将差值放大后输出。其中一个晶体管的基极连接到输入信号,另一个晶体管的基极连接到输入信号的反相信号。通过对两个晶体管的控制,可以实现对输入信号的放大和输出。 二、差动放大器的工作方式 差动放大器的工作方式主要包括共模模式和差模
714 0
|
缓存 Windows
Windows程序设计——LoadImage参数及其用法
Windows程序设计——LoadImage参数及其用法
701 0
|
存储 Kubernetes 持续交付
Docker 核心概念深度解析:探索容器、镜像和仓库在Docker生态系统中的重要作用和 应用
Docker 核心概念深度解析:探索容器、镜像和仓库在Docker生态系统中的重要作用和 应用
1238 0
|
机器学习/深度学习 人工智能 自然语言处理
探索深度学习在自然语言处理中的最新进展
【10月更文挑战第10天】探索深度学习在自然语言处理中的最新进展
296 0
|
10月前
|
人工智能 自然语言处理 供应链
《AI引领传统企业:数字化转型与商业创新的破局之路》
在当今时代,AI为传统企业带来数字化转型和商业创新的机遇。通过数据分析、精准决策、业务流程优化、产品服务创新、营销渠道拓展及人才管理,AI助力企业提升效率、降低成本、增强竞争力。企业需转变思维、加大技术投入、培养AI人才,建立适应转型的企业文化,以充分挖掘AI潜力,实现可持续发展。
595 15
|
9月前
|
开发框架 运维 安全
无影云电脑,畅享极速渲染新体验
本文介绍了渲染行业面临的挑战及无影云电脑带来的革新。传统渲染依赖高性能本地设备,面临重投入、性能固定、灵活性差和数据安全问题。无影云电脑通过云端算力,实现了灵活扩展、任意终端接入及按需付费,大幅提升了渲染效率与体验,尤其在游戏设计、工业制造等领域表现突出。其核心技术确保了色彩还原、流畅操作及外设兼容性,满足专业设计师的需求。未来,无影将助力渲染行业实现更高效、安全的云端工作模式。
|
Rust 安全 Java
探索Rust在系统编程中的崛起
Rust 是一种由 Mozilla 研究院开发的现代系统编程语言,以其在安全性、并发性和内存管理方面的优势,逐渐成为开发者的新宠。Rust 提供内存安全保证且性能媲美 C/C++,支持跨平台开发,并具备强大的并发编程工具。本文将介绍 Rust 的核心优势、工作原理及实施方法,探讨其在系统编程中的崛起及其面临的挑战。尽管 Rust 学习曲线较陡,但其广泛的应用场景和不断壮大的社区使其成为构建高性能、安全应用的理想选择。
|
机器学习/深度学习 人工智能 搜索推荐
探究人工智能在医疗健康中的应用与挑战
本文深入探讨了人工智能(AI)在医疗健康领域中的应用及其所面临的挑战。随着科技的不断进步,AI技术在医疗领域的应用日益广泛,从疾病诊断、治疗方案制定到患者护理等方面都展现出巨大的潜力。然而,尽管AI在医疗健康领域取得了显著成果,但也面临着数据隐私、算法偏见和伦理道德等方面的挑战。本文将详细介绍这些应用和挑战,并探讨可能的解决方案,以期为读者提供对AI在医疗健康领域发展的全面理解。