Python机器学习(sklearn)——分类模型评估与调参总结(上)

简介: Python机器学习(sklearn)——分类模型评估与调参总结

1.如果只划分测试集和训练集 经验是75%作为训练集
sklearn中的train_test_split()默认这样划分
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split()

2.通常使用sklearn中的score方法计算结果的精度(正确预测比例)

3.KNN算法有两个重要参数:邻居个数和数据点之间距离的度量方法
在实践中,选择较小的邻居个数(例如3或5个)效果较好,sklearn中默认使用欧氏距离
构建KNN模型速度很快,若训练集很大(特征数多或样本数多),预测速度可能较慢
对于稀疏数据集(大多数特征值为0),KNN效果很不好

4.普通最小二乘法,即要求预测值和真实值均方误差最小
均方误差为预测值和真实值只差的平方和除以样本数

5.训练集和测试集之间的分数差异是过拟合的明显标志
例如,训练集0.95 测试集0.61

6.线性回归防止过拟合可以采用岭回归(L2正则化)
from sklearn,linear_model import Ridge
ridge = Ridge().fit(X_train,y_train)
线性回归中的score为R^2
岭回归的结果,训练集分数可能低于线性回归,但测试集分数一般高于线性回归
默认岭回归的alpha = 1.0
岭回归惩罚了系数的L2范数或w的欧式长度
增大alpha会使得各个系数wi更加趋向0,从而提高泛化性能
可以比较alpha为10 和 0.1的scores
当岭回归alpha = 0时,即线性回归

7.学习曲线:回归问题中,横轴为训练集大小,纵轴为score(R^2),绘制训练集和测试集曲线

8.如果有足够多的数据,正则化就不太重要了

9.线性回归防止过拟合可以采用Lasso回归(L1正则化)
因为Lasso会使得部分特征的系数(w)为0,所以相当于做特征筛选
只呈现重要的特征
from sklearn,linear_model import Lasso
ridge = Lasso().fit(X_train,y_train)
默认的alpha = 1
可能会欠拟合(训练集和测试集的score都不高)
我们此时应该减小alpha,增大max_iter(运行迭代的最大次数)
from sklearn,linear_model import Lasso
ridge = Lasso(alpha = 0.1,max_iter = 100000).fit(X_train,y_train)
如果alpha太小,则可能过拟合,即与线性回归效果相似

10.Lasso回归和岭回归一般会首选后者
如果特征很多,认为只有几个是重要的,则选择Lasso
如果为了模型的可解释性,选择Lasso(因为类似特征选择)

11.sklearn中逻辑回归和线性支持向量机都默认使用L2正则化
若换为L1正则化:
LogisticRegression(penalty = "l1").fit(X_train,y_train)
使用参数C表示正则化强度,C越小,正则化越强。
默认C=1
LogisticRegression(C=100).fit(X_train,y_train)
有时训练集测试集分数都很高,但是分数接近,可能是欠拟合
此时增大C,使正则化减弱看看结果分数

12.线性模型训练速度非常快,预测速度也很快,适合在大数据集上使用,也适合稀疏数据

13.朴素贝叶斯分类器速度更快(相比于线性分类器逻辑斯特回归和线性支持向量机)
但是其泛化能力比线性分类器差

14.sklearn中提供三种朴素贝叶斯分类器
GaussianNB课用于任意连续数据
BernoulliNB假定输入数据为二分类数据
MultinomialNB假定输入的数据为计数数据(即每个特征代表某个对象的整数计数,比如一个单词在句中出现的次数)
后两个主要用于文本分类

15.决策树也可用于回归任务,预测时基于每个节点的测试对树进行遍历,最终找到新数据点所属的叶节点
这一数据点的输出即为此叶节点中所有训练点的平均目标值。

16.决策树可以采用预剪枝和后剪枝来防止过拟合
sklearn中只实现了预剪枝
预剪枝限制条件可以包括
限制树的最大深度
限制叶节点的最大数目
规定一个节点中数据点的最小数目防止继续划分

17.决策树graphviz可视化图中的samples给出该节点中的样本数
values给出每个类别的样本数

18.特征重要性指标可以看决策树的特征重要性,每个特征值介于0和1之间
tree.feature_importance_
且加和为1
0表示特征没用到
1表示完美预测目标值

19.决策树回归不能外推,也不能在训练数据范围之外进行预测

20.决策树优点:
(1)较小的树模型可视化容易,容易解释理解
(2)算法不受数据缩放影响(因为每个特征单独处理),特征不需要预处理(归一化 标准化)
特别是特征尺度大小相差大或者二元特征和连续特征同时存在时
决策树缺点:
既使预剪枝,也经常过拟合,泛化能力差,所以大多数情况采用集成模型代替单棵决策树。

原文发布时间为:2018-07-20
本文作者:王大伟
本文来自云栖社区合作伙伴“Python爱好者社区”,了解相关信息可以关注“Python爱好者社区

相关文章
|
1天前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
27 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
2月前
|
人工智能 JSON 算法
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式、 AI Native 的大模型与 AIGC 工程平台,为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例,详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
|
23天前
|
编解码 机器人 测试技术
技术实践 | 使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型快速搭建专业领域知识问答机器人
Qwen2-VL是一款具备高级图像和视频理解能力的多模态模型,支持多种语言,适用于多模态应用开发。通过PAI和LLaMA Factory框架,用户可以轻松微调Qwen2-VL模型,快速构建文旅领域的知识问答机器人。本教程详细介绍了从模型部署、微调到对话测试的全过程,帮助开发者高效实现定制化多模态应用。
|
2月前
|
机器学习/深度学习 PyTorch API
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本
Transformer架构自2017年被Vaswani等人提出以来,凭借其核心的注意力机制,已成为AI领域的重大突破。该机制允许模型根据任务需求灵活聚焦于输入的不同部分,极大地增强了对复杂语言和结构的理解能力。起初主要应用于自然语言处理,Transformer迅速扩展至语音识别、计算机视觉等多领域,展现出强大的跨学科应用潜力。然而,随着模型规模的增长,注意力层的高计算复杂度成为发展瓶颈。为此,本文探讨了在PyTorch生态系统中优化注意力层的各种技术,
76 6
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本
|
1月前
|
机器学习/深度学习 人工智能 算法
人工智能浪潮下的编程实践:构建你的第一个机器学习模型
在人工智能的巨浪中,每个人都有机会成为弄潮儿。本文将带你一探究竟,从零基础开始,用最易懂的语言和步骤,教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式,也不必担心编程难题,只需跟随我们的步伐,一起探索这个充满魔力的AI世界。
49 12
|
2月前
|
机器学习/深度学习 Python
机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况
本文介绍了机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况,而ROC曲线则通过假正率和真正率评估二分类模型性能。文章还提供了Python中的具体实现示例,展示了如何计算和使用这两种工具来评估模型。
64 8
|
2月前
|
机器学习/深度学习 Python
机器学习中模型选择和优化的关键技术——交叉验证与网格搜索
本文深入探讨了机器学习中模型选择和优化的关键技术——交叉验证与网格搜索。介绍了K折交叉验证、留一交叉验证等方法,以及网格搜索的原理和步骤,展示了如何结合两者在Python中实现模型参数的优化,并强调了使用时需注意的计算成本、过拟合风险等问题。
64 6
|
2月前
|
机器学习/深度学习 数据采集 算法
从零到一:构建高效机器学习模型的旅程####
在探索技术深度与广度的征途中,我深刻体会到技术创新既在于理论的飞跃,更在于实践的积累。本文将通过一个具体案例,分享我在构建高效机器学习模型过程中的实战经验,包括数据预处理、特征工程、模型选择与优化等关键环节,旨在为读者提供一个从零开始构建并优化机器学习模型的实用指南。 ####
|
2月前
|
人工智能 边缘计算 JSON
DistilQwen2 蒸馏小模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
本文详细介绍在 PAI 平台使用 DistilQwen2 蒸馏小模型的全链路最佳实践。
|
2月前
|
机器学习/深度学习 人工智能 算法
探索机器学习中的线性回归模型
本文深入探讨了机器学习中广泛使用的线性回归模型,从其基本概念和数学原理出发,逐步引导读者理解模型的构建、训练及评估过程。通过实例分析与代码演示,本文旨在为初学者提供一个清晰的学习路径,帮助他们在实践中更好地应用线性回归模型解决实际问题。