Python机器学习(sklearn)——分类模型评估与调参总结(下)

简介: Python机器学习(sklearn)——分类模型评估与调参总结

21.集成方法有随机森林(random forest)和梯度提升树(gradient boosted decision tree)GBDT

随机森林中树的随机化方法有两种:

(1)通过选择用于构造树的数据点
构造随机森林需要确定用于构造的树的个数
为了确保树与树之间的区别,对每棵树的数据进行自助采样
从样本数据中有放回的多次抽取(一个样本可能被抽取多次),抽取创建的新数据集要和原数据集大小相等(数据数量相同)

(2)通过选择每次划分测试集的特征
在每个节点处,算法随机选择特征的一个子集,并对其中一个特征寻找最佳测试,而不是对每个节点都寻找最佳测试。
使用参数max_features, 如果max_features= n_features,则每次考虑所有特征,即第二种随机性没用上
当max_features较大,随机森林中每棵树都会很相似(因为采用的特征基本相同)
如果max_features较小,树的差异较大,为了很好的拟合数据,每棵树的深度都应该较大。
RandomForestClassifier(n_estimators = 5,random_state = 2)#五棵树的随机森林
随机森林比单独一棵树的过拟合都要小,实际应用中,我们会用很多树(通常几百上千),从而达到决策边界更平滑的效果
一般,随机森林给出的特征重要性比单科决策树给出的可靠。
多核CPU可以设置参数n_jobs = -1来使用计算机的所有内核计算
设置不同的随机状态(或者不设置random_state参数)可以彻底改变构建的模型
如果希望结果重现,固定random_state
对于高维稀疏数据(例如文本数据)随机森林常常表现不佳,使用线性模型更为合适
随机森林需要调节的重要参数有n_estimators和max_features,还包括预剪枝选项(如max_depth)
n_estimators总是越大越好(时间内存允许的话)
max_features决定每棵树的随机性大小,较小可以降低过拟合,一般使用默认值
分类时默认值为sqrt(n_features)
对于回归默认值是n_features

22.梯度提升回归树(梯度提升机)
梯度提升采用连续的方式构造树,每棵树都试图纠正前一棵树的错误。
梯度提升树背后的主要思想是合并许多简单的模型(在这个语境中叫做弱学习器),比如深度较小的树
每棵树只能对部分数据作出好的预测,所以添加更多的树可以不断迭代提高性能
除了预剪枝和随机森林里的树的数量之外,梯度提升树的另一个重要参数是学习率(learning_rate)
用于控制每棵树纠正前一棵树错误的强度,通过增大learning_rate或n_estimators都会增加模型的复杂度
降低树的最大深度和学习率都能降低过拟合
GradientBoostingClassifier(random_state=0, max_depth=1, learning_rate=0.01)
随机森林的n_estimators越大越好
梯度提升树的n_estimators提高,模型复杂,会导致过拟合
梯度提升树的max_depth通常设置的很小,一般不超过5
由于梯度提升和随机森林两种方法在类似的数据上表现的都很好
因此一种常用的方法是先尝试随机森林,它的鲁棒性很好,如果随机森林效果很好,但是预测时间太长,选择梯度提升
梯度提升树的需要仔细调参,训练时间也长,也不适合高维稀疏数据

23.对于SVM,将数据映射到更高维空间中有两种常用方法:
(1)多项式核;在一定阶数内计算原始特征所有可能的多项式(例如features12, features25)
(2)径向基函数(RBF) 核,也叫高斯核。它考虑所有阶数的所有可能的多项式,但阶数越高,特征的重要性越小。

24.SVM调参
gamma参数,控制高斯核的宽度,它决定了点与点之间“靠近”是指多大的距离。C参数是正则化参数,与线性模型类似
它限制每个点的重要性
从小增大gamma(0.1-10),它认为点与点之间的距离不断增大,从决策边界平滑往不平滑过渡,模型越加复杂
这两个参数强烈相关,可以同时调节
C从小到大,决策边界越来越不平滑
默认情况下:C=1,gamma=1/n_features
SVM数据需要预处理(常用的是缩放到0~1之间)
常用的是(x-xmin)/(xmax-xmin)
SVM的缺点:需要预处理和小心调参,SVM模型很难检验,也难以解释

25.神经网络的非线性函数常用校正非线性(relu)或正切双曲线(tanh)
relu截断小于0的值
tanh在输入值小时接近-1,较大时接近1
有了这两种非线性函数,神经网络可以学习比线性模型复杂得多的函数
多层感知机(MLP ),也称为普通前馈神经网络,默认时,每层使用100个隐节点
默认的是relu
MLPClassifier(solver='lbfgs',random_state=0,hidden_layer_sizes=[10])
10层
如果是10层且每层10个隐节点
则hidden_layer_sizes=[10,10]
MLPClassifier中调节L2惩罚的参数是alpha(与线性回归模型相同),默认值很小(弱正则化)
控制神经网络的复杂度的方法有很多种,隐层的个数、每个隐层中的单元个数与正则化(alpha)
神经网络要求输入特征的变化范围相似,最理想的情况是均值为0,方差为1
我们必须对数据进行缩放达到这一要求
StandardScaler可以达到数据处理要求
迭代次数参数MLPClassifier(max_iter = 1000,random_state=0)
功能强大的神经网络经常需要很长的训练时间
神经网络的调参常用方法是,首先创建一个大到足以过拟合的网络,确保这个网络可以对任务进行学习
然后通过缩小网络或者增大alpha来增强正则化,从而提高泛化性能
如何学习模型或用来学习参数的算法,由solver参数设定
默认为'adam',在大多数情况下效果很好,但是对数据的缩放相当敏感(需要将数据缩放为均值为0,方差为1)
'lbfgs'的鲁棒性很好,大型数据集和大型模型上时间较长
更高级的'sgd'
初学者建议使用前两种
sklearn中有两个函数可用于获取分类器的不确定性估计:decision_function和predict_proba
大多数分类器都至少有其中一个函数,很多分类器这两个都有
predict_proba的结果是:
每行的第一个元素是第一个类别的估计概率,第二个元素是第二个类别的估计概率
predict_proba输出的是概率,在0~1之间,两个类别的元素之和始终为1
decision_function每一列对应每个类别的确定度分数,分数越高类别的可能性越大

26.如何选择合适的模型:

KNN
适用于小型数据集,容易解释

线性模型
非常可靠的首选算法,适用于非常大的数据集,也适合高维数据

朴素贝叶斯
只适用于分类问题,比线性模型速度还快,适用于非常大的数据集或者高维数据
精度通常要低于线性模型

决策树
速度很快,不需要数据放缩,可以可视化,容易解释

随机森林
几乎总是比单棵决策树表现好,鲁棒性好,不需要数据放缩,不适用于高维数据

梯度提升决策树
精度通常比随机森林略高,但是训练速度比随机森林慢,预测速度比随机森林快,需要的内存少,比随机森林需要调的参数多

SVM
对于特征含义相似的中等大小的数据集很强大,需要数据缩放,对参数敏感

神经网络
可以构建非常复杂的模型,特别是大型数据集,对数据缩放敏感,对参数选取敏感,大型网络需要很长的训练时间

面对数据集,先从简单的模型开始,比如线性回归、朴素贝叶斯、KNN,看看能得到的结果
对数据理解加深后,可以考虑更复杂的模型
如随机森林、梯度提升决策树、SVM、神经网络

原文发布时间为:2018-07-22
本文作者: 王大伟
本文来自云栖社区合作伙伴“ Python爱好者社区”,了解相关信息可以关注“ Python爱好者社区

相关文章
|
1天前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
27 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
2月前
|
人工智能 JSON 算法
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式、 AI Native 的大模型与 AIGC 工程平台,为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例,详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
|
23天前
|
编解码 机器人 测试技术
技术实践 | 使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型快速搭建专业领域知识问答机器人
Qwen2-VL是一款具备高级图像和视频理解能力的多模态模型,支持多种语言,适用于多模态应用开发。通过PAI和LLaMA Factory框架,用户可以轻松微调Qwen2-VL模型,快速构建文旅领域的知识问答机器人。本教程详细介绍了从模型部署、微调到对话测试的全过程,帮助开发者高效实现定制化多模态应用。
|
2月前
|
机器学习/深度学习 PyTorch API
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本
Transformer架构自2017年被Vaswani等人提出以来,凭借其核心的注意力机制,已成为AI领域的重大突破。该机制允许模型根据任务需求灵活聚焦于输入的不同部分,极大地增强了对复杂语言和结构的理解能力。起初主要应用于自然语言处理,Transformer迅速扩展至语音识别、计算机视觉等多领域,展现出强大的跨学科应用潜力。然而,随着模型规模的增长,注意力层的高计算复杂度成为发展瓶颈。为此,本文探讨了在PyTorch生态系统中优化注意力层的各种技术,
76 6
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本
|
1月前
|
机器学习/深度学习 人工智能 算法
人工智能浪潮下的编程实践:构建你的第一个机器学习模型
在人工智能的巨浪中,每个人都有机会成为弄潮儿。本文将带你一探究竟,从零基础开始,用最易懂的语言和步骤,教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式,也不必担心编程难题,只需跟随我们的步伐,一起探索这个充满魔力的AI世界。
49 12
|
2月前
|
机器学习/深度学习 Python
机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况
本文介绍了机器学习中评估模型性能的重要工具——混淆矩阵和ROC曲线。混淆矩阵通过真正例、假正例等指标展示模型预测情况,而ROC曲线则通过假正率和真正率评估二分类模型性能。文章还提供了Python中的具体实现示例,展示了如何计算和使用这两种工具来评估模型。
64 8
|
2月前
|
机器学习/深度学习 Python
机器学习中模型选择和优化的关键技术——交叉验证与网格搜索
本文深入探讨了机器学习中模型选择和优化的关键技术——交叉验证与网格搜索。介绍了K折交叉验证、留一交叉验证等方法,以及网格搜索的原理和步骤,展示了如何结合两者在Python中实现模型参数的优化,并强调了使用时需注意的计算成本、过拟合风险等问题。
64 6
|
2月前
|
机器学习/深度学习 数据采集 算法
从零到一:构建高效机器学习模型的旅程####
在探索技术深度与广度的征途中,我深刻体会到技术创新既在于理论的飞跃,更在于实践的积累。本文将通过一个具体案例,分享我在构建高效机器学习模型过程中的实战经验,包括数据预处理、特征工程、模型选择与优化等关键环节,旨在为读者提供一个从零开始构建并优化机器学习模型的实用指南。 ####
|
2月前
|
人工智能 边缘计算 JSON
DistilQwen2 蒸馏小模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
本文详细介绍在 PAI 平台使用 DistilQwen2 蒸馏小模型的全链路最佳实践。
|
2月前
|
机器学习/深度学习 人工智能 算法
探索机器学习中的线性回归模型
本文深入探讨了机器学习中广泛使用的线性回归模型,从其基本概念和数学原理出发,逐步引导读者理解模型的构建、训练及评估过程。通过实例分析与代码演示,本文旨在为初学者提供一个清晰的学习路径,帮助他们在实践中更好地应用线性回归模型解决实际问题。