Python3入门机器学习 - 集成学习

简介: 集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。#准备数据X,y = datasets.

集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。

#准备数据
X,y = datasets.make_moons(noise=0.3,n_samples=500,random_state=42)

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=666)

#逻辑回归预测
from sklearn.linear_model import LogisticRegression
log_reg = LogisticRegression()
log_reg.fit(X_train,y_train)
log_reg.score(X_test,y_test)

#SVM预测
from sklearn.svm import SVC
svc = SVC()
svc.fit(X_train,y_train)
svc.score(X_test,y_test)

#决策树预测
from sklearn.tree import DecisionTreeClassifier
dec_clf = DecisionTreeClassifier()
dec_clf.fit(X_train,y_train)
dec_clf.score(X_test,y_test)

y1_predict = log_reg.predict(X_test)
y2_predict = svc.predict(X_test)
y3_predict = dec_clf.predict(X_test)

#使用集成学习的方法决定最终预测结果
y_predict = np.array((y1_predict+y2_predict+y3_predict)>=2,dtype='int')

img_ee49e00d9bbea95db7c5641d7f7d05b7.png


使用sklearn中的VotingClassifier
from sklearn.ensemble import VotingClassifier

voting_clf = VotingClassifier(estimators=[
    ('log_clf',LogisticRegression()),
    ('SVM',SVC()),
    ('dec_clf',DecisionTreeClassifier())
],voting='hard')    #hard为少数服从多数的集成学习方式
voting_clf.fit(X_train,y_train)
voting_clf.score(X_test,y_test)


Soft Voting
img_2e116d8f3d9e7e8128e016ed478df0d9.png
Soft Voting这种方式必须要模型具有预测概率的能力,例如逻辑回归算法本身就是基于概率做分类的,而knn算法一类的非参数学习方法,也可以根据样本数据预测概率,SVM算法可以将probablity属性设置为True以支持概率预测。
voting_clf2 = VotingClassifier(estimators=[
    ('log_clf',LogisticRegression()),
    ('SVM',SVC(probability=True)),
    ('dec_clf',DecisionTreeClassifier(random_state=666))
],voting='soft')

voting_clf2.fit(X_train,y_train)
voting_clf2.score(X_test,y_test)


使用Bagging产生大量子模型的集成学习方法

让每个子模型只看数据的一部分,用放回取样的方式来训练大量的子模型,作为集成学习的方法。

from sklearn.ensemble import BaggingClassifier

#创建Bagging集成学习的参数
#使用DecisionTreeClassifier()作为子模型,决策树作为子模型更容易创建子模型间的差异性,对于Bagging这种方式的集成学习来说,决策树是相对较好的子模型选择
#max_samples决定每个子模型最多参考样本数据量
#n_estimators决定生成多少个子模型
#bootstrap决定采用放回抽样还是不放回抽样,True为放回抽样
bagging_clf = BaggingClassifier(DecisionTreeClassifier(),max_samples=100,n_estimators=500,bootstrap=True)

上例为对样本进行随机采样,但对于Bagging,其实有更多的方法可以进行采样来创建子模型


img_a1d0ddc6d98638cd2390a9c1d0bcc410.png
Random Subspaces

#max_features设置随机取的最大样本特征数量
#bootstrap_features设置对特征进行放回或不放回取样
#oob_score设置对所有样本进行采样,不分离训练和测试数据集,而在随机采样中所有没有被采样的数据作为测试集使用
random_subspaces_clf = BaggingClassifier(DecisionTreeClassifier(),max_samples=500,n_estimators=500,bootstrap=True,
                                        max_features=1,bootstrap_features=True,n_jobs=-1,oob_score=True)
random_subspaces_clf.fit(X,y)
random_subspaces_clf.oob_score_
Random Patches

random_patches_clf = BaggingClassifier(DecisionTreeClassifier(),max_samples=100,n_estimators=500,bootstrap=True,
                                        max_features=1,bootstrap_features=True,n_jobs=-1)
random_patches_clf.fit(X,y)
random_patches_clf.oob_score


随机森林

from sklearn.ensemble import RandomForestClassifier

rf_clf = RandomForestClassifier(n_estimators=500,oob_score=True)
rf_clf.fit(X,y)
rf_clf.oob_score_
Extra Trees
from sklearn.ensemble import ExtraTreesClassifier

et_clf = ExtraTreesClassifier(n_estimators=500,oob_score=True,n_jobs=-1,bootstrap=True)
et_clf.fit(X,y)


Boosting


img_62004ae9eba5479ebb89b0004c85c695.png
Ada Boosting思路,对每次学习后,无法较好拟合的数据点,在下次拟合过程中,增加这些数据点的权重,依次循环生成子模型
from sklearn.ensemble import AdaBoostClassifier

ada_clf = AdaBoostClassifier(DecisionTreeClassifier(),n_estimators=500)
ada_clf.fit(X_train,y_train)
ada_clf.score(X_test,y_test)
img_de2ae0923175018bc24766ceea5e9d2c.png
Gradient Boosting思路,对于上次拟合错误的数据点,给与下一个模型专门训练,依次循环
#GradientBoostingClassifier本身基于决策树进行,因此不需要设置best_estamitor
from sklearn.ensemble import GradientBoostingClassifier
ada_clf = GradientBoostingClassifier(n_estimators=500)
ada_clf.fit(X_train,y_train)
目录
相关文章
|
3月前
|
缓存 监控 安全
电商API集成入门:从零开始搭建高效接口
在数字化电商时代,API集成成为企业提升效率、实现系统互联的关键。本文从零开始,逐步讲解如何搭建高效、可靠的电商API接口,适合初学者学习。内容涵盖API基础、认证安全、请求处理、性能优化等核心步骤,并提供Python代码示例与数学公式辅助理解。通过实践,读者可掌握构建优质电商API的技巧,提升用户体验与系统性能。
142 0
|
10天前
|
JavaScript Java 大数据
基于python的网络课程在线学习交流系统
本研究聚焦网络课程在线学习交流系统,从社会、技术、教育三方面探讨其发展背景与意义。系统借助Java、Spring Boot、MySQL、Vue等技术实现,融合云计算、大数据与人工智能,推动教育公平与教学模式创新,具有重要理论价值与实践意义。
|
3月前
|
算法 IDE 测试技术
python学习需要注意的事项
python学习需要注意的事项
205 57
|
3月前
|
JSON 数据安全/隐私保护 数据格式
拼多多批量下单软件,拼多多无限账号下单软件,python框架仅供学习参考
完整的拼多多自动化下单框架,包含登录、搜索商品、获取商品列表、下单等功能。
|
3月前
|
机器学习/深度学习 数据安全/隐私保护 计算机视觉
过三色刷脸技术,过三色刷脸技术教程,插件过人脸python分享学习
三色刷脸技术是基于RGB三通道分离的人脸特征提取方法,通过分析人脸在不同颜色通道的特征差异
|
3月前
|
监控 数据安全/隐私保护 Python
微信自动抢红包免费版,2025微信抢红包神器,微信红包挂苹果版【python仅供学习】
这个模拟项目包含5个模块:核心监控逻辑、用户界面、配置管理、实用工具和主程序入口
|
5月前
|
机器学习/深度学习 数据采集 人工智能
20分钟掌握机器学习算法指南
在短短20分钟内,从零开始理解主流机器学习算法的工作原理,掌握算法选择策略,并建立对神经网络的直观认识。本文用通俗易懂的语言和生动的比喻,帮助你告别算法选择的困惑,轻松踏入AI的大门。
|
11月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
1053 6
|
6月前
|
机器学习/深度学习 存储 Kubernetes
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
228 6

热门文章

最新文章

推荐镜像

更多