【机器学习实战】10分钟学会Python怎么用GBM梯度提升机进行预测(十四)

简介: 【机器学习实战】10分钟学会Python怎么用GBM梯度提升机进行预测(十四)

[toc]

1.前言

1.1 GBM的介绍

梯度提升机(Gradient Boosting Machine,简称GBM)是一种强大的机器学习算法,它是集成学习的一种形式。GBM在解决分类和回归问题上表现优异,是数据科学领域中常用的算法之一。GBM通过组合多个弱学习器(通常是决策树)来构建一个强大的预测模型。训练过程采用梯度提升技术,逐步改进模型的预测能力。每一轮迭代中,新的弱学习器被训练来纠正前一轮模型的错误,以尽可能减少模型对数据的残差。最终,所有弱学习器的结果加权融合,得到最终的预测结果。

优点

  • 高预测准确性:GBM在许多数据集上表现出色,通常可以获得较高的预测准确性。
  • 处理非线性关系:GBM能够很好地捕捉复杂数据中的非线性关系。
  • 鲁棒性:GBM对于噪声和异常值相对较为鲁棒,它可以通过组合多个模型来减少单个模型的过拟合风险。
  • 特征重要性评估:GBM可以提供每个特征的重要性评估,帮助理解数据中哪些特征对预测影响最大。
  • 可扩展性:GBM可以适用于大规模数据集,并且在现代计算平台上可以高效实现。

缺点

  • 训练时间较长:相比于一些简单的线性模型,GBM的训练时间可能较长,特别是在复杂模型和大规模数据集上。
  • 超参数调整:GBM的性能对于一些超参数(如学习率、树的数量等)较为敏感,需要仔细的调整和优化。
  • 可能出现过拟合:如果不谨慎设置超参数或者训练集数据较小,GBM有可能出现过拟合,导致在新数据上表现不佳。
  • 不适合高维稀疏数据:对于高维稀疏数据,GBM的表现可能不如一些专门针对此类数据设计的算法。

1.2 GBM的应用

  1. 金融领域:在金融领域,GBM广泛用于信用评分模型。通过分析客户的历史信用信息和其他相关特征,GBM可以预测客户的信用风险,帮助金融机构做出更明智的信贷决策。此外,GBM还可以用于股票价格预测,利用历史股票价格数据和市场指标,来预测未来股票价格的走势。
  2. 保险业:在保险行业,GBM可以用于风险评估和理赔预测。通过分析客户的个人信息、保险历史和其他风险因素,GBM可以评估客户的风险水平,并帮助保险公司制定适当的保险政策和定价。此外,GBM还可以预测保险索赔的概率,帮助保险公司更好地管理理赔流程。
  3. 电子商务:在电子商务中,GBM常用于推荐系统。通过分析用户的购买历史、浏览行为和其他行为特征,GBM可以为用户推荐个性化的产品或服务,提高用户的购买转化率和满意度。此外,GBM还可以预测广告点击率,帮助广告商优化广告投放策略。
  4. 医疗和生物科学:在医疗领域,GBM可以应用于疾病预测和诊断支持。通过分析患者的临床数据、医学影像和基因信息,GBM可以预测患者是否患有某种疾病,并提供辅助诊断的信息。此外,GBM还可以用于药物发现,通过分析药物分子和生物活性数据,来预测潜在的新药物候选。
  5. 社交网络:在社交网络中,GBM可以用于用户行为建模和社交关系分析。通过分析用户在社交网络中的互动行为和内容分享,GBM可以预测用户的兴趣和行为,为社交网络平台提供更个性化的服务和推荐。
  6. 自然语言处理:在自然语言处理领域,GBM可以用于情感分析和文本分类。通过分析文本中的情感和语义信息,GBM可以判断文本的情感倾向或者将文本分类到不同的类别中,例如新闻分类、垃圾邮件识别等。
  7. 工业和制造:在工业领域,GBM可以应用于设备故障预测和质量控制。通过分析设备的传感器数据和工艺参数,GBM可以预测设备是否会出现故障,并提前采取维修措施。此外,GBM还可以用于质量控制,帮助检测生产过程中的缺陷和不良品。
  8. 能源和环境:在能源和环境领域,GBM可以应用于能源消耗预测和气候模式预测。通过分析能源消耗的历史数据和影响因素,GBM可以预测未来的能源需求,有助于能源规划和管理。此外,GBM还可以用于气候模式预测,帮助预测天气变化和自然灾害风险。
  9. 交通和物流:在交通和物流行业,GBM可用于交通流量预测和路况评估。通过分析历史交通数据和道路条件,GBM可以预测未来的交通流量和路况,帮助交通管理部门优化交通调度和规划。

2. scikit-learn实战演示

GradientBoostingRegressorGradientBoostingClassifier是Python中scikit-learn库中梯度提升机(Gradient Boosting MachineGBM)的两个主要类。



GradientBoostingRegressor是scikit-learn中用于回归问题的梯度提升机类。它用于解决连续型目标变量的预测问题。通过拟合一系列的回归树(决策树用于回归任务),GBM可以对数据中的非线性关系进行建模,并产生连续型的预测结果。例如,可以使用GradientBoostingRegressor来预测房屋价格、销售量等连续性目标变量。



GradientBoostingClassifier是scikit-learn中用于分类问题的梯度提升机类。它用于解决离散型目标变量的预测问题,将样本划分到不同的类别中。在训练过程中,GBM使用决策树作为弱学习器,来对类别进行预测。例如,可以使用GradientBoostingClassifier来进行垃圾邮件识别、肿瘤类型分类等分类任务。

2.1 分类问题

创建数据集,生成一个包含1000个样本和20个特征的合成分类数据集。其中有15个特征是有信息量的特征,5个特征是冗余的特征。

from sklearn.datasets import make_classification
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)
print(X.shape, y.shape)
# (1000, 20) (1000,)

构建模型,10折交叉,重复3次

import numpy as np
from sklearn.datasets import make_classification
from sklearn.model_selection import cross_val_score, RepeatedStratifiedKFold
from sklearn.ensemble import GradientBoostingClassifier
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)
model = GradientBoostingClassifier()
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
n_scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)
print('Mean Accuracy: %.3f (%.3f)' % (np.mean(n_scores), np.std(n_scores)))
# Mean Accuracy: 0.899 (0.030)

二分类数据预测

from sklearn.datasets import make_classification
from sklearn.ensemble import GradientBoostingClassifier
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)
model = GradientBoostingClassifier()
model.fit(X, y)
row = [0.2929949, -4.21223056, -1.288332, -2.17849815, -0.64527665, 2.58097719, 0.28422388, -7.1827928, -1.91211104, 2.73729512, 0.81395695, 3.96973717, -2.66939799, 3.34692332, 4.19791821, 0.99990998, -0.30201875, -4.43170633, -2.82646737, 0.44916808]
yhat = model.predict([row])
print('Predicted Class: %d' % yhat[0])
# Predicted Class: 1

2.2 回归问题

创建数据集

from sklearn.datasets import make_regression
X, y = make_regression(n_samples=1000, n_features=20, n_informative=15, noise=0.1, random_state=7)
print(X.shape, y.shape)
# (1000, 20) (1000,)

构建模型,10折交叉,重复3次

from numpy import mean, std
from sklearn.datasets import make_regression
from sklearn.model_selection import cross_val_score, RepeatedKFold
from sklearn.ensemble import GradientBoostingRegressor
X, y = make_regression(n_samples=1000, n_features=20, n_informative=15, noise=0.1, random_state=7)
model = GradientBoostingRegressor()
cv = RepeatedKFold(n_splits=10, n_repeats=3, random_state=1)
n_scores = cross_val_score(model, X, y, scoring='neg_mean_absolute_error', cv=cv, n_jobs=-1)
print('MAE: %.3f (%.3f)' % (mean(n_scores), std(n_scores)))
# MAE: -62.440 (3.259)

模型预测

from sklearn.datasets import make_regression
from sklearn.ensemble import GradientBoostingRegressor
X, y = make_regression(n_samples=1000, n_features=20, n_informative=15, noise=0.1, random_state=7)
model = GradientBoostingRegressor()
model.fit(X, y)
row = [0.20543991, -0.97049844, -0.81403429, -0.23842689, -0.60704084, -0.48541492, 0.53113006, 2.01834338, -0.90745243, -1.85859731, -1.02334791, -0.6877744, 0.60984819, -0.70630121, -1.29161497, 1.32385441, 1.42150747, 1.26567231, 2.56569098, -0.11154792]
yhat = model.predict([row])
print('Prediction: %d' % yhat[0])
# Prediction: 37

3. GBM超参数

梯度提升(Gradient Boosting)是通过组合多个弱学习器(通常是决策树)来构建一个强大的预测模型。在梯度提升算法中,有一些关键的超参数需要设置,以影响模型的性能和训练过程。以下是梯度提升算法的一些重要超参数,这里只演示最常用的5个。

超参数

描述

n_estimators

集成中弱学习器(通常是决策树)的数量。更多的学习器可能导致过拟合,较少的学习器可能导致欠拟合。

learning_rate

控制每个弱学习器对模型的贡献。较小的学习率使得每个学习器的权重调整更小,有助于提高模型的鲁棒性,但可能需要更多的迭代。较大的学习率可能导致过拟合。

max_depth

决策树的最大深度,用于控制弱学习器(决策树)的复杂度。较大的最大深度允许决策树更多的分支,可能导致过拟合。较小的最大深度有助于防止过拟合。

min_samples_split

决策树节点分裂所需的最小样本数。增加该值可降低模型复杂度,减少过拟合的可能性。

min_samples_leaf

叶子节点所需的最小样本数。增加该值可降低模型复杂度,减少过拟合的可能性。

subsample

控制每个弱学习器在训练时所使用的样本比例。取值小于1.0时,表示使用部分样本进行训练,有助于降低方差,增加模型的泛化能力。

max_features

决定每个决策树节点在分裂时考虑的特征数量。

这些超参数在梯度提升机中非常重要,影响模型的复杂度、拟合性能以及泛化能力。在调参时,需要根据具体的数据集和问题选择合适的超参数取值,以获得最优的模型性能。

### 总模版,后续
from numpy import mean, std, arange
from sklearn.datasets import make_classification
from sklearn.model_selection import cross_val_score, RepeatedStratifiedKFold
from sklearn.ensemble import GradientBoostingClassifier
from matplotlib import pyplot
# 获取数据集
def get_dataset():
    X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)
    return X, y
# 获取待评估的模型列表
# ——————————————————
# 替换内容,直接复制每小段超参数建模示例进来运行即可
# ——————————————————
# 使用交叉验证评估给定模型
def evaluate_model(model, X, y):
    # 定义评估过程
    cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
    # 评估模型并收集结果
    scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)
    return scores
# 获取数据集
X, y = get_dataset()
# 获取待评估的模型列表
models = get_models()
# 评估模型并存储结果
results, names = list(), list()
for name, model in models.items():
    # 评估模型
    scores = evaluate_model(model, X, y)
    # 存储结果
    results.append(scores)
    names.append(name)
    # 输出性能评估结果
    print('>%s %.3f (%.3f)' % (name, mean(scores), std(scores)))
# 绘制模型性能箱线图进行对比
pyplot.boxplot(results, labels=names, showmeans=True)
pyplot.xlabel('Sample Ratio')
pyplot.ylabel('Accuracy')
pyplot.title('Gradient Boosting Performance Comparison')
pyplot.show()

3.1 决策树数量(n_estimators)

指定构建的弱学习器的数量,也称为迭代次数。更多的迭代次数会增加模型的复杂度,但可能会导致过拟合。该参数默认100,这里演示10 到 5,000 的变化。

# 获取待评估的模型列表
def get_models():
    models = dict()
    # 定义不同树数量
    n_trees = [10, 50, 100, 500, 1000, 5000]
    for n in n_trees:
        models[str(n)] = GradientBoostingClassifier(n_estimators=n)
    return models

3.2 样本数量(subsample)

控制每个弱学习器在训练过程中所使用的样本比例。取值小于1.0时,表示使用部分样本进行训练,这样可以降低方差,增加模型的泛化能力。

# 获取待评估的模型列表
def get_models():
    models = dict()
    # 探索不同的样本比例,从10%到100%,步长为10%
    for i in arange(0.1, 1.1, 0.1):
        key = '%.1f' % i
        models[key] = GradientBoostingClassifier(subsample=i)
    return models

3.3 特征数量(max_features)

决定每个决策树节点在分裂时考虑的特征数量。它可以影响模型的随机性,较小的值可能有助于增加模型的多样性,较大的值可能增加拟合性能。

# 获取要评估的模型列表
def get_models():
    models = dict()
    # 探索特征数量从1到20
    for i in range(1, 21):
        models[str(i)] = GradientBoostingClassifier(max_features=i)
    return models

3.4 学习率(learning_rate)

每个弱学习器对模型的贡献,也称为学习率。较小的学习率会使得每个学习器的权重调整较小,有助于提高模型的鲁棒性,但可能需要更多的迭代次数。

# 获取要评估的模型列表
def get_models():
    models = dict()
    # 定义要探索的学习率
    learning_rates = [0.0001, 0.001, 0.01, 0.1, 1.0]
    for rate in learning_rates:
        key = '%.4f' % rate
        models[key] = GradientBoostingClassifier(learning_rate=rate)
    return models

3.5 决策树深度(max_depth)

决策树的最大深度,用于控制弱学习器(决策树)的复杂度,默认为3。较大的最大深度允许决策树更多的分支,可能导致过拟合。较小的最大深度有助于防止过拟合。

# 获取要评估的模型列表
def get_models():
    models = dict()
    # 定义要探索的树深度范围
    for depth in range(1, 11):
        models[str(depth)] = GradientBoostingClassifier(max_depth=depth)
    return models

4.讨论

这里将n_estimatorssubsamplelearning_ratemax_depth四个参数组合做了个热图,也能大致了解哪个指标对结果的影响更大。

梯度提升是指一类可用于分类或回归预测建模问题的集成机器学习算法。集成是根据决策树模型构建的。一次将一棵树添加到集合中,并进行拟合以纠正先前模型产生的预测错误。这是一种称为 boosting 的集成机器学习模型。使用任意可微损失函数和梯度下降优化算法来拟合模型。这使得该技术被称为“梯度增强”,因为随着模型的拟合,损失梯度被最小化,就像神经网络一样。

目录
相关文章
|
2天前
|
机器学习/深度学习 边缘计算 TensorFlow
【Python机器学习专栏】Python机器学习工具与库的未来展望
【4月更文挑战第30天】本文探讨了Python在机器学习中的关键角色,重点介绍了Scikit-learn、TensorFlow和PyTorch等流行库。随着技术进步,未来Python机器学习工具将聚焦自动化、智能化、可解释性和可信赖性,并促进跨领域创新,结合云端与边缘计算,为各领域应用带来更高效、可靠的解决方案。
|
2天前
|
机器学习/深度学习 传感器 物联网
【Python机器学习专栏】机器学习在物联网(IoT)中的集成
【4月更文挑战第30天】本文探讨了机器学习在物联网(IoT)中的应用,包括数据收集预处理、实时分析决策和模型训练更新。机器学习被用于智能家居、工业自动化和健康监测等领域,例如预测居民行为以优化能源效率和设备维护。Python是支持物联网项目机器学习集成的重要工具,文中给出了一个使用`scikit-learn`预测温度的简单示例。尽管面临数据隐私、安全性和模型解释性等挑战,但物联网与机器学习的结合将持续推动各行业的创新和智能化。
|
2天前
|
机器学习/深度学习 数据采集 算法
【Python 机器学习专栏】机器学习在医疗诊断中的前沿应用
【4月更文挑战第30天】本文探讨了机器学习在医疗诊断中的应用,强调其在处理复杂疾病和大量数据时的重要性。神经网络、决策树和支持向量机等方法用于医学影像诊断、疾病预测和基因数据分析。Python作为常用工具,简化了模型构建和数据分析。然而,数据质量、模型解释性和伦理法律问题构成挑战,需通过数据验证、可解释性研究及建立规范来应对。未来,机器学习将更深入地影响医疗诊断,带来智能和精准的诊断工具,同时也需跨学科合作推动其健康发展。
|
2天前
|
机器学习/深度学习 分布式计算 物联网
【Python机器学习专栏】联邦学习:保护隐私的机器学习新趋势
【4月更文挑战第30天】联邦学习是保障数据隐私的分布式机器学习方法,允许设备在本地训练数据并仅共享模型,保护用户隐私。其优势包括数据隐私、分布式计算和模型泛化。应用于医疗、金融和物联网等领域,未来将发展更高效的数据隐私保护、提升可解释性和可靠性的,并与其他技术融合,为机器学习带来新机遇。
|
2天前
|
机器学习/深度学习 自然语言处理 搜索推荐
【Python机器学习专栏】迁移学习在机器学习中的应用
【4月更文挑战第30天】迁移学习是利用已有知识解决新问题的机器学习方法,尤其在数据稀缺或资源有限时展现优势。本文介绍了迁移学习的基本概念,包括源域和目标域,并探讨了其在图像识别、自然语言处理和推荐系统的应用。在Python中,可使用Keras或TensorFlow实现迁移学习,如示例所示,通过预训练的VGG16模型进行图像识别。迁移学习提高了学习效率和性能,随着技术发展,其应用前景广阔。
|
2天前
|
机器学习/深度学习 人工智能 算法
【Python 机器学习专栏】强化学习在游戏 AI 中的实践
【4月更文挑战第30天】强化学习在游戏AI中展现巨大潜力,通过与环境交互和奖励信号学习最优策略。适应性强,能自主探索,挖掘出惊人策略。应用包括策略、动作和竞速游戏,如AlphaGo。Python是实现强化学习的常用工具。尽管面临训练时间长和环境复杂性等挑战,但未来强化学习将与其他技术融合,推动游戏AI发展,创造更智能的游戏体验。
|
2天前
|
机器学习/深度学习 传感器 自动驾驶
【Python机器学习专栏】深度学习在自动驾驶中的应用
【4月更文挑战第30天】本文探讨了深度学习在自动驾驶汽车中的应用及其对技术发展的推动。深度学习通过模拟神经网络处理数据,用于环境感知、决策规划和控制执行。在环境感知中,深度学习识别图像和雷达数据;在决策规划上,学习人类驾驶行为;在控制执行上,实现精确的车辆控制。尽管面临数据需求、可解释性和实时性挑战,但通过数据增强、规则集成和硬件加速等方法,深度学习将持续优化自动驾驶性能,并在安全性和可解释性上取得进步。
|
2月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
|
29天前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
2月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
29 1