如何用R语言在机器学习中建立集成模型?

简介: 如何用R语言在机器学习中建立集成模型?

介绍

大多数时候,我能够破解特征工程部分,但可能没有使用多个模型的集合。

在本文中,我将向您介绍集成建模的基础知识。另外,为了向您提供有关集合建模的实践经验,我们将使用R对hackathon问题进行集成。

 

1.什么是集成?

通常,集成是一种组合两种或多种类似或不同类型算法的技术,称为基础学习者。这样做是为了建立一个更加健壮的系统,其中包含了所有基础学习者的预测。可以理解为多个交易者之间的会议室会议,以决定股票的价格是否会上涨。

由于他们都对股票市场有不同的理解,因此从问题陈述到期望的结果有不同的映射功能。因此,他们应该根据自己对市场的理解对股票价格做出各种预测。

 

 

2.集合的类型

在进一步详细介绍之前,您应该了解的一些基本概念是:

  • 平均:它被定义为 在回归问题的情况下或在预测分类问题的概率时从模型中获取预测的平均值。

  • 多数投票:它被 定义为 在预测分类问题的结果的同时,从多个模型预测中以最大投票/推荐进行预测。

  • 加权平均值:在此,不同的权重应用于来自多个模型的预测,然后取平均值 。

 

这些是一些主要使用的技术:

  1. Bagging:Bagging也称为bootstrap聚合。

 

增强的一些例子是XGBoost,GBM,ADABOOST等。

  1. 堆叠:在堆叠多层机器时,学习模型彼此叠加,每个模型将其预测传递给上面层中的模型,顶层模型根据模型下面的模型输出做出决策。

 

3.集合的优点和缺点

3.1优点

  • 集成是一种经过验证的方法,可以提高模型的准确性,适用于大多数情况。
  • 集成使模型更加稳健和稳定,从而确保在大多数情况下测试用例具有良好的性能。
  • 您可以使用集成来捕获数据中的线性和简单以及非线性复杂关系。这可以通过使用两个不同的模型并形成两个集合来完成。

 

3.2缺点

  • 集成减少了模型的可解释性,并且很难在最后绘制任何关键的业务见解。
  • 这非常耗时,因此可能不是实时应用程序的最佳选择。

4.在R中实施集合的实用指南





#让我们看一下数据集数据的结构
'data.frame':614 obs。13个变量:


$ ApplicantIncome:int 5849 4583 3000 2583 6000 5417 2333 3036 4006 12841 ...
$ CoapplicantIncome:num 0 1508 0 2358 0 ...
$ LoanAmount:int NA 128 66 120 141 267 95 158 168 349 ...
$ Loan_Amount_Term:int 360 360 360 360 360 360 360 360 360 360 ...
$ Credit_History:int 1 1 1 1 1 1 1 0 1 1 ...




#使用中位数输入缺失值
preProcValues < -  preProcess(data,method = c(“medianImpute”,“center”,“scale”))


#Spliting训练根据结果分为两部分:75%和25%
index < -  createDataPartition(data_processed $ Loan_Status,p = 0.75,list = FALSE)
trainSet < -  data_processed [index,]
testSet < -  data_processed [-index,]

我将数据分成两部分,我将用它来模拟训练和测试操作。我们现在定义训练控件以及预测变量和结果变量:




#定义多个模型
fitControl < -  trainControl(
  method =“cv”, savePredictions ='final',
classProbs = T)


#Defining预测器和结果

现在让我们开始训练随机森林并在我们创建的测试集上测试其准确性:




#检查随机森林模型的准确性
混淆矩阵和统计
参考
预测N Y.
N 28 20
Y 9 96
准确度:0.8105         

我们使用随机森林模型获得了0.81的准确度。让我们看看KNN的表现:


#训练knn模型
#Predicting使用knn模型
testSet $ pred_knn <-predict(object = model_knn,testSet [,predictors])
#检查随机森林模型的准确性
混淆矩阵和统计

预测N Y.
N 29 19
Y 2 103
准确度:0.8627       

我们能够通过单独的KNN模型获得0.86的准确度。在我们继续创建这三者的集合之前,让我们看看Logistic回归的表现。




#Training Logistic回归模型
#Predicting使用knn模型
testSet $ pred_lr <-predict(object = model_lr,testSet [,predictors])
#检查随机森林模型的准确性
混淆矩阵和统计
参考
预测N Y.
N 29 19
Y 2 103
准确度:0.8627        

逻辑回归也给出了0.86的准确度。

现在,让我们尝试用这些模型形成集合的不同方法,如我们所讨论的:

  • 平均:在此,我们将平均三个模型的预测。由于预测是“Y”或“N”,因此平均值对于此二进制分类没有多大意义。但是,我们可以对观察概率的平均值进行平均处理。


#Predicting概率
testSet $ pred_rf_prob <-predict(object = model_rf,testSet [,predictors],type ='prob')
testSet $ pred_knn_prob <-predict(object = model_knn,testSet [,predictors],type ='prob')
testSet $ pred_lr_prob <-predict(object = model_lr,testSet [,predictors],type ='prob')


#Spits到0.5的二进制类 多数表决:在多数表决中,我们将为大多数模型预测的观察指定预测。由于我们有三个模型用于二进制分类任务,因此无法实现平局。#多数投票 加权平均值:我们可以采用加权平均值,而不是采用简单平均值。通常,对于更准确的模型,预测的权重很高。让我们将0.5分配给logistic回归,将0.25分配给KNN和随机森林。
#Taking加权平均预测
#Spits到0.5的二进制类 在继续讨论之前,我想回顾一下我们之前讨论过的关于个体模型精度和模型间预测
  • 到目前为止,我们在顶层使用了简单的公式。
  • 相反,我们可以使用另一种机器学习模型,这实际上就是堆叠。
  • 我们可以使用线性回归来制作线性公式,用于在回归问题中进行预测,以便在分类问题的情况下将底层模型预测映射到结果或逻辑回归。

 

在同一个例子中,让我们尝试将逻辑回归和GBM应用为顶层模型。请记住,我们将采取以下步骤:

  1. 在训练数据上训练各个基础层模型。
  2. 预测使用每个基础层模型来训练数据和测试数据。
  3. 现在,再次对顶层模型进行训练,对底层模型进行训练数据的预测。
  4. 最后,使用顶层模型预测底层模型的预测,这些模型是为测试数据而做出的。

在步骤2中需要注意的一件非常重要的事情是,您应始终对训练数据进行包预测,否则基础层模型的重要性将仅取决于基础层模型可以如何调用训练数据。

 

  • 步骤1:在训练数据上训练各个基础层模型


#Defining 
fitControl < -  trainControl(
method =“cv”, savePredictions ='final',#保存最佳参数组合的折叠预测
classProbs = T#保存折叠预测的类概率
#
  • 步骤2:使用每个基础层模型预测训练数据和测试数据
步骤3:现在再次训练顶层模型对底层模型的预测已经对训练数据进行了预测

首先,让我们从GBM模型开始作为顶层模型。


 
#Predictors用于顶层模型
predictors_top <-c( 'OOF_pred_rf', 'OOF_pred_knn', 'OOF_pred_lr')
#GBM作为顶层模型

同样,我们也可以使用逻辑回归创建一个集合作为顶层模型。


#Logistic回归作为顶层模型
model_glm < -
( [,predictors_top],  trControl = fitControl,tuneLength = 3)
  • 步骤4:最后,使用顶层模型预测已经为测试数据而做出的底层模型的预测


#predict使用GBM顶层模型
测试集$ gbm_stacked <-predict(model_gbm,测试集[,predictors_top])
#predict使用logictic回归顶层模型
测试集$ glm_stacked <-predict(model_glm,测试集[,predictors_top])

请注意, 选择模型非常重要,以便从整体中获得最佳效果。

还有问题?联系我们!

相关文章
|
1月前
|
机器学习/深度学习 Python
堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能
本文深入探讨了堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能。文章详细介绍了堆叠的实现步骤,包括数据准备、基础模型训练、新训练集构建及元学习器训练,并讨论了其优缺点。
53 3
|
3月前
|
机器学习/深度学习 数据采集 算法
R语言中的机器学习库:caret与mlr的深度解析
【9月更文挑战第2天】Caret和mlr是R语言中两个非常重要的机器学习库,它们在数据预处理、模型构建、调优和评估等方面提供了丰富的功能。Caret以其易用性和集成性著称,适合初学者和快速原型开发;而mlr则以其全面性和可扩展性见长,适合处理复杂的机器学习项目。在实际应用中,用户可以根据具体需求和项目特点选择合适的库进行开发。无论是学术研究、商业智能还是教育场景,这两个库都能为数据科学家和机器学习爱好者提供强大的支持。
|
2月前
|
机器学习/深度学习 数据采集 人工智能
R语言是一种强大的编程语言,广泛应用于统计分析、数据可视化、机器学习等领域
R语言是一种广泛应用于统计分析、数据可视化及机器学习的强大编程语言。本文为初学者提供了一份使用R语言进行机器学习的入门指南,涵盖R语言简介、安装配置、基本操作、常用机器学习库介绍及实例演示,帮助读者快速掌握R语言在机器学习领域的应用。
117 3
|
2月前
|
机器学习/深度学习 并行计算 数据挖掘
R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域
【10月更文挑战第21天】R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域。本文将介绍R语言中的一些高级编程技巧,包括函数式编程、向量化运算、字符串处理、循环和条件语句、异常处理和性能优化等方面,以帮助读者更好地掌握R语言的编程技巧,提高数据分析的效率。
62 2
|
2月前
|
机器学习/深度学习 算法
【机器学习】迅速了解什么是集成学习
【机器学习】迅速了解什么是集成学习
|
3月前
|
机器学习/深度学习 人工智能 搜索推荐
如何让你的Uno Platform应用秒变AI大神?从零开始,轻松集成机器学习功能,让应用智能起来,用户惊呼太神奇!
【9月更文挑战第8天】随着技术的发展,人工智能与机器学习已融入日常生活,特别是在移动应用开发中。Uno Platform 是一个强大的框架,支持使用 C# 和 XAML 开发跨平台应用(涵盖 Windows、macOS、iOS、Android 和 Web)。本文探讨如何在 Uno Platform 中集成机器学习功能,通过示例代码展示从模型选择、训练到应用集成的全过程,并介绍如何利用 Onnx Runtime 等库实现在 Uno 平台上的模型运行,最终提升应用智能化水平和用户体验。
68 1
|
3月前
|
机器学习/深度学习 算法 前端开发
R语言基础机器学习模型:深入探索决策树与随机森林
【9月更文挑战第2天】决策树和随机森林作为R语言中基础且强大的机器学习模型,各有其独特的优势和适用范围。了解并熟练掌握这两种模型,对于数据科学家和机器学习爱好者来说,无疑是一个重要的里程碑。希望本文能够帮助您更好地理解这两种模型,并在实际项目中灵活应用。
|
3月前
|
机器学习/深度学习 存储 数据采集
Elasticsearch 与机器学习的集成
【9月更文第3天】Elasticsearch 不仅仅是一个强大的分布式搜索和分析引擎,它还是一个完整的数据平台,通过与 Kibana、Logstash 等工具结合使用,能够提供从数据采集、存储到分析的一站式解决方案。特别是,Elasticsearch 集成了机器学习(ML)功能,使得在实时数据流中进行异常检测和趋势预测成为可能。本文将详细介绍如何利用 Elasticsearch 的 ML 功能来检测异常行为或预测趋势。
118 4
|
2月前
|
Java Maven Docker
gitlab-ci 集成 k3s 部署spring boot 应用
gitlab-ci 集成 k3s 部署spring boot 应用
|
1月前
|
消息中间件 监控 Java
您是否已集成 Spring Boot 与 ActiveMQ?
您是否已集成 Spring Boot 与 ActiveMQ?
53 0