随机森林 Random Forest

简介: 随机森林 Random Forest

正文


随机森林是由决策树通过Bagging策略训练而成的,即:

Bagging+DecisionTree=RandomForest

随机森林的算法执行过程:

设有训练数据集S={(x1,y1),(x2,y2),...,(xN,yN)}S={(x1,y1),(x2,y2),...,(xN,yN)}

其中xi∈X⊆Rnxi∈X⊆Rn

弱学习器迭代次数TT

输出强学习器F(x)

1、在第t,t=1,2,...,Tt,t=1,2,...,T次随机取样中,采NN次样,得到包含NN个样本的采样集DtDt

2、将采样集DtDt使用CART方法训练第tt个弱学习器Gt(x)Gt(x)

3、如果是分类算法预测,则<script type="math/tex" id="MathJax-Element-585">T</script>个弱学习器投出最多票数的类别或者类别之一为最终类别;如果是回归算法,T个弱学习器得到的回归结果进行算术平均得到的值为最终模型输出。

随机森林算法的优缺点:


优点:


训练可以高度并行化,对于大样本训练有速度优势;

由于可以随机选择决策树节点划分特征,这样在样本特征维度很高的时候,仍然能高效的进行模型训练;

在训练后,可以给出各个特征对于输出的重要性;

由于采用了随机采样,训练出的模型的方差小,泛化能力强;

相对于Boosting系列的Adaboost和GBDT, RandomForest实现比较简单;

对部分特征缺失不敏感。


缺点:


在某些噪音比较大的样本集上,RF模型容易陷入过拟合;

取值划分比较多的特征容易对RF的决策产生更大的影响,从而影响拟合的模型的效果;

相对于基于决策树的Boosting的GBDT算法来说,想要达到一个比较好的效果,弱分类器的个数远高于GBDT,也就是说RandomForest模型在高维大数据集上训练出的模型太大。

相关文章
|
9月前
|
算法
logistic算法
logistic算法
78 0
|
8月前
|
存储 算法 Serverless
Regression算法
Regression算法
131 2
|
8月前
|
机器学习/深度学习
基于机器学习模型预测信用卡潜在用户(XGBoost、LightGBM和Random Forest)(二)
基于机器学习模型预测信用卡潜在用户(XGBoost、LightGBM和Random Forest)(二)
110 1
|
8月前
|
机器学习/深度学习 数据采集 数据可视化
基于机器学习模型预测信用卡潜在用户(XGBoost、LightGBM和Random Forest)(一)
基于机器学习模型预测信用卡潜在用户(XGBoost、LightGBM和Random Forest)(一)
129 0
基于机器学习模型预测信用卡潜在用户(XGBoost、LightGBM和Random Forest)(一)
|
8月前
|
机器学习/深度学习 算法 索引
Logistic算法
Logistic算法
70 2
|
9月前
|
机器学习/深度学习 算法
逻辑回归(Logistic Regression)详解
逻辑回归(Logistic Regression)详解
53 0
|
9月前
|
机器学习/深度学习 数据采集 算法
随机森林(Random Forest)
随机森林(Random Forest)是一种集成学习方法,它通过构建多个决策树并将它们的预测结果综合起来来提高模型的预测性能。随机森林是一种非常强大的机器学习算法,可以用于分类和回归问题。它具有较高的准确性和鲁棒性,能够处理大规模数据集和缺失数据,并且不容易过拟合。
196 2
|
机器学习/深度学习 数据采集
2D Logistic Regression
2D Logistic Regression 是一种用于解决二分类问题的机器学习模型,它是 Logistic Regression 在多维空间中的扩展。在 2D Logistic Regression 中,我们使用一个二维平面(或多维空间中的超平面)来将不同类别的数据分开。
94 1
|
机器学习/深度学习 算法 API
逻辑回归(Logistic Regression)
逻辑回归(Logistic Regression)是一种用于解决分类问题的统计学习方法。它是一种广义线性模型,用于估计二分类问题中的概率。
161 2
|
机器学习/深度学习 数据采集
Logistic Regression
机器学习中的逻辑回归(Logistic Regression)是一种用于解决分类问题的线性模型。它通过拟合一条直线(或平面),将输入变量与输出变量(通常为二值变量,如 0 或 1)之间的关系表示出来。
70 0