sklearn中随机森林分类器RandomForestClassifier的实际应用

简介: sklearn中随机森林分类器RandomForestClassifier的实际应用

假设我们有一份CSV文件(以部分为例):car_rf.csv


0a2653c851af460fa595bd959398a8f1.png


要用随机森林对其进行分类,其中最后一列视为标签,其余列视为特征


# coding = utf-8
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from IPython.display import Image
from sklearn import tree
import pydotplus
def read_dataset(fname = u"/car_rf.csv"):
    data = pd.read_csv(fname, index_col=0,encoding="utf-8",dtype=str)
    data = data.fillna(0)
    temp_col_list = ["",""] # ""中填特征的列名
    for i in temp_col_list:
        lables = data[i].unique().tolist()
        data[i] = data[i].apply(lambda n: lables.index(n))
    return data
train = read_dataset()
# ""中填标签的列名
y = train[""].values
X = train.drop([""], axis=1).values
rf = RandomForestClassifier(n_estimators=4, max_depth=2)
rf = rf.fit(X,y)
Estimators = rf.estimators_
for index, model in enumerate(Estimators):
    filename = str(index) + '.pdf'
    dot_data = tree.export_graphviz(model , out_file=None)
    graph = pydotplus.graph_from_dot_data(dot_data)
    Image(graph.create_png())
    graph.write_pdf(filename)
相关文章
|
6月前
|
算法
KNN分类算法
KNN分类算法
134 47
|
6月前
|
机器学习/深度学习 算法 数据挖掘
sklearn-决策树
sklearn-决策树
60 0
|
6月前
|
机器学习/深度学习 存储 算法
sklearn应用线性回归算法
sklearn应用线性回归算法
76 0
|
机器学习/深度学习 算法 计算机视觉
使用sklearn进行特征选择
背景 一个典型的机器学习任务,是通过样本的特征来预测样本所对应的值。如果样本的特征少,我们会考虑增加特征。而现实中的情况往往是特征太多了,需要减少一些特征。
WK
|
2月前
|
机器学习/深度学习 算法 数据挖掘
什么是逻辑回归分类器
逻辑回归分类器是一种广泛应用于二分类问题的统计方法,它基于线性组合并通过Sigmoid函数将输出映射为概率值进行分类。核心原理包括:线性组合假设函数、Sigmoid函数转换及基于概率阈值的预测。该模型计算高效、解释性强且鲁棒性好,适用于信用评估、医疗诊断、舆情分析和电商推荐等多种场景。利用现有机器学习库如scikit-learn可简化其实现过程。
WK
29 1
|
4月前
|
机器学习/深度学习 算法 API
Sklearn中的监督学习全览:从线性回归到SVM
【7月更文第23天】 在机器学习的广阔领域中,监督学习占据着举足轻重的地位,它通过已标记的数据集学习输入与输出之间的映射关系,进而对未知数据进行预测。`scikit-learn`(简称sklearn)作为Python中最受欢迎的机器学习库之一,提供了丰富的监督学习算法。本篇文章将带您深入探索sklearn中的监督学习世界,从简单的线性回归到复杂的支撑向量机(SVM),并通过实战代码示例,让您对这些算法有更直观的理解。
72 8
|
5月前
|
机器学习/深度学习 数据可视化
Sklearn中逻辑回归建模
分类模型评估通常涉及准确率、召回率和F1值。准确率是正确分类样本的比例,但在类别不平衡时可能误导,例如一个模型总是预测多数类,即使误分类少数类也能有高准确率。召回率关注的是真正类被正确识别的比例,而精确率则衡量预测为正类的样本中真正为正类的比例。F1值是精确率和召回率的调和平均数,提供了两者之间的平衡。在sklearn中,可以使用`recall_score`, `precision_score` 和 `f1_score` 函数来计算这些指标。在类别重要性不同时,需根据业务需求选择合适的评估标准。
|
12月前
|
机器学习/深度学习 存储
随机森林是什么?
随机森林(Random Forest)是将多个决策树(Decision Tree)组合在一起形成一个强大的分类器或回归器,是一种集成学习(Ensemble Learning)方法。 随机森林的主要思想是通过随机选择样本和特征来构建多个决策树,并通过集成这些决策树的预测结果来达到更准确的分类或回归结果。具体步骤如下:
|
6月前
|
机器学习/深度学习 算法
R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病-2
R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病
|
6月前
|
机器学习/深度学习 算法 数据挖掘
R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病-1
R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病