Python 填补缺失值 Pandas SimpleImputer 随机森林模型（机器学习）

2023-01-17 196

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，5000CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： Python 填补缺失值 Pandas SimpleImputer 随机森林模型（机器学习）

✌ 填补缺失值

1、✌ 导入相关库

import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor

2、✌ 创建数据

x=np.random.randint(1,100,(10000,5))
y=np.random.randint(1,10,10000)
rows=np.random.randint(0,1000,20)
cols=np.random.randint(0,5,20)
x=pd.DataFrame(x)
x.iloc[rows,cols]=np.nan

3、✌ 利用Pandas填补数据

x1=x.copy()
for i in x1.columns:
    x1[x1.isnull()]=x1[i].mean()
x1.isnull().sum()

4、✌ sklearn库填补

from sklearn.impute import SimpleImputer
sim=SimpleImputer(missing_values=np.nan,strategy='constant',fill_value=0)
x2=x.copy()
x2=sim.fit_transform(x2)
pd.DataFrame(x2).isnull().sum()

5、✌ 利用模型预测

from sklearn.ensemble import RandomForestRegressor  
x3= x.copy()
sortindex = np.argsort(x3.isnull().sum(axis=0)).values
for i in sortindex:
    #构建我们的新特征矩阵和新标签
    df = x3
    fillc = df.iloc[:,i]
    df = pd.concat([df.iloc[:,df.columns != i],pd.DataFrame(y)],axis=1)
    #在新特征矩阵中，对含有缺失值的列，进行0的填补
    df_0 =SimpleImputer(missing_values=np.nan,
                        strategy='constant',
                        fill_value=0).fit_transform(df)
    #找出我们的训练集和测试集
    y_train = fillc[fillc.notnull()]
    y_test = fillc[fillc.isnull()]
    x_train = df_0[y_train.index,:]
    x_test = df_0[y_test.index,:]
    clf = RandomForestRegressor(n_estimators=100)
    clf = clf.fit(x_train, y_train)
    y_pred = clf.predict(x_test)
    #将填补好的特征返回到我们的原始的特征矩阵中
    x3.loc[x3.iloc[:,i].isnull(),i] = y_pred
x3.isnull().sum()

Python 填补缺失值 Pandas SimpleImputer 随机森林模型（机器学习）

✌ 填补缺失值

1、✌ 导入相关库

2、✌ 创建数据

3、✌ 利用Pandas填补数据

4、✌ sklearn库填补

5、✌ 利用模型预测

ModelScope模型即服务

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

推荐镜像

Python 填补缺失值 Pandas SimpleImputer 随机森林模型 （机器学习）

✌ 填补缺失值

1、✌ 导入相关库

2、✌ 创建数据

3、✌ 利用Pandas填补数据

4、✌ sklearn库填补

5、✌ 利用模型预测

ModelScope模型即服务

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

推荐镜像

Python 填补缺失值 Pandas SimpleImputer 随机森林模型（机器学习）