ML之FE:特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)

简介: ML之FE:特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)

输出结果


<class 'pandas.core.frame.DataFrame'>

RangeIndex: 768 entries, 0 to 767

Data columns (total 9 columns):

#   Column                    Non-Null Count  Dtype  

---  ------                    --------------  -----  

0   Pregnancies               768 non-null    int64  

1   Glucose                   768 non-null    int64  

2   BloodPressure             768 non-null    int64  

3   SkinThickness             768 non-null    int64  

4   Insulin                   768 non-null    int64  

5   BMI                       768 non-null    float64

6   DiabetesPedigreeFunction  768 non-null    float64

7   Age                       768 non-null    int64  

8   Outcome                   768 non-null    int64  

dtypes: float64(2), int64(7)

memory usage: 54.1 KB

None

  Pregnancies  Glucose  BloodPressure  SkinThickness   BMI  Outcome

0            6      148             72             35  33.6        1

1            1       85             66             29  26.6        0

2            8      183             64              0  23.3        1

3            1       89             66             23  28.1        0

4            0      137             40             35  43.1        1



实现代码


# ML之DS:特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)

import pandas as pd

data_frame=pd.read_csv('data_csv_xls\diabetes\diabetes.csv')

print(data_frame.info())

col_label='Outcome'

cols_other=['Pregnancies','Glucose','BloodPressure','SkinThickness','BMI']

data_X=data_frame[cols_other]

data_y_label_μ=data_frame[col_label]

data_dall = pd.concat([data_X, data_y_label_μ], axis=1)

print(data_dall.head())







相关文章
|
机器学习/深度学习 算法 数据可视化
浅析特征数据离散化的几种方法(上)
什么是离散化? 离散化就是把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。例如:
|
27天前
|
自然语言处理 数据挖掘
数据特征包括分布特征、统计特征、对比特征、帕累托特征和文本特征
数据特征包括分布特征、统计特征、对比特征、帕累托特征和文本特征
36 4
|
27天前
|
机器学习/深度学习 数据挖掘
数据特征
数据特征
26 1
|
5月前
|
算法 数据可视化 Python
【视频】逆变换抽样将数据标准化和R语言结构化转换:BOX-COX、凸规则变换方法
【视频】逆变换抽样将数据标准化和R语言结构化转换:BOX-COX、凸规则变换方法
|
5月前
|
数据可视化
R语言非参数模型厘定保险费率:局部回归、广义相加模型GAM、样条回归
R语言非参数模型厘定保险费率:局部回归、广义相加模型GAM、样条回归
|
5月前
R语言中使用线性模型、回归决策树自动组合特征因子水平
R语言中使用线性模型、回归决策树自动组合特征因子水平
|
机器学习/深度学习 算法 开发者
特征生成(特征创建)
特征生成(特征创建)
|
数据采集 机器学习/深度学习 算法
浅析特征数据离散化的几种方法(下)
什么是离散化? 离散化就是把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。例如:
|
存储 机器学习/深度学习 数据可视化
特征工程之类别特征
特征工程之类别特征
|
机器学习/深度学习 数据采集 算法
数据预处理归一化详细解释
数据预处理归一化详细解释
541 0
数据预处理归一化详细解释
下一篇
无影云桌面