ML之FE:特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)(daiding)

简介: ML之FE:特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)(daiding)


目录

特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)

输出结果

实现代码


特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)

输出结果

1. <class 'pandas.core.frame.DataFrame'>
2. RangeIndex: 768 entries, 0 to 767
3. Data columns (total 9 columns):
4. #   Column                    Non-Null Count  Dtype  
5. ---  ------                    --------------  -----  
6. 0   Pregnancies               768 non-null    int64  
7. 1   Glucose                   768 non-null    int64  
8. 2   BloodPressure             768 non-null    int64  
9. 3   SkinThickness             768 non-null    int64  
10. 4   Insulin                   768 non-null    int64  
11. 5   BMI                       768 non-null    float64
12. 6   DiabetesPedigreeFunction  768 non-null    float64
13. 7   Age                       768 non-null    int64  
14. 8   Outcome                   768 non-null    int64  
15. dtypes: float64(2), int64(7)
16. memory usage: 54.1 KB
17. None
18.    Pregnancies  Glucose  BloodPressure  SkinThickness   BMI  Outcome
19. 0            6      148             72             35  33.6        1
20. 1            1       85             66             29  26.6        0
21. 2            8      183             64              0  23.3        1
22. 3            1       89             66             23  28.1        0
23. 4            0      137             40             35  43.1        1

实现代码

1. # ML之DS:特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)
2. import pandas as pd
3. 
4. data_frame=pd.read_csv('data_csv_xls\diabetes\diabetes.csv')
5. print(data_frame.info())
6. 
7. col_label='Outcome'
8. cols_other=['Pregnancies','Glucose','BloodPressure','SkinThickness','BMI']
9. data_X=data_frame[cols_other]
10. data_y_label_μ=data_frame[col_label]
11. data_dall = pd.concat([data_X, data_y_label_μ], axis=1)
12. print(data_dall.head())


相关文章
|
8月前
|
机器学习/深度学习 算法 数据可视化
无监督学习的集成方法:相似性矩阵的聚类
在机器学习中,术语Ensemble指的是并行组合多个模型,这个想法是利用群体的智慧,在给出的最终答案上形成更好的共识。
157 0
|
2月前
|
数据可视化 算法
R语言近似贝叶斯计算MCMC(ABC-MCMC)轨迹图和边缘图可视化
R语言近似贝叶斯计算MCMC(ABC-MCMC)轨迹图和边缘图可视化
|
机器学习/深度学习 算法 数据可视化
浅析特征数据离散化的几种方法(上)
什么是离散化? 离散化就是把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。例如:
|
2月前
|
数据可视化 Python
PYTHON 贝叶斯概率推断序列数据概率和先验、似然和后验图可视化
PYTHON 贝叶斯概率推断序列数据概率和先验、似然和后验图可视化
|
2月前
R语言中使用线性模型、回归决策树自动组合特征因子水平
R语言中使用线性模型、回归决策树自动组合特征因子水平
|
机器学习/深度学习 算法 开发者
特征生成(特征创建)
特征生成(特征创建)
|
算法
如何使用PCA去除数据集中的多重共线性
如何使用PCA去除数据集中的多重共线性
238 0
如何使用PCA去除数据集中的多重共线性
|
数据采集 机器学习/深度学习 算法
浅析特征数据离散化的几种方法(下)
什么是离散化? 离散化就是把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。例如:
|
机器学习/深度学习 算法
特征工程:什么是「组合特征」?要如何处理「高维组合特征」?
为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。在实际问题中,需要面对多种高维特征,简单地两两组合,依然容易存在参数过多、过拟合等问题。
258 0
|
机器学习/深度学习 自然语言处理 算法
03_特征工程—特征转换
03_特征工程—特征转换
319 0
03_特征工程—特征转换