ML之FE:特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)

简介: ML之FE:特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)

输出结果


<class 'pandas.core.frame.DataFrame'>

RangeIndex: 768 entries, 0 to 767

Data columns (total 9 columns):

#   Column                    Non-Null Count  Dtype  

---  ------                    --------------  -----  

0   Pregnancies               768 non-null    int64  

1   Glucose                   768 non-null    int64  

2   BloodPressure             768 non-null    int64  

3   SkinThickness             768 non-null    int64  

4   Insulin                   768 non-null    int64  

5   BMI                       768 non-null    float64

6   DiabetesPedigreeFunction  768 non-null    float64

7   Age                       768 non-null    int64  

8   Outcome                   768 non-null    int64  

dtypes: float64(2), int64(7)

memory usage: 54.1 KB

None

  Pregnancies  Glucose  BloodPressure  SkinThickness   BMI  Outcome

0            6      148             72             35  33.6        1

1            1       85             66             29  26.6        0

2            8      183             64              0  23.3        1

3            1       89             66             23  28.1        0

4            0      137             40             35  43.1        1



实现代码


# ML之DS:特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)

import pandas as pd

data_frame=pd.read_csv('data_csv_xls\diabetes\diabetes.csv')

print(data_frame.info())

col_label='Outcome'

cols_other=['Pregnancies','Glucose','BloodPressure','SkinThickness','BMI']

data_X=data_frame[cols_other]

data_y_label_μ=data_frame[col_label]

data_dall = pd.concat([data_X, data_y_label_μ], axis=1)

print(data_dall.head())







相关文章
|
流计算 Java 监控
如何分析及处理 Flink 反压?
反压(backpressure)是实时计算应用开发中,特别是流式计算中,十分常见的问题。反压意味着数据管道中某个节点成为瓶颈,处理速率跟不上上游发送数据的速率,而需要对上游进行限速。
如何分析及处理 Flink 反压?
PR曲线、ROC曲线、AUC能干个啥
评判二分类分类器性能的指标有那么多,为什么PR曲线、ROC曲线、AUC值这几个用的比较多。本文从概念、代码实现方面着手进行分享。
PR曲线、ROC曲线、AUC能干个啥
|
机器学习/深度学习 存储 数据采集
【Python 机器学习专栏】PCA(主成分分析)在数据降维中的应用
【4月更文挑战第30天】本文探讨了主成分分析(PCA)在高维数据降维中的应用。PCA通过线性变换找到最大化方差的主成分,从而降低数据维度,简化存储和计算,同时去除噪声。文章介绍了PCA的基本原理、步骤,强调了PCA在数据降维、可视化和特征提取上的优势,并提供了Python实现示例。PCA广泛应用在图像压缩、机器学习和数据分析等领域,但降维后可能损失解释性,需注意选择合适主成分数量及数据预处理。
1499 1
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
1862 1
|
SQL 存储 人工智能
Flink 在蚂蚁实时特征平台的深度应用
本文整理自蚂蚁集团高级技术专家赵亮星云,在 Flink Forward Asia 2023 AI 特征工程专场的分享。
2345 3
Flink 在蚂蚁实时特征平台的深度应用
|
数据安全/隐私保护 Python
详解python中的类、模块、包的概念和区别
详解python中的类、模块、包的概念和区别
857 0
详解python中的类、模块、包的概念和区别
|
Ubuntu Linux 数据安全/隐私保护
如何在windows电脑上搭建Linux环境(手把手教安装虚拟机软件和使用云服务器)
如何在windows电脑上搭建Linux环境(手把手教安装虚拟机软件和使用云服务器)
|
机器学习/深度学习 存储 消息中间件
FeatHub:流批一体的实时特征工程平台
本次分享中,将介绍 FeatHub,一个由阿里云自研并开源的实时特征平台。我们将介绍 FeatHub 的架构设计,已经完成的工作,以及近期的发展计划。
FeatHub:流批一体的实时特征工程平台
|
存储 容灾 双11
|
分布式计算 Hadoop 分布式数据库
通过Job Committer保证Mapreduce/Spark任务数据一致性
并发地向目标存储系统写数据是分布式任务的一个天然特性,通过在节点/进程/线程等级别的并发写数据,充分利用集群的磁盘和网络带宽,实现高容量吞吐。并发写数据的一个主要需要解决的问题就是如何保证数据一致性的问题,本文主要介绍MapReduce/Spark如何通过Job Committer机制解决写数据一致性的问题,以及在OSS等对象存储上的解决方案。
608 0