备案控制台

开发者社区人工智能文章正文

ML之FE：特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)

2021-11-06 138

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： ML之FE：特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)

输出结果

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 768 entries, 0 to 767

Data columns (total 9 columns):

# Column Non-Null Count Dtype

--- ------ -------------- -----

0 Pregnancies 768 non-null int64

1 Glucose 768 non-null int64

2 BloodPressure 768 non-null int64

3 SkinThickness 768 non-null int64

4 Insulin 768 non-null int64

5 BMI 768 non-null float64

6 DiabetesPedigreeFunction 768 non-null float64

7 Age 768 non-null int64

8 Outcome 768 non-null int64

dtypes: float64(2), int64(7)

memory usage: 54.1 KB

None

Pregnancies Glucose BloodPressure SkinThickness BMI Outcome

0 6 148 72 35 33.6 1

1 1 85 66 29 26.6 0

2 8 183 64 0 23.3 1

3 1 89 66 23 28.1 0

4 0 137 40 35 43.1 1

实现代码

# ML之DS：特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)

import pandas as pd

data_frame=pd.read_csv('data_csv_xls\diabetes\diabetes.csv')

print(data_frame.info())

col_label='Outcome'

cols_other=['Pregnancies','Glucose','BloodPressure','SkinThickness','BMI']

data_X=data_frame[cols_other]

data_y_label_μ=data_frame[col_label]

data_dall = pd.concat([data_X, data_y_label_μ], axis=1)

print(data_dall.head())

文章标签：

Python

机器学习/深度学习

一个处女座的程序猿

目录

相关文章

吃果冻不吐果冻皮

|

机器学习/深度学习算法数据可视化

浅析特征数据离散化的几种方法（上）

什么是离散化？离散化就是把无限空间中有限的个体映射到有限的空间中去，以此提高算法的时空效率。通俗的说，离散化是在不改变数据相对大小的条件下，对数据进行相应的缩小。例如：

吃果冻不吐果冻皮

948 0 0

vohelon

|

27天前

|

自然语言处理数据挖掘

数据特征包括分布特征、统计特征、对比特征、帕累托特征和文本特征

数据特征包括分布特征、统计特征、对比特征、帕累托特征和文本特征

vohelon

36 4 4

vohelon

|

27天前

|

机器学习/深度学习数据挖掘

数据特征

vohelon

26 1 1

拓端数据部落

|

5月前

|

算法数据可视化 Python

【视频】逆变换抽样将数据标准化和R语言结构化转换：BOX-COX、凸规则变换方法

【视频】逆变换抽样将数据标准化和R语言结构化转换：BOX-COX、凸规则变换方法

拓端数据部落

57 1 1

拓端数据部落

|

5月前

|

数据可视化

R语言非参数模型厘定保险费率：局部回归、广义相加模型GAM、样条回归

R语言非参数模型厘定保险费率：局部回归、广义相加模型GAM、样条回归

拓端数据部落

54 0 0

拓端数据部落

|

5月前

R语言中使用线性模型、回归决策树自动组合特征因子水平

R语言中使用线性模型、回归决策树自动组合特征因子水平

拓端数据部落

30 0 0

半颗糖也甜入人心

|

机器学习/深度学习算法开发者

特征生成（特征创建）

特征生成（特征创建）

半颗糖也甜入人心

200 0 0

吃果冻不吐果冻皮

|

数据采集机器学习/深度学习算法

浅析特征数据离散化的几种方法（下）

什么是离散化？离散化就是把无限空间中有限的个体映射到有限的空间中去，以此提高算法的时空效率。通俗的说，离散化是在不改变数据相对大小的条件下，对数据进行相应的缩小。例如：

吃果冻不吐果冻皮

599 0 0

计算机视觉cv

|

存储机器学习/深度学习数据可视化

特征工程之类别特征

特征工程之类别特征

计算机视觉cv

232 0 0

fanstuck

|

机器学习/深度学习数据采集算法

数据预处理归一化详细解释

数据预处理归一化详细解释

fanstuck

541 0 0

热门文章

最新文章

C++模板初阶

如何使用被信任的证书来配置SLB HTTPS协议，使slb站点支持ssl

Linux命令行操作：使用“more“命令进行分页显示

vi/vim命令复习和练习

微软发布 Microsoft SoftGrid 4.1 SP1 及 4.2 累计更新补丁

DDD －使用聚合（Aggregate）来设计类库

个人对架构设计理解

CSS魔法堂：你真的理解z-index吗？

ASP.NET MVC Routing Debugger路由调试工具

如何在Windows2008下安装Live Messenger2009

软件工程师，是时候了解下Rust编程语言了

Maven 快照(SNAPSHOT)

特殊的浮点值

2024年前端开发者的终极工具集

2024年开发者工具箱：提升生产力的十大利器

Maven 依赖管理

Maven 项目测试

HTML5 Web SQL 数据库详解

探索开发者工具箱：提升生产力的利器

相关课程

更多

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

【算法实战】15. 利用SVD来简化数据

【算法实战】10. 树回归算法

【算法实战】14. 利用PCA来简化数据

机器学习基础与回归算法

【医学搜索Query相关性判断】赛题及baseline解读

相关电子书

更多

纯干货|机器学习中梯度下降法的分类及对比分析

纯干货 | 机器学习中梯度下降法的分类及对比分析

高维向量检索技术在PG中的设计与实践

相关实验场景

更多

使用PAI-快速开始，低代码实现大语言模型微调和部署

以客服场景意图分类为例写Prompt

如何快速训练大模型

推荐系统入门之使用ALS算法实现打分预测

下一篇

无影云桌面