独热编码的两种实现形式

简介: 独热编码的两种实现形式

独热编码的两种实现形式:

 OneHotEncoderDictVectorizer是两种常用的特征向量化方法,用于将分类特征转换为数值特征。但还是有一定的区别不管是再输入格式还是在输出类型上都有一些不同。

区别:

1. 输入格式要求:

o OneHotEncoder:接受二维数组或稀疏矩阵作为输入。需要先对分类特征进行编码为整数标签,然后再使用OneHotEncoder进行转换。

o DictVectorizer:接受字典列表或Pandas DataFrame作为输入。每个字典表示一个样本,键表示特征名称,值表示特征值。

1. 输出类型:

o OneHotEncoder:输出稀疏矩阵。对于大规模数据集和高维度特征,可以节省内存空间。

o DictVectorizer:输出稠密矩阵。对于小规模数据集和低维度特征,输出的是一个数组。

3.处理缺失值:

o OneHotEncoder:不直接处理缺失值,需要在进行编码之前对缺失值进行处理。

o DictVectorizer:可以通过设置sparse=False参数将缺失值编码为0或使用其他指定的值。

4.特征名称的处理:

o OneHotEncoder:不保留特征名称,只生成数值编码后的特征。

o DictVectorizer:保留特征名称,可以通过get_feature_names()方法获取特征名称。

基础铺垫:

 X.to_dict()这将返回一个字典,其中键是特征列的名称,值是特征列对应的 Series 对象。

image.png image.png

X.to_dict():

image.png X.to_dict(orient='records'):

image.png  

 X.values.tolist()这将返回特征矩阵 X 的值作为一个二维列表。每一行代表一个样本,每一列代表一个特征。这种方法将DataFrame转换为一个二维列表,可以方便地在某些情况下使用,例如一些需要输入列表形式的机器学习算法。 image.png image.png 独热编码实现:

方法一:
image.png image.png
方法二:

image.png image.png

总结:

总的来说,OneHotEncoder适用于处理整数标签编码的分类特征,输出稀疏矩阵,不处理缺失值,并且需要显式拟合和转换数据。DictVectorizer适用于处理字典格式或DataFrame格式的分类特征,输出稠密矩阵,可以处理缺失值,并且不需要显式拟合。选择哪种方法取决于数据的特点和使用的上下文。

 

目录
相关文章
|
JavaScript
uniapp+vue3路由跳转传参
uniapp+vue3路由跳转传参
687 0
|
数据采集 存储 数据可视化
辽宁链家新房数据采集与可视化实现
本文介绍了利用Python网络爬虫技术从链家网爬取辽宁省大连市和沈阳市的新房数据,并通过数据清洗、统计和可视化分析,揭示房源分布和价格特征,帮助用户做出更明智的购房决策。
276 0
|
机器学习/深度学习 存储 算法
One-Hot编码介绍
【10月更文挑战第2天】
|
运维 网络协议 API
入门网络,少不了这份详细的网络基础学习指南!
入门网络,少不了这份详细的网络基础学习指南!
696 0
|
机器学习/深度学习 生物认证 语音技术
声纹识别入门:原理与基础知识
【10月更文挑战第16天】声纹识别(Voice Biometrics)是生物特征识别技术的一种,它通过分析个人的语音特征来验证身份。与指纹识别或面部识别相比,声纹识别具有非接触性、易于远程操作等特点,因此在电话银行、客户服务、智能家居等领域得到了广泛应用。
2999 0
|
机器学习/深度学习 存储 自然语言处理
【机器学习】LoRA:大语言模型中低秩自适应分析
【机器学习】LoRA:大语言模型中低秩自适应分析
862 5
|
机器学习/深度学习 算法 Python
在Python中,独热编码(One-Hot Encoding)
在Python中,独热编码(One-Hot Encoding)
1545 8
|
SQL 分布式计算 关系型数据库
【数据采集与预处理】数据传输工具Sqoop
【数据采集与预处理】数据传输工具Sqoop
1823 0
【每日一记】ACL基本概念(匹配流量、路由条目、书写、规则.....)
【每日一记】ACL基本概念(匹配流量、路由条目、书写、规则.....)
1017 1