机器学习One-Hot编码

简介: 机器学习One-Hot编码

1 什么是One-Hot编码 ?

在计算机科学中,数据可以用很多不同的方式表示,自然而然地,每一种方式在某些领域都有其优点和缺点。

由于计算机无法处理分类数据,因为这些类别对它们没有意义,如果我们希望计算机能够处理这些信息,就必须准备好这些信息。

此操作称为预处理。 预处理的很大一部分是编码 - 以计算机可以理解的方式表示每条数据(该名称的字面意思是“转换为计算机代码”)。

在计算机科学的许多分支中,尤其是机器学习和数字电路设计中,One-Hot Encoding 被广泛使用。

在本文中,我们将解释什么是 one-hot 编码,并使用一些流行的选择(Pandas 和 Scikit-Learn)在 Python 中实现它。 我们还将比较它与计算机中其他类型表示的有效性、优点和缺点,以及它的应用。


One-hot Encoding 是一种向量表示,其中向量中的所有元素都是 0,除了一个,它的值是 1,其中 1 表示指定元素类别的布尔值。


还有一个类似的实现,称为One-Cold Encoding,其中向量中的所有元素都是 1,除了 1 的值是 0。


例如,[0, 0, 0, 1, 0] 和 [1 ,0, 0, 0, 0] 可以是One-hot 向量的一些示例。 与此类似的技术,也用于表示数据,例如统计中的虚拟变量。


这与其他编码方案非常不同,其他编码方案都允许多个位的值为 1。 下表比较了从 0 到 7 的数字在二进制、格雷码和 one-hot 中的表示:


b9818ff42f52a36e3cae47e26ce3fbba.png


实际上,对于每个 one-hot 向量,我们会问 n 个问题,其中 n 是我们拥有的类别数:


这是数字1吗? 这是数字2吗? …这是数字7吗?


每个“0”都是“假”,一旦我们在向量中找到“1”,问题的答案就是“真”。


One-hot 编码将分类特征转换为一种更适合分类和回归算法的格式。 它在需要多种类型数据表示的方法中非常有用。


2 One-Hot编码示例

下面将会通过一些实际的例子来说明一下,对于上面的解释,其实 One-Hot 编码 也可称为 One of N encoding

93cda64ccbbbf9cfeaa395341ce34884.png

51bad01da790ed004ab0157c6c34645d.png



我们可以从上表中看出,与二进制或格雷码相比,one-hot 表示需要更多的数字。 对于n个数字,one-hot编码只能表示n个值,而Binary或Gray编码可以用n个数字表示2n个值。


假设对于学生的性别【男,女】进行编码

根据上面的官方概念,采用 N 位状态寄存器对 N 个状态进行编码,这里的特征有2个,也就是 N = 2,所以可以有下面的表示方式:

男 → rightarrow→ [1, 0] ;

女 → rightarrow→ [0, 1] ;

假设对于学生的年级【小学,初中,高中】进行编码

如上,可以有如下表示:

小学 → rightarrow→ [1, 0, 0] ;

初中 → rightarrow→ [0, 1, 0] ;

高中 → rightarrow→ [0, 0, 1] ;

假设对于学生的特长【钢琴,绘画,舞蹈,篮球】进行编码

如上,可以有如下表示:

钢琴 → rightarrow→ [1, 0, 0, 0,] ;

绘画 → rightarrow→ [0, 1, 0, 0] ;

舞蹈 → rightarrow→ [0, 0, 1, 0] ;

篮球 → rightarrow→ [0, 0, 0, 1] ;

那么,如果是这样的一个样本 【男,初中,篮球】,就可以这么表示:[1, 0, 0, 1, 0, 0, 0, 0, 1] 。


3 sklearn中的OneHotEncoder

from sklearn.preprocessing import OneHotEncoder
# 模拟的训练数据
X = [[0, 0, 2],
     [1, 2, 3],
     [1, 1, 0],
     [0, 0, 1]
     ]
enc = OneHotEncoder(sparse=False)
enc.fit(X)
# 测试数据
x_test = [[1, 0, 2]]
result = enc.transform(x_test)
print(result)

输出结果:

[[0. 1. 1. 0. 0. 0. 0. 1. 0.]]

上述代码中的有4个训练数据,特征数为3,对应上边的例子,训练数据的第一列都为 0 1 1 0,即对应学生的性别特征【男,女】;第二列 0 2 1 0 正好对应年级特征 【小学,初中,高中】;第三列 2 3 0 1 则正好对应特长这一特征【钢琴,绘画,舞蹈,篮球】;训练数据1:0, 0, 2 表示【男,小学,舞蹈】,其余类似;测试数据 1, 0, 2 表示【女,小学,舞蹈】,我们根据 2 中的示例,可以计算出 One-Hot 编码为:[0, 1, 1, 0, 0, 0, 0, 1, 0],跟代码运行出的编码也是一致的。


b56829f8f13ecab171afd4633d022f00.png


4 One-hot编码在机器学习领域的应用

如上所述,计算机不太擅长处理分类数据。 虽然我们很好地理解分类数据,但这是由于计算机不具备的一种先决知识。


大多数机器学习技术和模型使用非常有限的数据集(通常是二进制)。 神经网络消耗数据并产生 0…1 范围内的结果,我们很少会超出该范围。


简而言之,绝大多数机器学习算法都会接收样本数据(“训练数据”),从中提取特征。 基于这些特征,创建了一个数学模型,然后用于进行预测或决策,而无需明确编程来执行这些任务。


一个很好的例子是分类,其中输入在技术上可以是无界的,但输出通常仅限于几个类别。 在二元分类的情况下(假设我们正在教一个神经网络对猫和狗进行分类),我们的映射为 0 代表猫,1 代表狗。


大多数情况下,我们希望对其进行预测的训练数据是分类的,就像上面提到的带有水果的例子一样。 同样,虽然这对我们很有意义,但这些词本身对算法没有意义,因为它不理解它们。


在这些算法中使用one-hot编码来表示数据在技术上不是必需的,但如果我们想要一个有效的实现,它非常有用.

目录
相关文章
|
机器学习/深度学习 算法 数据可视化
Machine Learning机器学习之高维数据降维(主成分分析PCA、线性判别分析、自编码器超级无敌详细讲解)
Machine Learning机器学习之高维数据降维(主成分分析PCA、线性判别分析、自编码器超级无敌详细讲解)
|
2月前
|
机器学习/深度学习 数据采集 算法
量子机器学习入门:三种数据编码方法对比与应用
在量子机器学习中,数据编码方式决定了量子模型如何理解和处理信息。本文详解角度编码、振幅编码与基础编码三种方法,分析其原理、实现及适用场景,帮助读者选择最适合的编码策略,提升量子模型性能。
241 8
|
机器学习/深度学习 算法 C++
机器学习归一化特征编码(二)
这篇文档讨论了机器学习中的特征编码,特别是独热编码(OneHotEncoder)在处理离散变量时的作用。它指出,对于多分类变量,独热编码是常用方法,但对二分类变量通常不需要。在Python的`sklearn`库中,`OneHotEncoder`可以用来实现这一过程,并可以通过设置`drop='if_binary'`来忽略二分类变量。文档还提到了逻辑回归,解释了正则化参数`C`和`penalty`,并列举了不同的优化算法,如`liblinear`、`lbfgs`等。
|
机器学习/深度学习 算法 数据处理
机器学习归一化特征编码(一)
特征缩放是机器学习预处理的关键步骤,它包括归一化和标准化。归一化通过最大最小值缩放,将数据转换到[0,1]区间,有助于梯度下降算法更快收敛,减少数值较大特征的影响。标准化则通过减去均值并除以标准差,确保数据具有零均值和单位方差,适用于关注数据分布情况的算法。例如,欧氏距离计算时,未归一化的特征可能导致模型偏向数值较大的特征。归一化能提升模型精度,尤其是当距离度量如欧式距离时。常见的实现方法有`MinMaxScaler`,它将每个特征值缩放到用户指定的范围,如[0,1]。而`StandardScaler`执行Z-Score标准化,数据分布符合标准正态分布。
|
机器学习/深度学习 数据采集 算法
DEL编码新药预测的多种机器学习模型对比
数据集描述 数据集中每个分子具有三个构建块。该数据集用于表示分子的三个构建块是否能够与蛋白质相结合,如果能够结合标记为binds为1,否则binds为0. 格式描述如下: • id- 我们用来识别分子结合靶标对的独特example_id。 • buildingblock1_smiles- 在SMILES中,第一个构建块的结构 • buildingblock2_smiles- 在SMILES中,第二个构建块的结构 • buildingblock3_smiles- 在SMILES中,第三个构建块的结构 • molecule_smiles- 完全组装的分子的结构,在SMILES中。这包括三个构建单元
|
机器学习/深度学习 分布式计算 算法
【机器学习】Spark ML 对数据特征进行 One-Hot 编码
One-Hot 编码是机器学习中将离散特征转换为数值表示的方法,每个取值映射为一个二进制向量,常用于避免特征间大小关系影响模型。Spark ML 提供 OneHotEncoder 进行编码,输入输出列可通过 `inputCol` 和 `outputCol` 参数设置。在示例中,先用 StringIndexer 对类别特征编码,再用 OneHotEncoder 转换,最后展示编码结果。注意 One-Hot 编码可能导致高维问题,可结合实际情况选择编码方式。
394 6
|
机器学习/深度学习
机器学习中label如何实现多标签编码?
介绍了在机器学习中处理多标签分类问题时的一种标签编码方法。
257 0
|
机器学习/深度学习 安全 算法
机器学习 -之one-hot编码技术
One-hot编码是一种数据处理技术,主要用于将分类变量转换为适合机器学习算法处理的格式。
331 0
|
机器学习/深度学习 数据采集 算法
【Python机器学习专栏】使用Scikit-learn进行数据编码
【4月更文挑战第30天】本文介绍了Python Scikit-learn库在机器学习数据预处理中的作用,尤其是数据编码。数据编码将原始数据转化为算法可理解的格式,包括标签编码(适用于有序分类变量)、独热编码(适用于无序分类变量)和文本编码(如词袋模型、TF-IDF)。Scikit-learn提供LabelEncoder和OneHotEncoder类实现这些编码。示例展示了如何对数据进行标签编码和独热编码,强调了正确选择编码方法的重要性。
432 0
|
1月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)

热门文章

最新文章

下一篇
oss云网关配置