独热(One-Hot)编码简述

简介: 独热(One-Hot)编码简述

1.前言

今天看Colab上的代码的时候突然看到了这个概念,抱着好奇的心态学习了一下,挺基础也很重要的一个概念,5min左右就可以了解

2.什么是 one-hot 编码?

定义:

独热编码即 One-Hot 编码,又称一位有效编码。其方法是使用 N 位状态寄存器来对 N 个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效

One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。

看不懂么?看不懂很正常(看懂了我觉得不太正常hhh,下面通过举例子很好理解:

这里有三个特征:

性别特征:[‘女’, ‘男’]

国籍特征:[‘中国’, ‘美国’, ‘俄罗斯’, ‘英国’]

年龄特征:[18, 19, 20]

那么,我们现在表示一个20岁中国国籍的男生,那么他的特征为:[‘男’, ‘中国’, 20],我们将特征数字化,即表示为:[1, 0, 2],但是这样的特征放入 Machine Learning 中是不可以的,因为类别之间是无序的,针对这种情况,我们介绍 one-hot 编码:

对于性别特征,有两种取值:女/男,我们用 10(二进制) 表示女,用 01(二进制)表示男

对于国籍特征,有四种取值,我们用 1000(二进制)表示中国,0100(二进制)表示美国,0010(二进制)表示俄罗斯,0001(二进制)表示英国

对于年龄特征,有三种取值,我们用 100(二进制)表示18岁,010(二进制)表示19岁,001(二进制)表示20岁

故对于20岁中国国籍的男生,我们可以表示为:[011000001],用下面这张图更能形象化理解:

image.png

3.Python 代码

下述代码在 Jupyter 上运行,没有安装过 Jupyter 的读者可以看博客:最详细的Anaconda Installers 的安装【numpy,jupyter】(图+文)

from sklearn import preprocessing  
enc = preprocessing.OneHotEncoder()         # 调用OneHotEncoder()
enc.fit([[0, 2, 2],
         [1, 1, 4],
         [1, 0, 1],
         [0, 1, 3]])  # 提供训练数据:4个数据,3种特征
array = enc.transform([[0,1,3]]).toarray()  # 测试,随便输入一个新数据去测试
array   # 独热编码结果:[[1., 0., 0., 1., 0., 0., 0., 1., 0.]] 


目录
相关文章
|
机器学习/深度学习 算法 TensorFlow
维特比算法(Viterbi algorithm)
维特比算法(Viterbi algorithm)是一种用于解码隐马尔可夫模型(Hidden Markov Model,HMM)的动态规划算法。它用于找到给定观测序列条件下的最有可能的隐藏状态序列。
1050 1
|
编解码 图计算 iOS开发
iPhone手机屏幕尺寸与倍图计算公式(更新至iPhone 14 Plus)
iPhone手机屏幕尺寸与倍图计算公式(更新至iPhone 14 Plus)
884 0
|
运维 关系型数据库 网络安全
宝塔面板忘记了登录用户名密码怎么办?
当忘记宝塔面板的用户名或密码,可通过以下方法解决: 1. 登录后台修改:访问面板设置->面板用户,输入新用户名和密码。 2. 使用SSH连接服务器,输入`bt`命令选择相应选项(5修改密码,6修改用户名)。 3. Windows用户可在CMD输入`bt`同样操作。
1478 0
 宝塔面板忘记了登录用户名密码怎么办?
|
自然语言处理 数据可视化 NoSQL
基于知识图谱的水浒传知识问答系统
基于知识图谱的水浒传知识问答系统
206 0
|
缓存 定位技术 Python
是时候跟Conda说再见了
是时候跟Conda说再见了
1671 2
|
Linux Docker 异构计算
模型部署 — PaddleNLP 基于 Paddle Serving 快速使用(服务化部署 - Docker)— 图像识别 + 信息抽取(UIE-X)
模型部署 — PaddleNLP 基于 Paddle Serving 快速使用(服务化部署 - Docker)— 图像识别 + 信息抽取(UIE-X)
419 0
|
PyTorch 算法框架/工具
The “freeze_support()“ line can be omitted if the program is not going to be frozen
The “freeze_support()“ line can be omitted if the program is not going to be frozen
314 1
|
负载均衡 安全 Java
nacos常见问题之nacos滚动重启时 服务实例大量下线如何解决
Nacos是阿里云开源的服务发现和配置管理平台,用于构建动态微服务应用架构;本汇总针对Nacos在实际应用中用户常遇到的问题进行了归纳和解答,旨在帮助开发者和运维人员高效解决使用Nacos时的各类疑难杂症。
|
安全
Selenium在Win10下IE浏览器遇到的白屏初始页面解决方案
开发环境:Win10+Python3.5+Selenium+IE11硬件环境:联想MIIX700语言环境:English(US)在做数据爬取得时候,发现IE Driver出现白屏,跟着提示:“This is the initial start page for the WebDriver server“几经寻找,解决了问题。
2312 0
|
传感器 缓存 编译器
OC底层知识(六) : 性能优化
OC底层知识(六) : 性能优化
564 0
OC底层知识(六) : 性能优化