Python应用专题 | 13:将标签转为onehot形式

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
大数据开发治理平台 DataWorks,不限时长
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 在做文本分类的时候,常常需要将标签转为one-hot的数值形式,本文主要从代码的角度介绍该操作。

背景

对于给定具体标签,如何将其转为one-hot形式?比如标签集合体育', '娱乐', '家居', '房产', '教育', '时尚', '时政', '游戏', '科技', '财经',对于multiclass任务,如何将训练数据集中的样本的标签转为one-hot形式?

方法1:

    import numpy as np
    label_list = ['体育', '娱乐', '家居', '房产', '教育', '时尚', '时政', '游戏', '科技', '财经']
    label_dict = { l: i for i, l in enumerate(label_list)}

    data_labels = np.array(["娱乐", "体育", "房产", "科技", "财经"])
    data_label_ids = list(map(label_dict.get, data_labels))
    one_hot = np.zeros((data_labels.size, len(label_list)), dtype=np.int8)
    one_hot[np.arange(data_labels.size), data_label_ids] = 1
    print(one_hot)

输出结果如下:

[[0 1 0 0 0 0 0 0 0 0]
 [1 0 0 0 0 0 0 0 0 0]
 [0 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 0]
 [0 0 0 0 0 0 0 0 0 1]]

方法2:

使用np.eye

    import numpy as np
    label_list = ['体育', '娱乐', '家居', '房产', '教育', '时尚', '时政', '游戏', '科技', '财经']
    label_dict = { l: i for i, l in enumerate(label_list)}

    data_labels = np.array(["娱乐", "体育", "房产", "科技", "财经"])
    data_label_ids = list(map(label_dict.get, data_labels))

    # 方法2
    one_hot = np.eye(len(label_list), dtype=np.int8)[data_label_ids]
    print(one_hot)

输出结果如下:

[[0 1 0 0 0 0 0 0 0 0]
 [1 0 0 0 0 0 0 0 0 0]
 [0 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 0]
 [0 0 0 0 0 0 0 0 0 1]]

方法3:

使用sklearn.preprocessing.LabelBinarizer

    import numpy as np
    label_list = ['体育', '娱乐', '家居', '房产', '教育', '时尚', '时政', '游戏', '科技', '财经']
    label_dict = { l: i for i, l in enumerate(label_list)}

    data_labels = np.array(["娱乐", "体育", "房产", "科技", "财经"])
    data_label_ids = list(map(label_dict.get, data_labels))

    # 方法3:
    import sklearn.preprocessing
    label_binarizer = sklearn.preprocessing.LabelBinarizer()
    label_binarizer.fit(range(len(label_list)))
    one_hot = label_binarizer.transform(data_label_ids)
    print(one_hot)
相关文章
|
1天前
|
数据可视化 物联网 区块链
探索Python中的数据可视化:使用Matplotlib和Seaborn绘制图表探索未来:区块链、物联网与虚拟现实的融合趋势与应用前景
【8月更文挑战第30天】本文旨在引导读者通过Python编程语言,利用Matplotlib和Seaborn库,轻松掌握数据可视化技术。文章以浅显易懂的语言,结合实用的代码示例,从基础的图表绘制到高级定制功能,逐步深入讲解如何在数据分析中运用这些工具。无论你是编程新手还是希望提升可视化技能的开发者,都能在这篇文章中找到有价值的信息,让你的数据“活”起来。
|
2天前
|
人工智能 中间件 算法框架/工具
Python在工业自动化领域的应用详解
Python在工业自动化领域的应用详解
|
3天前
|
移动开发 缓存 前端开发
秀啊,90行Python代码开发个人云盘应用
秀啊,90行Python代码开发个人云盘应用
|
5天前
|
数据处理 调度 开发者
解密Python的异步编程:协程与事件循环的实战应用
在现代应用程序开发中,异步编程已经成为提高性能和响应速度的关键技术。Python的异步编程通过协程和事件循环提供了高效处理并发任务的能力。本文将深入探讨Python中异步编程的核心概念,包括协程的基本用法、事件循环的工作机制以及如何在实际项目中应用这些技术。通过对比同步和异步编程的性能差异,读者将能够理解异步编程的优势,并学会如何在Python中实现高效的异步任务处理。
|
3天前
|
前端开发 JavaScript 数据库
python Django教程 之模板渲染、循环、条件判断、常用的标签、过滤器
python Django教程 之模板渲染、循环、条件判断、常用的标签、过滤器
|
5天前
|
数据处理 开发者 Python
Python技术深度探索与实战应用
Python技术深度探索与实战应用
30 3
|
7天前
|
Python
【Azure Developer】使用Python代码获取VM的IP地址 (Public IP + Private IP)【未解决问题标签】
【Azure Developer】使用Python代码获取VM的IP地址 (Public IP + Private IP)【未解决问题标签】
|
7天前
|
存储 缓存 安全
Python元组之不可变序列的奥秘与应用方式
Python 中的元组(Tuple)是一种有序的、不可变的数据结构,它是序列的一种特殊形式,就像一个固定大小的盒子,一旦放入物品就无法更换或移除。 元组可以包含任何类型的数据,如数字、字符串甚至是其他元组。 相比列表,元组在很多场景下提供了更高效、安全的选择。
|
1天前
|
机器学习/深度学习 数据采集 自然语言处理
Python中实现简单的文本情感分析未来触手可及:新技术趋势与应用深度解析
【8月更文挑战第30天】在数字化的今天,理解和分析用户生成的内容对许多行业至关重要。本文将引导读者通过Python编程语言,使用自然语言处理(NLP)技术,构建一个简单的文本情感分析工具。我们将探索如何利用机器学习模型来识别和分类文本数据中的情感倾向,从而为数据分析和决策提供支持。文章将涵盖从数据预处理到模型训练和评估的全过程,旨在为初学者提供一个易于理解且实用的入门指南。
|
3天前
|
Docker Python 容器
5 分钟,教你用 Docker 部署一个 Python 应用!
5 分钟,教你用 Docker 部署一个 Python 应用!
下一篇
云函数