一文速学-Pandas处理分类数据(Categorical data)详解+代码演示(一)

简介: 一文速学-Pandas处理分类数据(Categorical data)详解+代码演示(一)

前言


时至如今Pandas仍然是十分火热的基于Python的数据分析工具,与numpy、matplotlib称为数据分析三大巨头,是学习Python数据分析的必经之路。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法,它是使Python成为强大而高效的数据分析环境的重要因素之一。

使用Pandas进行数据预处理时需要对Pandas的基础数据结构Series和DataFrame有一个基础的了解。若是还不清楚的可以再去看看我之前的详解博文:


一文速学-数据分析之Pandas数据结构和基本操作代码


结合Pandas处理不同种类的数据,算下来共有重复值处理、缺失值处理、异常值处理等众多处理数据的方法。但我们使用Pandas做数据分析进阶操作,经常会使用到机器学习算法模型以及神经网络等算法,需要我们对数据进行预处理操作,其中就有label标签数据。而Pandas将此类标签数据单独提取出作为Catagorical data分类数据。了解处理此类型数据能够高效提升对我们进行数据进行建模和分析。对数据分析处理感兴趣的还可以阅读博主前几篇详解博文:


一文速学-Pandas异常值检测及处理操作各类方法详解+代码展示


一文速学-Pandas处理重复值操作各类方法详解+代码展示


一文速学-Pandas处理缺失值操作各类方法详解


以上三篇很容易学会,没有比较难的实战。此篇博客基于Jupyter之上进行演示,本篇博客的愿景是希望我或者读者通过阅读这篇博客能够学会方法并能实际运用,而且能够记录到你的思想之中。希望读者看完能够提出错误或者看法,博主会长期维护博客做及时更新。


一、分类数据(Categorical data)


分类是与统计中的分类变量相对应的数据类型。分类变量具有有限且通常固定的可能值数量(类别;R因子级别)。例如性别、社会阶层、血型、国家归属、观察时间或通过李克特量表进行的评级。


离散与分类


在学习该数据类型之前,我给大家稍微讲讲统计学的一些相关知识,方便大家后续理解函数的相关操作。根据数据类型我们可以可以将数据分为两种类型:


8326dcbeee1843afab2ba758ebc9aef8.png

在统计学中,数据按变量值是否连续可分为连续数据与离散数据两种.


变离数据是指其数值只能用自然数或整数单位计算.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种数据的数值一般用计数方法取得.

反之,在一定区间内可以任意取值的数据叫连续数据,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值.例如,生产零件的规格尺寸,人体测量的身高,体重,胸围等为连续数据,其数值只能用测量或计量的方法取得.

性质:符号x如果能够表示对象集合S中的任意元素,就是变量。如果变量的域(即对象的集合S)是离散的,该变量就是离散变量;如果它的域是连续的,它就是连续变量。


       与统计分类变量相比,分类数据可能有一个顺序(例如“强烈同意”与“同意”或“第一次观察”与“第二次观察”),但不可能进行数值运算(加法、除法等)。 在R语言基础之中,名义型变量和有序型变量称为因子,这些分类变量的可能值称为一个水平,level,例如good,better,best,都称为一个level。由这些水平值构成的向量就称为因子。我们发现R语言的因子和Pandas的Catagorical data数据类型几乎差不多。分类数据的所有值要么在类别中,要么就是np.nan。顺序是由类别的顺序定义的,而不是值的词汇顺序。在内部,数据结构由一个类别数组和一个整数代码数组组成,这些代码指向类别数组中的实值。


实例场景


仅由几个不同值组成的字符串变量。将这样的字符串变量转换为分类变量将节省一些内存。

变量的词汇顺序与逻辑顺序不同(“一”、“二”、“三”)。通过转换为分类并指定类别的顺序,排序和最小/最大将使用逻辑顺序而不是词汇顺序。

作为向其他Python库传递数据时,该列应被视为分类变量(例如,使用适当的统计方法或绘图类型)。


二、创建


1.Series创建


通过Series创建只需要在创建语句后面加上dtype="catagory":


series_cate=pd.Series(["a", "b", "c", "a"], dtype="category")


通过DataFrame创建后使用一列astype直接转换就好了:

df = pd.DataFrame({"A": ["a", "b", "c", "a"]})
df["B"] = df["A"].astype("category")
df.dtypes

ff03273f50494954af4b1fe48805b412.png

标签转换


通过使用自定义函数或者功能函数,例如cut(),能够将数值特征通过范围打上标签:

df = pd.DataFrame({"value": np.random.randint(0, 100, 20)})
labels = ["{0} - {1}".format(i, i + 9) for i in range(0, 100, 10)]
df["group"] = pd.cut(df.value, range(0, 105, 10), right=False, labels=labels)
df

57dfa2646e9f4742a5ee0d818daea464.png

通过Categorical函数可以实现更高级的标签转换:


1. raw_cat=pd.Categorical(df['group'], categories=['40 - 49','60 - 69'])
2. df["group2"] = raw_cat
3. df


97cd1d5d445f41a3a17b63eff61adfa9.png


可以去除空值保留想要保留的特征。


2.DataFrame创建


DataFrama可以整个转化为Catagory

df = pd.DataFrame({"A": ["a", "b", "c", "a"],"B":[1,2,3,4]},dtype="category")
df.dtypes

af41dcb926244fec87a5f56eea0ead02.png

或者和转换一列一样全部转换为category:

df = pd.DataFrame({"A": ["a", "b", "c", "a"],"B":[1,2,3,4]})
df_cat = df.astype("category")
df_cat.dtypes

f5d99ed5428541cd92041373f0185ba6.png

3.操作


1.CategoricalDtype函数


在上面传递dtype='category'的示例中参数均为默认,默认转换的category的类别:.


  • 类别是从数据中推断出来的。
  • 类别是无序的。


若需要控制上述两种情况,需要引入CategoricalDtype函数:

from pandas.api.types import CategoricalDtype
s = pd.Series(["a", "b", "c", "a"])
cat_type = CategoricalDtype(categories=["b", "c", "d"], ordered=True)
s_cat = s.astype(cat_type)
s_cat

db82f840ea354454baa80d25f288441b.png


上述代码就是在默认情况下,转换为category类型并没有设定categories,可以通过CategoricalDtype后期加上去。


对于DataFrame也是如此:

from pandas.api.types import CategoricalDtype
df = pd.DataFrame({"A": ["a", "b", "c", "a"],"B":[1,2,3,4]})
cat_type = CategoricalDtype(categories=list("abcd"), ordered=True)
df_cat = df.astype(cat_type)
df_cat.info

7b37fdc29d854ca39352647858848b0d.png


2.unique唯一标签


为了执行逐表转换,整个DataFrame中的所有标签都用作每列的类别,可以通过编程方式通过categories=pd.unique(df.to_numpy().ravel())确定categories参数。

df = pd.DataFrame({"A": ["a", "b", "c", "a"],"B":[1,2,3,4]})
categories = pd.unique(df['A'].to_numpy().ravel())
categories

array(['a', 'b', 'c'], dtype=object)


如果已经有了代码和类别,那么可以使用from_codes()构造函数在正常构造函数模式下保存分解步骤:

splitter = np.random.choice([0, 1], 5, p=[0.5, 0.5])
s = pd.Series(pd.Categorical.from_codes(splitter, categories=["train", "test"]))

2121e0b33c084fb989e25a592e866c19.png


三.转换


我们知道Category可以通过Series和DataFrame来创建,那么转换成原格式也是一样的:


Series.astype(original_dtype)
np.asarray(categorical)


目录
相关文章
|
1月前
|
存储 人工智能 自然语言处理
Pandas数据应用:自然语言处理
本文介绍Pandas在自然语言处理(NLP)中的应用,涵盖数据准备、文本预处理、分词、去除停用词等常见任务,并通过代码示例详细解释。同时,针对常见的报错如`MemoryError`、`ValueError`和`KeyError`提供了解决方案。适合初学者逐步掌握Pandas与NLP结合的技巧。
67 20
|
9天前
|
监控 物联网 数据处理
Pandas高级数据处理:数据流式计算
本文介绍了如何使用 Pandas 进行流式数据处理。流式计算能够实时处理不断流入的数据,适用于金融交易、物联网监控等场景。Pandas 虽然主要用于批处理,但通过分块读取文件、增量更新 DataFrame 和使用生成器等方式,也能实现简单的流式计算。文章还详细讨论了内存溢出、数据类型不一致、数据丢失或重复及性能瓶颈等常见问题的解决方案,并建议在处理大规模数据时使用专门的流式计算框架。
132 100
Pandas高级数据处理:数据流式计算
|
1月前
|
存储 数据挖掘 计算机视觉
Pandas数据应用:图像处理
Pandas 是一个强大的 Python 数据分析库,主要用于处理结构化数据。尽管它不是专门为图像处理设计的,但可以利用其功能辅助图像处理任务。本文介绍如何使用 Pandas 进行图像处理,包括图像读取、显示、基本操作及常见问题解决方法。通过代码案例解释如何将图像转换为 DataFrame 格式,并探讨数据类型不匹配、内存溢出和颜色通道混淆等问题的解决方案。总结中指出,虽然 Pandas 可作为辅助工具,但在实际项目中建议结合专门的图像处理库如 OpenCV 等使用。
62 18
|
1月前
|
机器学习/深度学习 存储 算法
Pandas数据应用:客户流失预测
本文介绍如何使用Pandas进行客户流失预测,涵盖数据加载、预处理、特征工程和模型训练。通过解决常见问题(如文件路径错误、编码问题、列名不一致等),确保数据分析顺利进行。特征工程中创建新特征并转换数据类型,为模型训练做准备。最后,划分训练集与测试集,选择合适的机器学习算法构建模型,并讨论数据不平衡等问题的解决方案。掌握这些技巧有助于有效应对实际工作中的复杂情况。
141 95
|
1月前
|
机器学习/深度学习 数据采集 JSON
Pandas数据应用:机器学习预处理
本文介绍如何使用Pandas进行机器学习数据预处理,涵盖数据加载、缺失值处理、类型转换、标准化与归一化及分类变量编码等内容。常见问题包括文件路径错误、编码不正确、数据类型不符、缺失值处理不当等。通过代码案例详细解释每一步骤,并提供解决方案,确保数据质量,提升模型性能。
149 88
|
28天前
|
数据采集 存储 供应链
Pandas数据应用:库存管理
本文介绍Pandas在库存管理中的应用,涵盖数据读取、清洗、查询及常见报错的解决方法。通过具体代码示例,讲解如何处理多样数据来源、格式不一致、缺失值和重复数据等问题,并解决KeyError、ValueError等常见错误,帮助提高库存管理效率和准确性。
103 72
|
2天前
|
数据采集 数据可视化 数据处理
Pandas高级数据处理:数据仪表板制作
《Pandas高级数据处理:数据仪表板制作》涵盖数据清洗、聚合、时间序列处理等技巧,解决常见错误如KeyError和内存溢出。通过多源数据整合、动态数据透视及可视化准备,结合性能优化与最佳实践,助你构建响应快速、数据精准的商业级数据仪表板。适合希望提升数据分析能力的开发者。
52 31
|
3天前
|
数据采集 并行计算 数据可视化
Pandas高级数据处理:数据报告生成实战指南
数据报告生成面临数据质量、计算性能、呈现形式和自动化等核心挑战。常见问题包括缺失值导致统计失真、内存溢出及可视化困难。解决方案涵盖数据清洗、分块处理、安全绘图模板等。通过模块化设计、异常处理机制和性能优化策略,如使用`category`类型、并行计算等,可大幅提升效率。最佳实践建议建立数据质量检查清单、版本控制和自动化测试框架,确保系统具备自适应能力,提升报告生成效率300%以上。
31 12
|
1月前
|
数据采集 机器学习/深度学习 搜索推荐
Pandas数据应用:推荐系统
在数字化时代,推荐系统是互联网公司的重要组成部分,Pandas作为Python的强大数据分析库,在数据预处理和特征工程中发挥关键作用。常见问题包括缺失值、重复值处理及数据类型转换,解决方案分别为使用`fillna()`、`drop_duplicates()`和`astype()`等函数。常见报错如KeyError、ValueError和MemoryError可通过检查列名、确保数据格式正确及分块读取数据等方式解决。合理运用Pandas工具,可为构建高效推荐系统奠定坚实基础。
64 18
Pandas数据应用:推荐系统
|
1月前
|
数据采集 存储 算法
Pandas数据应用:市场篮子分析
市场篮子分析是一种用于发现商品间关联关系的数据挖掘技术,广泛应用于零售业。Pandas作为强大的数据分析库,在此领域具有显著优势。本文介绍了市场篮子分析的基础概念,如事务、项集、支持度、置信度和提升度,并探讨了数据预处理、算法选择、参数设置及结果解释中的常见问题与解决方案,帮助用户更好地进行市场篮子分析,为企业决策提供支持。
69 29