一文速学-Pandas处理分类数据(Categorical data)详解+代码演示(一)

2022-10-17 525

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 一文速学-Pandas处理分类数据(Categorical data)详解+代码演示(一)

前言

时至如今Pandas仍然是十分火热的基于Python的数据分析工具，与numpy、matplotlib称为数据分析三大巨头，是学习Python数据分析的必经之路。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法，它是使Python成为强大而高效的数据分析环境的重要因素之一。

使用Pandas进行数据预处理时需要对Pandas的基础数据结构Series和DataFrame有一个基础的了解。若是还不清楚的可以再去看看我之前的详解博文：

一文速学-数据分析之Pandas数据结构和基本操作代码

结合Pandas处理不同种类的数据，算下来共有重复值处理、缺失值处理、异常值处理等众多处理数据的方法。但我们使用Pandas做数据分析进阶操作，经常会使用到机器学习算法模型以及神经网络等算法，需要我们对数据进行预处理操作，其中就有label标签数据。而Pandas将此类标签数据单独提取出作为Catagorical data分类数据。了解处理此类型数据能够高效提升对我们进行数据进行建模和分析。对数据分析处理感兴趣的还可以阅读博主前几篇详解博文：

一文速学-Pandas异常值检测及处理操作各类方法详解+代码展示

一文速学-Pandas处理重复值操作各类方法详解+代码展示

一文速学-Pandas处理缺失值操作各类方法详解

以上三篇很容易学会，没有比较难的实战。此篇博客基于Jupyter之上进行演示，本篇博客的愿景是希望我或者读者通过阅读这篇博客能够学会方法并能实际运用，而且能够记录到你的思想之中。希望读者看完能够提出错误或者看法，博主会长期维护博客做及时更新。

一、分类数据(Categorical data)

分类是与统计中的分类变量相对应的数据类型。分类变量具有有限且通常固定的可能值数量（类别；R因子级别）。例如性别、社会阶层、血型、国家归属、观察时间或通过李克特量表进行的评级。

离散与分类

在学习该数据类型之前，我给大家稍微讲讲统计学的一些相关知识，方便大家后续理解函数的相关操作。根据数据类型我们可以可以将数据分为两种类型：

在统计学中,数据按变量值是否连续可分为连续数据与离散数据两种.

变离数据是指其数值只能用自然数或整数单位计算.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种数据的数值一般用计数方法取得.

反之,在一定区间内可以任意取值的数据叫连续数据,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值.例如,生产零件的规格尺寸,人体测量的身高,体重,胸围等为连续数据,其数值只能用测量或计量的方法取得.

性质：符号x如果能够表示对象集合S中的任意元素，就是变量。如果变量的域(即对象的集合S)是离散的，该变量就是离散变量；如果它的域是连续的，它就是连续变量。

与统计分类变量相比，分类数据可能有一个顺序（例如“强烈同意”与“同意”或“第一次观察”与“第二次观察”），但不可能进行数值运算（加法、除法等）。在R语言基础之中，名义型变量和有序型变量称为因子，这些分类变量的可能值称为一个水平，level，例如good，better，best，都称为一个level。由这些水平值构成的向量就称为因子。我们发现R语言的因子和Pandas的Catagorical data数据类型几乎差不多。分类数据的所有值要么在类别中，要么就是np.nan。顺序是由类别的顺序定义的，而不是值的词汇顺序。在内部，数据结构由一个类别数组和一个整数代码数组组成，这些代码指向类别数组中的实值。

实例场景

仅由几个不同值组成的字符串变量。将这样的字符串变量转换为分类变量将节省一些内存。

变量的词汇顺序与逻辑顺序不同（“一”、“二”、“三”）。通过转换为分类并指定类别的顺序，排序和最小/最大将使用逻辑顺序而不是词汇顺序。

作为向其他Python库传递数据时，该列应被视为分类变量（例如，使用适当的统计方法或绘图类型）。

二、创建

1.Series创建

通过Series创建只需要在创建语句后面加上dtype="catagory"：

series_cate=pd.Series(["a", "b", "c", "a"], dtype="category")

通过DataFrame创建后使用一列astype直接转换就好了：

df = pd.DataFrame({"A": ["a", "b", "c", "a"]})
df["B"] = df["A"].astype("category")
df.dtypes

标签转换

通过使用自定义函数或者功能函数，例如cut()，能够将数值特征通过范围打上标签：

df = pd.DataFrame({"value": np.random.randint(0, 100, 20)})
labels = ["{0} - {1}".format(i, i + 9) for i in range(0, 100, 10)]
df["group"] = pd.cut(df.value, range(0, 105, 10), right=False, labels=labels)
df

通过Categorical函数可以实现更高级的标签转换：

1. raw_cat=pd.Categorical(df['group'], categories=['40 - 49','60 - 69'])
2. df["group2"] = raw_cat
3. df

可以去除空值保留想要保留的特征。

2.DataFrame创建

DataFrama可以整个转化为Catagory

df = pd.DataFrame({"A": ["a", "b", "c", "a"],"B":[1,2,3,4]},dtype="category")
df.dtypes

或者和转换一列一样全部转换为category：

df = pd.DataFrame({"A": ["a", "b", "c", "a"],"B":[1,2,3,4]})
df_cat = df.astype("category")
df_cat.dtypes

3.操作

1.CategoricalDtype函数

在上面传递dtype='category'的示例中参数均为默认，默认转换的category的类别：.

类别是从数据中推断出来的。
类别是无序的。

若需要控制上述两种情况，需要引入CategoricalDtype函数：

from pandas.api.types import CategoricalDtype
s = pd.Series(["a", "b", "c", "a"])
cat_type = CategoricalDtype(categories=["b", "c", "d"], ordered=True)
s_cat = s.astype(cat_type)
s_cat

上述代码就是在默认情况下，转换为category类型并没有设定categories，可以通过CategoricalDtype后期加上去。

对于DataFrame也是如此：

from pandas.api.types import CategoricalDtype
df = pd.DataFrame({"A": ["a", "b", "c", "a"],"B":[1,2,3,4]})
cat_type = CategoricalDtype(categories=list("abcd"), ordered=True)
df_cat = df.astype(cat_type)
df_cat.info

2.unique唯一标签

为了执行逐表转换，整个DataFrame中的所有标签都用作每列的类别，可以通过编程方式通过categories=pd.unique(df.to_numpy().ravel())确定categories参数。

df = pd.DataFrame({"A": ["a", "b", "c", "a"],"B":[1,2,3,4]})
categories = pd.unique(df['A'].to_numpy().ravel())
categories

array(['a', 'b', 'c'], dtype=object)

如果已经有了代码和类别，那么可以使用from_codes（）构造函数在正常构造函数模式下保存分解步骤：

splitter = np.random.choice([0, 1], 5, p=[0.5, 0.5])
s = pd.Series(pd.Categorical.from_codes(splitter, categories=["train", "test"]))

三.转换

我们知道Category可以通过Series和DataFrame来创建，那么转换成原格式也是一样的：

Series.astype(original_dtype)
np.asarray(categorical)