Pandas 2.2 中文官方教程和指南（六）（2）-阿里云开发者社区

Pandas 2.2 中文官方教程和指南（六）（1）https://developer.aliyun.com/article/1509740

缺失数据

pandas 和 Stata 都有缺失数据的表示。

pandas 用特殊的浮点值NaN（不是一个数字）表示缺失数据。许多语义是相同的；例如，缺失数据通过数值运算传播，并且默认情况下在聚合中被忽略。

In [57]: outer_join
Out[57]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059       NaN
3   D -1.135632 -0.173215
4   D -1.135632  0.119209
5   E       NaN -1.044236
In [58]: outer_join["value_x"] + outer_join["value_y"]
Out[58]: 
0         NaN
1    0.929249
2         NaN
3   -1.308847
4   -1.016424
5         NaN
dtype: float64
In [59]: outer_join["value_x"].sum()
Out[59]: -3.5940742896293765

一个区别是缺失数据无法与其标记值进行比较。例如，在 Stata 中，您可以这样过滤缺失值。

* Keep missing values
list if value_x == .
* Keep non-missing values
list if value_x != .

在 pandas 中，Series.isna()和Series.notna()可用于过滤行。

In [60]: outer_join[outer_join["value_x"].isna()]
Out[60]: 
 key  value_x   value_y
5   E      NaN -1.044236
In [61]: outer_join[outer_join["value_x"].notna()]
Out[61]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059       NaN
3   D -1.135632 -0.173215
4   D -1.135632  0.119209

pandas 提供了各种方法来处理缺失数据。以下是一些示例：

删除具有缺失值的行

In [62]: outer_join.dropna()
Out[62]: 
 key   value_x   value_y
1   B -0.282863  1.212112
3   D -1.135632 -0.173215
4   D -1.135632  0.119209

从前面的行向前填充

In [63]: outer_join.ffill()
Out[63]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059  1.212112
3   D -1.135632 -0.173215
4   D -1.135632  0.119209
5   E -1.135632 -1.044236

用指定值替换缺失值

使用均值：

In [64]: outer_join["value_x"].fillna(outer_join["value_x"].mean())
Out[64]: 
0    0.469112
1   -0.282863
2   -1.509059
3   -1.135632
4   -1.135632
5   -0.718815
Name: value_x, dtype: float64

分组

聚合

Stata 的 collapse 可以用于按一个或多个关键变量分组并计算数值列的聚合。

collapse (sum) total_bill tip, by(sex smoker)

pandas 提供了灵活的 groupby 机制，允许类似的聚合。查看 groupby 文档获取更多详细信息和示例。

In [65]: tips_summed = tips.groupby(["sex", "smoker"])[["total_bill", "tip"]].sum()
In [66]: tips_summed
Out[66]: 
 total_bill     tip
sex    smoker 
Female No          869.68  149.77
 Yes         527.27   96.74
Male   No         1725.75  302.00
 Yes        1217.07  183.07

转换

在 Stata 中，如果需要将组聚合与原始数据集一起使用，通常会使用 bysort 与 egen()。例如，要按吸烟者组减去每个观测值的平均值。

bysort sex smoker: egen group_bill = mean(total_bill)
generate adj_total_bill = total_bill - group_bill

pandas 提供了一个 Transformation 机制，允许这些类型的操作在一个操作中简洁地表达。

In [67]: gb = tips.groupby("smoker")["total_bill"]
In [68]: tips["adj_total_bill"] = tips["total_bill"] - gb.transform("mean")
In [69]: tips
Out[69]: 
 total_bill    tip     sex smoker   day    time  size  adj_total_bill
67         1.07   1.00  Female    Yes   Sat  Dinner     1      -17.686344
92         3.75   1.00  Female    Yes   Fri  Dinner     2      -15.006344
111        5.25   1.00  Female     No   Sat  Dinner     1      -11.938278
145        6.35   1.50  Female     No  Thur   Lunch     2      -10.838278
135        6.51   1.25  Female     No  Thur   Lunch     2      -10.678278
..          ...    ...     ...    ...   ...     ...   ...             ...
182       43.35   3.50    Male    Yes   Sun  Dinner     3       24.593656
156       46.17   5.00    Male     No   Sun  Dinner     6       28.981722
59        46.27   6.73    Male     No   Sat  Dinner     4       29.081722
212       46.33   9.00    Male     No   Sat  Dinner     4       29.141722
170       48.81  10.00    Male    Yes   Sat  Dinner     3       30.053656
[244 rows x 8 columns]

按组处理

除了聚合，pandas 的 groupby 还可以用于复制 Stata 中的大多数其他 bysort 处理。例如，以下示例列出了当前排序顺序中按性别/吸烟者组列出的第一个观测值。

bysort sex smoker: list if _n == 1

在 pandas 中，这样写：

In [70]: tips.groupby(["sex", "smoker"]).first()
Out[70]: 
 total_bill   tip   day    time  size  adj_total_bill
sex    smoker 
Female No            5.25  1.00   Sat  Dinner     1      -11.938278
 Yes           1.07  1.00   Sat  Dinner     1      -17.686344
Male   No            5.51  2.00  Thur   Lunch     2      -11.678278
 Yes           5.25  5.15   Sun  Dinner     2      -13.506344

其他考虑

磁盘 vs 内存

pandas 和 Stata 都仅在内存中运行。这意味着 pandas 可以加载的数据大小受限于计算机的内存。如果需要离线处理，一个可能的选择是 dask.dataframe 库，它为磁盘上的 DataFrame 提供了一部分 pandas 功能。

数据结构

通用术语翻译

pandas	Stata
`DataFrame`	数据集
列	变量
行	观测值
groupby	bysort
`NaN`	`.`

`DataFrame`

pandas 中的 DataFrame 类似于 Stata 数据集 - 一个具有标记列的二维数据源，可以是不同类型。正如本文档所示，几乎可以在 Stata 中应用于数据集的任何操作也可以在 pandas 中完成。

`Series`

Series 是表示 DataFrame 的一列的数据结构。Stata 没有单独的数据结构用于单列，但总体上，与在 Stata 中引用数据集的列类似，使用 Series。

`Index`

每个 DataFrame 和 Series 都有一个 Index - 数据的行上的标签。Stata 没有完全类似的概念。在 Stata 中，数据集的行基本上是无标签的，除了可以通过 _n 访问的隐式整数索引。

在 pandas 中，如果未指定索引，则默认也使用整数索引（第一行 = 0，第二行 = 1，依此类推）。虽然使用带标签的 Index 或 MultiIndex 可以实现复杂的分析，并最终是理解 pandas 的重要部分，但在此比较中，我们将基本上忽略 Index，只将 DataFrame 视为一列集合。请参阅索引文档以获取有关如何有效使用 Index 的更多信息。

复制 vs. 原地操作

大多数 pandas 操作返回 Series/DataFrame 的副本。要使更改“生效”，您需要将其分配给一个新变量：

sorted_df = df.sort_values("col1")

或覆盖原始内容：

df = df.sort_values("col1")

注意

您将看到一些方法可用的 inplace=True 或 copy=False 关键字参数：

df.replace(5, inplace=True)

关于大多数方法（例如 dropna）的 inplace 和 copy 的弃用和移除正在进行活跃的讨论，除了一小部分方法（包括 replace）。在写时复制的情况下，这两个关键字将不再必要。提案可以在这里找到。

通用术语翻译

pandas	Stata
`DataFrame`	数据集
列	变量
行	观察
groupby	bysort
`NaN`	`.`

`DataFrame`

在 pandas 中，一个 DataFrame 类似于 Stata 数据集 - 一个带有标记列的二维数据源，可以是不同类型的。正如本文档所示，几乎任何可以应用于 Stata 数据集的操作也可以在 pandas 中完成。

`Series`

Series 是表示 DataFrame 的一列的数据结构。Stata 没有单独的数据结构用于单列，但通常，与 Series 一起工作类似于引用 Stata 数据集中的一列。

`Index`

每个 DataFrame 和 Series 都有一个 Index - 数据的行上的标签。Stata 没有完全类似的概念。在 Stata 中，数据集的行基本上是无标签的，除了可以使用 _n 访问的隐式整数索引。

在 pandas 中，如果没有指定索引，也会默认使用整数索引（第一行 = 0，第二行 = 1，依此类推）。虽然使用标记的 Index 或 MultiIndex 可以实现复杂的分析，并且最终是理解 pandas 的重要部分，但在这个比较中，我们基本上会忽略 Index，只将 DataFrame 视为列的集合。请参阅索引文档以了解如何有效使用 Index。

复制 vs. 就地操作

大多数 pandas 操作返回 Series/DataFrame 的副本。要使更改“生效”，您需要将其分配给一个新变量：

sorted_df = df.sort_values("col1")

或覆盖原始内容：

df = df.sort_values("col1")

注意

您将看到一些方法可用的 inplace=True 或 copy=False 关键字参数：

df.replace(5, inplace=True)

数据输入/输出

从数值构建 DataFrame

可以通过在 input 语句后放置数据并指定列名来从指定值构建 Stata 数据集。

input x y
1 2
3 4
5 6
end

一个 pandas DataFrame可以通过多种不同的方式构建，但对于少量值来说，通常将其指定为 Python 字典会更方便，其中键是列名，值是数据。

In [3]: df = pd.DataFrame({"x": [1, 3, 5], "y": [2, 4, 6]})
In [4]: df
Out[4]: 
 x  y
0  1  2
1  3  4
2  5  6

读取外部数据

像 Stata 一样，pandas 提供了从许多格式中读取数据的实用程序。在 pandas 测试中找到的tips数据集（csv）将在接下来的许多示例中使用。

Stata 提供import delimited将 csv 数据读入内存中的数据集。如果tips.csv文件在当前工作目录中，我们可以这样导入。

import delimited tips.csv

pandas 方法是read_csv()，其工作方式类似。此外，如果提供了 url，它将自动下载数据集。

In [5]: url = (
 ...:    "https://raw.githubusercontent.com/pandas-dev"
 ...:    "/pandas/main/pandas/tests/io/data/csv/tips.csv"
 ...: )
 ...: 
In [6]: tips = pd.read_csv(url)
In [7]: tips
Out[7]: 
 total_bill   tip     sex smoker   day    time  size
0         16.99  1.01  Female     No   Sun  Dinner     2
1         10.34  1.66    Male     No   Sun  Dinner     3
2         21.01  3.50    Male     No   Sun  Dinner     3
3         23.68  3.31    Male     No   Sun  Dinner     2
4         24.59  3.61  Female     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       29.03  5.92    Male     No   Sat  Dinner     3
240       27.18  2.00  Female    Yes   Sat  Dinner     2
241       22.67  2.00    Male    Yes   Sat  Dinner     2
242       17.82  1.75    Male     No   Sat  Dinner     2
243       18.78  3.00  Female     No  Thur  Dinner     2
[244 rows x 7 columns]

像import delimited一样，read_csv()可以接受多个参数来指定数据应如何解析。例如，如果数据实际上是制表符分隔的，没有列名，并且存在于当前工作目录中，则 pandas 命令将是：

tips = pd.read_csv("tips.csv", sep="\t", header=None)
# alternatively, read_table is an alias to read_csv with tab delimiter
tips = pd.read_table("tips.csv", header=None)

pandas 还可以使用read_stata()函数读取.dta格式的 Stata 数据集。

df = pd.read_stata("data.dta")

除了文本/csv 和 Stata 文件外，pandas 还支持各种其他数据格式，如 Excel、SAS、HDF5、Parquet 和 SQL 数据库。所有这些都是通过pd.read_*函数读取的。有关更多详细信息，请参阅 IO 文档。

限制输出

默认情况下，pandas 会截断大型DataFrame的输出以显示第一行和最后一行。这可以通过更改 pandas 选项或使用DataFrame.head()或DataFrame.tail()来覆盖。

In [8]: tips.head(5)
Out[8]: 
 total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4

在 Stata 中的等效操作是：

list in 1/5

导出数据

在 Stata 中import delimited的反操作是export delimited

export delimited tips2.csv

类似地，在 pandas 中，read_csv的相反操作是DataFrame.to_csv()。

tips.to_csv("tips2.csv")

pandas 还可以使用DataFrame.to_stata()方法导出为 Stata 文件格式。

tips.to_stata("tips2.dta")

从值构建 DataFrame

可以通过在input语句后放置数据并指定列名来从指定值构建 Stata 数据集。

input x y
1 2
3 4
5 6
end

可以以许多不同的方式构建 pandas 的DataFrame，但对于少量值，通常将其指定为 Python 字典是方便的，其中键是列名，值是数据。

In [3]: df = pd.DataFrame({"x": [1, 3, 5], "y": [2, 4, 6]})
In [4]: df
Out[4]: 
 x  y
0  1  2
1  3  4
2  5  6

读取外部数据

与 Stata 类似，pandas 提供了从多种格式中读取数据的实用工具。在 pandas 测试中找到的tips数据集（csv）将在以下许多示例中使用。

Stata 提供了import delimited来将 csv 数据读入内存中的数据集。如果tips.csv文件位于当前工作目录中，我们可以按照以下方式导入它。

import delimited tips.csv

pandas 的方法是read_csv()，其工作方式类似。此外，如果提供了 url，它将自动下载数据集。

In [5]: url = (
 ...:    "https://raw.githubusercontent.com/pandas-dev"
 ...:    "/pandas/main/pandas/tests/io/data/csv/tips.csv"
 ...: )
 ...: 
In [6]: tips = pd.read_csv(url)
In [7]: tips
Out[7]: 
 total_bill   tip     sex smoker   day    time  size
0         16.99  1.01  Female     No   Sun  Dinner     2
1         10.34  1.66    Male     No   Sun  Dinner     3
2         21.01  3.50    Male     No   Sun  Dinner     3
3         23.68  3.31    Male     No   Sun  Dinner     2
4         24.59  3.61  Female     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       29.03  5.92    Male     No   Sat  Dinner     3
240       27.18  2.00  Female    Yes   Sat  Dinner     2
241       22.67  2.00    Male    Yes   Sat  Dinner     2
242       17.82  1.75    Male     No   Sat  Dinner     2
243       18.78  3.00  Female     No  Thur  Dinner     2
[244 rows x 7 columns]

与import delimited类似，read_csv()可以接受许多参数来指定数据的解析方式。例如，如果数据是制表符分隔的，没有列名，并且存在于当前工作目录中，则 pandas 命令将是：

tips = pd.read_csv("tips.csv", sep="\t", header=None)
# alternatively, read_table is an alias to read_csv with tab delimiter
tips = pd.read_table("tips.csv", header=None)

pandas 还可以使用read_stata()函数读取.dta格式的 Stata 数据集。

df = pd.read_stata("data.dta")

除了 text/csv 和 Stata 文件外，pandas 还支持各种其他数据格式，如 Excel、SAS、HDF5、Parquet 和 SQL 数据库。这些都是通过pd.read_*函数读取的。有关更多详细信息，请参阅 IO 文档。

限制输出

默认情况下，pandas 会截断大型DataFrame的输出，以显示第一行和最后一行。可以通过更改 pandas 选项或使用DataFrame.head()或DataFrame.tail()来覆盖此行为。

In [8]: tips.head(5)
Out[8]: 
 total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4

在 Stata 中的等价操作是：

list in 1/5

导出数据

在 Stata 中，import delimited的反向操作是export delimited。

export delimited tips2.csv

类似地，在 pandas 中，read_csv的反向操作是DataFrame.to_csv()。

tips.to_csv("tips2.csv")

pandas 还可以使用DataFrame.to_stata()方法导出为 Stata 文件格式。

tips.to_stata("tips2.dta")

数据操作

列上的操作

在 Stata 中，可以在新列或现有列上使用generate和replace命令进行任意数学表达式运算。drop命令会从数据集中删除该列。

replace total_bill = total_bill - 2
generate new_bill = total_bill / 2
drop new_bill

pandas 通过在 DataFrame 中指定单独的 Series 来提供矢量化操作。新列可以以相同的方式分配。DataFrame.drop() 方法从 DataFrame 中删除列。

In [9]: tips["total_bill"] = tips["total_bill"] - 2
In [10]: tips["new_bill"] = tips["total_bill"] / 2
In [11]: tips
Out[11]: 
 total_bill   tip     sex smoker   day    time  size  new_bill
0         14.99  1.01  Female     No   Sun  Dinner     2     7.495
1          8.34  1.66    Male     No   Sun  Dinner     3     4.170
2         19.01  3.50    Male     No   Sun  Dinner     3     9.505
3         21.68  3.31    Male     No   Sun  Dinner     2    10.840
4         22.59  3.61  Female     No   Sun  Dinner     4    11.295
..          ...   ...     ...    ...   ...     ...   ...       ...
239       27.03  5.92    Male     No   Sat  Dinner     3    13.515
240       25.18  2.00  Female    Yes   Sat  Dinner     2    12.590
241       20.67  2.00    Male    Yes   Sat  Dinner     2    10.335
242       15.82  1.75    Male     No   Sat  Dinner     2     7.910
243       16.78  3.00  Female     No  Thur  Dinner     2     8.390
[244 rows x 8 columns]
In [12]: tips = tips.drop("new_bill", axis=1)

筛选

在 Stata 中，通过对一个或多个列使用 if 子句来进行筛选。

list if total_bill > 10

DataFrames 可以通过多种方式进行筛选；其中最直观的是使用布尔索引。

In [13]: tips[tips["total_bill"] > 10]
Out[13]: 
 total_bill   tip     sex smoker   day    time  size
0         14.99  1.01  Female     No   Sun  Dinner     2
2         19.01  3.50    Male     No   Sun  Dinner     3
3         21.68  3.31    Male     No   Sun  Dinner     2
4         22.59  3.61  Female     No   Sun  Dinner     4
5         23.29  4.71    Male     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       27.03  5.92    Male     No   Sat  Dinner     3
240       25.18  2.00  Female    Yes   Sat  Dinner     2
241       20.67  2.00    Male    Yes   Sat  Dinner     2
242       15.82  1.75    Male     No   Sat  Dinner     2
243       16.78  3.00  Female     No  Thur  Dinner     2
[204 rows x 7 columns]

上述语句只是将一个 Series 对象传递给 DataFrame，返回所有值为 True 的行。

In [14]: is_dinner = tips["time"] == "Dinner"
In [15]: is_dinner
Out[15]: 
0      True
1      True
2      True
3      True
4      True
 ... 
239    True
240    True
241    True
242    True
243    True
Name: time, Length: 244, dtype: bool
In [16]: is_dinner.value_counts()
Out[16]: 
time
True     176
False     68
Name: count, dtype: int64
In [17]: tips[is_dinner]
Out[17]: 
 total_bill   tip     sex smoker   day    time  size
0         14.99  1.01  Female     No   Sun  Dinner     2
1          8.34  1.66    Male     No   Sun  Dinner     3
2         19.01  3.50    Male     No   Sun  Dinner     3
3         21.68  3.31    Male     No   Sun  Dinner     2
4         22.59  3.61  Female     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       27.03  5.92    Male     No   Sat  Dinner     3
240       25.18  2.00  Female    Yes   Sat  Dinner     2
241       20.67  2.00    Male    Yes   Sat  Dinner     2
242       15.82  1.75    Male     No   Sat  Dinner     2
243       16.78  3.00  Female     No  Thur  Dinner     2
[176 rows x 7 columns]

If/then 逻辑

在 Stata 中，通过对一个或多个列使用 if 子句来进行筛选。

generate bucket = "low" if total_bill < 10
replace bucket = "high" if total_bill >= 10

pandas 中可以使用 numpy 的 where 方法来执行相同的操作。

In [18]: tips["bucket"] = np.where(tips["total_bill"] < 10, "low", "high")
In [19]: tips
Out[19]: 
 total_bill   tip     sex smoker   day    time  size bucket
0         14.99  1.01  Female     No   Sun  Dinner     2   high
1          8.34  1.66    Male     No   Sun  Dinner     3    low
2         19.01  3.50    Male     No   Sun  Dinner     3   high
3         21.68  3.31    Male     No   Sun  Dinner     2   high
4         22.59  3.61  Female     No   Sun  Dinner     4   high
..          ...   ...     ...    ...   ...     ...   ...    ...
239       27.03  5.92    Male     No   Sat  Dinner     3   high
240       25.18  2.00  Female    Yes   Sat  Dinner     2   high
241       20.67  2.00    Male    Yes   Sat  Dinner     2   high
242       15.82  1.75    Male     No   Sat  Dinner     2   high
243       16.78  3.00  Female     No  Thur  Dinner     2   high
[244 rows x 8 columns]

Pandas 2.2 中文官方教程和指南（六）（3）https://developer.aliyun.com/article/1509742

Pandas 2.2 中文官方教程和指南（六）（2）

缺失数据

删除具有缺失值的行

从前面的行向前填充

用指定值替换缺失值

分组

聚合

转换

按组处理

其他考虑

磁盘 vs 内存

数据结构

通用术语翻译

`DataFrame`

`Series`

`Index`

复制 vs. 原地操作

通用术语翻译

`DataFrame`

`Series`

`Index`

复制 vs. 就地操作

数据输入/输出

从数值构建 DataFrame

读取外部数据

限制输出

导出数据

从值构建 DataFrame

读取外部数据

限制输出

导出数据

数据操作

列上的操作

筛选

If/then 逻辑

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Pandas 2.2 中文官方教程和指南（六）（2）

缺失数据

删除具有缺失值的行

从前面的行向前填充

用指定值替换缺失值

分组

聚合

转换

按组处理

其他考虑

磁盘 vs 内存

数据结构

通用术语翻译

DataFrame

Series

Index

复制 vs. 原地操作

通用术语翻译

DataFrame

Series

Index

复制 vs. 就地操作

数据输入/输出

从数值构建 DataFrame

读取外部数据

限制输出

导出数据

从值构建 DataFrame

读取外部数据

限制输出

导出数据

数据操作

列上的操作

筛选

If/then 逻辑

热门文章

最新文章

相关课程

相关电子书

`DataFrame`

`Series`

`Index`

`DataFrame`

`Series`

`Index`