Pandas 2.2 中文官方教程和指南（五）（2）-阿里云开发者社区

Pandas 2.2 中文官方教程和指南（五）（1）https://developer.aliyun.com/article/1510583

缺失数据

pandas 和 SAS 都有处理缺失数据的表示方式。

pandas 用特殊的浮点值NaN（不是一个数字）表示缺失数据。许多语义是相同的；例如，缺失数据会在数值操作中传播，并且默认情况下会被聚合忽略。

In [1]: outer_join
Out[1]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059       NaN
3   D -1.135632 -0.173215
4   D -1.135632  0.119209
5   E       NaN -1.044236
In [2]: outer_join["value_x"] + outer_join["value_y"]
Out[2]: 
0         NaN
1    0.929249
2         NaN
3   -1.308847
4   -1.016424
5         NaN
dtype: float64
In [3]: outer_join["value_x"].sum()
Out[3]: -3.5940742896293765

一个区别是缺失数据不能与其标记值进行比较。例如，在 SAS 中，您可以这样做来过滤缺失值。

data outer_join_nulls;
    set outer_join;
    if value_x = .;
run;
data outer_join_no_nulls;
    set outer_join;
    if value_x ^= .;
run;

在 pandas 中，Series.isna()和Series.notna()可用于过滤行。

In [1]: outer_join[outer_join["value_x"].isna()]
Out[1]: 
 key  value_x   value_y
5   E      NaN -1.044236
In [2]: outer_join[outer_join["value_x"].notna()]
Out[2]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059       NaN
3   D -1.135632 -0.173215
4   D -1.135632  0.119209

pandas 提供了处理缺失数据的各种方法。以下是一些示例：

删除具有缺失值的行

In [3]: outer_join.dropna()
Out[3]: 
 key   value_x   value_y
1   B -0.282863  1.212112
3   D -1.135632 -0.173215
4   D -1.135632  0.119209

从前面的行向前填充

In [4]: outer_join.ffill()
Out[4]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059  1.212112
3   D -1.135632 -0.173215
4   D -1.135632  0.119209
5   E -1.135632 -1.044236

用指定值替换缺失值

使用均值：

In [5]: outer_join["value_x"].fillna(outer_join["value_x"].mean())
Out[5]: 
0    0.469112
1   -0.282863
2   -1.509059
3   -1.135632
4   -1.135632
5   -0.718815
Name: value_x, dtype: float64

GroupBy

聚合

SAS 的PROC SUMMARY可以用于按一个或多个关键变量分组，并在数值列上计算聚合。

proc summary data=tips nway;
    class sex smoker;
    var total_bill tip;
    output out=tips_summed sum=;
run;

pandas 提供了灵活的groupby机制，允许类似的聚合。有关更多详细信息和示例，请参阅 groupby 文档。

In [1]: tips_summed = tips.groupby(["sex", "smoker"])[["total_bill", "tip"]].sum()
In [2]: tips_summed
Out[2]: 
 total_bill     tip
sex    smoker 
Female No          869.68  149.77
 Yes         527.27   96.74
Male   No         1725.75  302.00
 Yes        1217.07  183.07

转换

在 SAS 中，如果需要将组聚合与原始框架一起使用，则必须将其合并在一起。例如，通过吸烟者组减去每个观察值的均值。

proc summary data=tips missing nway;
    class smoker;
    var total_bill;
    output out=smoker_means mean(total_bill)=group_bill;
run;
proc sort data=tips;
    by smoker;
run;
data tips;
    merge tips(in=a) smoker_means(in=b);
    by smoker;
    adj_total_bill = total_bill - group_bill;
    if a and b;
run;

pandas 提供了一个转换机制，允许这些类型的操作在一个操作中简洁地表达。

In [1]: gb = tips.groupby("smoker")["total_bill"]
In [2]: tips["adj_total_bill"] = tips["total_bill"] - gb.transform("mean")
In [3]: tips
Out[3]: 
 total_bill    tip     sex smoker   day    time  size  adj_total_bill
67         1.07   1.00  Female    Yes   Sat  Dinner     1      -17.686344
92         3.75   1.00  Female    Yes   Fri  Dinner     2      -15.006344
111        5.25   1.00  Female     No   Sat  Dinner     1      -11.938278
145        6.35   1.50  Female     No  Thur   Lunch     2      -10.838278
135        6.51   1.25  Female     No  Thur   Lunch     2      -10.678278
..          ...    ...     ...    ...   ...     ...   ...             ...
182       43.35   3.50    Male    Yes   Sun  Dinner     3       24.593656
156       46.17   5.00    Male     No   Sun  Dinner     6       28.981722
59        46.27   6.73    Male     No   Sat  Dinner     4       29.081722
212       46.33   9.00    Male     No   Sat  Dinner     4       29.141722
170       48.81  10.00    Male    Yes   Sat  Dinner     3       30.053656
[244 rows x 8 columns]

按组处理

除了聚合，pandas 的groupby还可以用于复制 SAS 中的大多数按组处理。例如，这个DATA步骤按性别/吸烟者组读取数据，并过滤到每个组的第一个条目。

proc sort data=tips;
   by sex smoker;
run;
data tips_first;
    set tips;
    by sex smoker;
    if FIRST.sex or FIRST.smoker then output;
run;

在 pandas 中，这将被写为：

In [4]: tips.groupby(["sex", "smoker"]).first()
Out[4]: 
 total_bill   tip   day    time  size  adj_total_bill
sex    smoker 
Female No            5.25  1.00   Sat  Dinner     1      -11.938278
 Yes           1.07  1.00   Sat  Dinner     1      -17.686344
Male   No            5.51  2.00  Thur   Lunch     2      -11.678278
 Yes           5.25  5.15   Sun  Dinner     2      -13.506344

其他考虑因素

磁盘与内存

pandas 仅在内存中运行，而 SAS 数据集存在于磁盘上。这意味着 pandas 能够加载的数据大小受限于计算机的内存，但也意味着对该数据的操作可能更快。

如果需要进行外部处理，一种可能性是dask.dataframe库（目前正在开发中），它为磁盘上的DataFrame提供了一部分 pandas 功能。

数据互操作

pandas 提供了一个read_sas()方法，可以读取以 XPORT 或 SAS7BDAT 二进制格式保存的 SAS 数据。

libname xportout xport 'transport-file.xpt';
data xportout.tips;
    set tips(rename=(total_bill=tbill));
 * xport variable names limited to 6 characters;
run;

df = pd.read_sas("transport-file.xpt")
df = pd.read_sas("binary-file.sas7bdat")

你也可以直接指定文件格式。默认情况下，pandas 会根据文件扩展名来推断文件格式。

df = pd.read_sas("transport-file.xpt", format="xport")
df = pd.read_sas("binary-file.sas7bdat", format="sas7bdat")

XPORT 是一种相对有限的格式，其解析不像其他 pandas 读取器那样优化。在 SAS 和 pandas 之间交换数据的另一种方法是序列化为 csv。

# version 0.17, 10M rows
In [8]: %time df = pd.read_sas('big.xpt')
Wall time: 14.6 s
In [9]: %time df = pd.read_csv('big.csv')
Wall time: 4.86 s

数据结构

通用术语翻译

pandas	SAS
`DataFrame`	数据集
列	变量
行	观察
分组	BY 组
`NaN`	`.`

`DataFrame`

在 pandas 中，DataFrame类似于 SAS 数据集 - 一个具有标记列的二维数据源，可以是不同类型。正如本文档所示，几乎任何可以使用 SAS 的DATA步骤应用于数据集的操作，也可以在 pandas 中完成。

`Series`

Series是表示DataFrame的一列的数据结构。SAS 没有单独的数据结构用于单列，但通常，使用Series类似于在DATA步骤中引用列。

`Index`

每个DataFrame和Series都有一个Index - 这些是数据的行上的标签。SAS 没有完全类似的概念。数据集的行基本上是无标签的，除了在DATA步骤中可以访问的隐式整数索引（_N_）。

在 pandas 中，如果未指定索引，则默认情况下也使用整数索引（第一行=0，第二行=1，依此类推）。虽然使用带标签的Index或MultiIndex可以实现复杂的分析，并最终是理解 pandas 的重要部分，但在此比较中，我们将基本上忽略Index，只将DataFrame视为列的集合。请参阅索引文档以了解如何有效使用Index。

复制与原地操作

大多数 pandas 操作返回Series/DataFrame的副本。要使更改“生效”，您需要将其分配给一个新变量：

sorted_df = df.sort_values("col1")

或覆盖原始变量：

df = df.sort_values("col1")

注意

您将看到一些方法可用的inplace=True或copy=False关键字参数：

df.replace(5, inplace=True)

有关废弃和删除inplace和copy的讨论正在进行中，适用于大多数方法（例如dropna），除了一小部分方法（包括replace）。在写时复制的情况下，这两个关键字将不再必要。提案可以在这里找到。

通用术语翻译

pandas	SAS
`DataFrame`	数据集
column	变量
row	观察
groupby	BY-group
`NaN`	`.`

`DataFrame`

在 pandas 中，DataFrame类似于 SAS 数据集 - 一个具有带标签列的二维数据源，可以是不同类型的数据。正如本文档所示，几乎可以使用 SAS 的DATA步骤对数据集应用的任何操作，也可以在 pandas 中完成。

`Series`

Series是表示DataFrame的一列的数据结构。SAS 没有单独的数据结构用于单列，但通常，使用Series类似于在DATA步骤中引用列。

`Index`

每个DataFrame和Series都有一个Index - 这些是数据的行上的标签。SAS 没有完全类似的概念。数据集的行基本上没有标签，除了在DATA步骤中可以访问的隐式整数索引（_N_）。

复制与原地操作

大多数 pandas 操作返回Series/DataFrame的副本。要使更改“生效”，您需要将其分配给一个新变量：

sorted_df = df.sort_values("col1")

或覆盖原始变量：

df = df.sort_values("col1")

注意

您将看到一些方法可用的inplace=True或copy=False关键字参数：

df.replace(5, inplace=True)

关于在大多数方法（例如 dropna）中废弃和删除 inplace 和 copy 正在进行活跃讨论，除了非常小的一部分方法（包括 replace）。在写时复制的情况下，这两个关键字将不再需要。提案可以在这里找到。

数据输入 / 输出

从数值构建 DataFrame

可以通过在 datalines 语句后放置数据并指定列名来构建指定值的 SAS 数据集。

data df;
    input x y;
 datalines;
 1 2
 3 4
 5 6
 ;
run;

可以用许多不同的方式构建 pandas 的 DataFrame，但对于少量的值，将其指定为 Python 字典通常很方便，其中键是列名，值是数据。

In [1]: df = pd.DataFrame({"x": [1, 3, 5], "y": [2, 4, 6]})
In [2]: df
Out[2]: 
 x  y
0  1  2
1  3  4
2  5  6

读取外部数据

像 SAS 一样，pandas 提供了从多种格式中读取数据的工具。在 pandas 测试中找到的 tips 数据集（csv）将在接下来的许多示例中使用。

SAS 提供了 PROC IMPORT 以将 csv 数据读入数据集。

proc import datafile='tips.csv' dbms=csv out=tips replace;
    getnames=yes;
run;

pandas 方法是 read_csv()，其工作方式类似。

In [3]: url = (
 ...:    "https://raw.githubusercontent.com/pandas-dev/"
 ...:    "pandas/main/pandas/tests/io/data/csv/tips.csv"
 ...: )
 ...: 
In [4]: tips = pd.read_csv(url)
In [5]: tips
Out[5]: 
 total_bill   tip     sex smoker   day    time  size
0         16.99  1.01  Female     No   Sun  Dinner     2
1         10.34  1.66    Male     No   Sun  Dinner     3
2         21.01  3.50    Male     No   Sun  Dinner     3
3         23.68  3.31    Male     No   Sun  Dinner     2
4         24.59  3.61  Female     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       29.03  5.92    Male     No   Sat  Dinner     3
240       27.18  2.00  Female    Yes   Sat  Dinner     2
241       22.67  2.00    Male    Yes   Sat  Dinner     2
242       17.82  1.75    Male     No   Sat  Dinner     2
243       18.78  3.00  Female     No  Thur  Dinner     2
[244 rows x 7 columns]

像 PROC IMPORT 一样，read_csv 可以接受多个参数来指定数据应该如何解析。例如，如果数据是以制表符分隔的，并且没有列名，则 pandas 命令将是：

tips = pd.read_csv("tips.csv", sep="\t", header=None)
# alternatively, read_table is an alias to read_csv with tab delimiter
tips = pd.read_table("tips.csv", header=None)

除了 text/csv，pandas 还支持多种其他数据格式，如 Excel、HDF5 和 SQL 数据库。所有这些都是通过 pd.read_* 函数读取的。有关更多详细信息，请参阅 IO 文档。

限制输出

默认情况下，pandas 会截断大的 DataFrame 输出以显示第一行和最后一行。这可以通过更改 pandas 选项或使用 DataFrame.head() 或 DataFrame.tail() 来覆盖。

In [1]: tips.head(5)
Out[1]: 
 total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4

在 SAS 中等效的是：

proc print data=df(obs=5);
run;

导出数据

SAS 中 PROC IMPORT 的反操作是 PROC EXPORT

proc export data=tips outfile='tips2.csv' dbms=csv;
run;

同样地，在 pandas 中，read_csv 的相反操作是 to_csv()，其他数据格式也遵循类似的 API。

tips.to_csv("tips2.csv")

从数值构建 DataFrame

可以通过在 datalines 语句后放置数据并指定列名来构建指定值的 SAS 数据集。

data df;
    input x y;
 datalines;
 1 2
 3 4
 5 6
 ;
run;

可以用许多不同的方式构建 pandas 的 DataFrame，但对于少量的值，将其指定为 Python 字典通常很方便，其中键是列名，值是数据。

In [1]: df = pd.DataFrame({"x": [1, 3, 5], "y": [2, 4, 6]})
In [2]: df
Out[2]: 
 x  y
0  1  2
1  3  4
2  5  6

读取外部数据

与 SAS 类似，pandas 提供了从许多格式中读取数据的实用程序。在 pandas 测试中找到的tips数据集（csv）将在接下来的许多示例中使用。

SAS 提供了PROC IMPORT来将 csv 数据读入数据集。

proc import datafile='tips.csv' dbms=csv out=tips replace;
    getnames=yes;
run;

pandas 方法是read_csv()，工作方式类似。

In [3]: url = (
 ...:    "https://raw.githubusercontent.com/pandas-dev/"
 ...:    "pandas/main/pandas/tests/io/data/csv/tips.csv"
 ...: )
 ...: 
In [4]: tips = pd.read_csv(url)
In [5]: tips
Out[5]: 
 total_bill   tip     sex smoker   day    time  size
0         16.99  1.01  Female     No   Sun  Dinner     2
1         10.34  1.66    Male     No   Sun  Dinner     3
2         21.01  3.50    Male     No   Sun  Dinner     3
3         23.68  3.31    Male     No   Sun  Dinner     2
4         24.59  3.61  Female     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       29.03  5.92    Male     No   Sat  Dinner     3
240       27.18  2.00  Female    Yes   Sat  Dinner     2
241       22.67  2.00    Male    Yes   Sat  Dinner     2
242       17.82  1.75    Male     No   Sat  Dinner     2
243       18.78  3.00  Female     No  Thur  Dinner     2
[244 rows x 7 columns]

与PROC IMPORT类似，read_csv可以接受多个参数来指定数据应如何解析。例如，如果数据是制表符分隔的，并且没有列名，pandas 命令将是：

tips = pd.read_csv("tips.csv", sep="\t", header=None)
# alternatively, read_table is an alias to read_csv with tab delimiter
tips = pd.read_table("tips.csv", header=None)

除了文本/csv，pandas 还支持多种其他数据格式，如 Excel、HDF5 和 SQL 数据库。这些都是通过pd.read_*函数读取的。更多详情请参阅 IO 文档。

限制输出

默认情况下，pandas 会截断大型DataFrame的输出以显示第一行和最后一行。这可以通过更改 pandas 选项，或使用DataFrame.head()或DataFrame.tail()来覆盖。

In [1]: tips.head(5)
Out[1]: 
 total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4

在 SAS 中的等效操作是：

proc print data=df(obs=5);
run;

导出数据

在 SAS 中，PROC IMPORT的反向操作是PROC EXPORT

proc export data=tips outfile='tips2.csv' dbms=csv;
run;

类似于 pandas，read_csv的相反操作是to_csv()，其他数据格式遵循类似的 api。

tips.to_csv("tips2.csv")

数据操作

列操作

在DATA步骤中，可以对新列或现有列使用任意数学表达式。

data tips;
    set tips;
    total_bill = total_bill - 2;
    new_bill = total_bill / 2;
run;

pandas 通过在DataFrame中指定各个Series来提供矢量化操作。新列可以以相同方式分配。DataFrame.drop()方法从DataFrame中删除列。

In [1]: tips["total_bill"] = tips["total_bill"] - 2
In [2]: tips["new_bill"] = tips["total_bill"] / 2
In [3]: tips
Out[3]: 
 total_bill   tip     sex smoker   day    time  size  new_bill
0         14.99  1.01  Female     No   Sun  Dinner     2     7.495
1          8.34  1.66    Male     No   Sun  Dinner     3     4.170
2         19.01  3.50    Male     No   Sun  Dinner     3     9.505
3         21.68  3.31    Male     No   Sun  Dinner     2    10.840
4         22.59  3.61  Female     No   Sun  Dinner     4    11.295
..          ...   ...     ...    ...   ...     ...   ...       ...
239       27.03  5.92    Male     No   Sat  Dinner     3    13.515
240       25.18  2.00  Female    Yes   Sat  Dinner     2    12.590
241       20.67  2.00    Male    Yes   Sat  Dinner     2    10.335
242       15.82  1.75    Male     No   Sat  Dinner     2     7.910
243       16.78  3.00  Female     No  Thur  Dinner     2     8.390
[244 rows x 8 columns]
In [4]: tips = tips.drop("new_bill", axis=1)

过滤

在 SAS 中，使用if或where语句对一个或多个列进行过滤。

data tips;
    set tips;
    if total_bill > 10;
run;
data tips;
    set tips;
    where total_bill > 10;
    /* equivalent in this case - where happens before the
 DATA step begins and can also be used in PROC statements */
run;

数据框可以以多种方式进行过滤；其中最直观的是使用布尔索引。

In [1]: tips[tips["total_bill"] > 10]
Out[1]: 
 total_bill   tip     sex smoker   day    time  size
0         14.99  1.01  Female     No   Sun  Dinner     2
2         19.01  3.50    Male     No   Sun  Dinner     3
3         21.68  3.31    Male     No   Sun  Dinner     2
4         22.59  3.61  Female     No   Sun  Dinner     4
5         23.29  4.71    Male     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       27.03  5.92    Male     No   Sat  Dinner     3
240       25.18  2.00  Female    Yes   Sat  Dinner     2
241       20.67  2.00    Male    Yes   Sat  Dinner     2
242       15.82  1.75    Male     No   Sat  Dinner     2
243       16.78  3.00  Female     No  Thur  Dinner     2
[204 rows x 7 columns]

上述语句只是将True/False对象的Series传递给数据框，返回所有具有True的行。

In [2]: is_dinner = tips["time"] == "Dinner"
In [3]: is_dinner
Out[3]: 
0      True
1      True
2      True
3      True
4      True
 ... 
239    True
240    True
241    True
242    True
243    True
Name: time, Length: 244, dtype: bool
In [4]: is_dinner.value_counts()
Out[4]: 
time
True     176
False     68
Name: count, dtype: int64
In [5]: tips[is_dinner]
Out[5]: 
 total_bill   tip     sex smoker   day    time  size
0         14.99  1.01  Female     No   Sun  Dinner     2
1          8.34  1.66    Male     No   Sun  Dinner     3
2         19.01  3.50    Male     No   Sun  Dinner     3
3         21.68  3.31    Male     No   Sun  Dinner     2
4         22.59  3.61  Female     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       27.03  5.92    Male     No   Sat  Dinner     3
240       25.18  2.00  Female    Yes   Sat  Dinner     2
241       20.67  2.00    Male    Yes   Sat  Dinner     2
242       15.82  1.75    Male     No   Sat  Dinner     2
243       16.78  3.00  Female     No  Thur  Dinner     2
[176 rows x 7 columns]

if/then 逻辑

在 SAS 中，可以使用 if/then 逻辑来创建新列。

data tips;
    set tips;
    format bucket $4.;
    if total_bill < 10 then bucket = 'low';
    else bucket = 'high';
run;

在 pandas 中，可以使用numpy中的where方法来完成相同的操作。

In [1]: tips["bucket"] = np.where(tips["total_bill"] < 10, "low", "high")
In [2]: tips
Out[2]: 
 total_bill   tip     sex smoker   day    time  size bucket
0         14.99  1.01  Female     No   Sun  Dinner     2   high
1          8.34  1.66    Male     No   Sun  Dinner     3    low
2         19.01  3.50    Male     No   Sun  Dinner     3   high
3         21.68  3.31    Male     No   Sun  Dinner     2   high
4         22.59  3.61  Female     No   Sun  Dinner     4   high
..          ...   ...     ...    ...   ...     ...   ...    ...
239       27.03  5.92    Male     No   Sat  Dinner     3   high
240       25.18  2.00  Female    Yes   Sat  Dinner     2   high
241       20.67  2.00    Male    Yes   Sat  Dinner     2   high
242       15.82  1.75    Male     No   Sat  Dinner     2   high
243       16.78  3.00  Female     No  Thur  Dinner     2   high
[244 rows x 8 columns]

日期功能

SAS 提供了多种函数来对日期/时间列进行操作。

data tips;
    set tips;
    format date1 date2 date1_plusmonth mmddyy10.;
    date1 = mdy(1, 15, 2013);
    date2 = mdy(2, 15, 2015);
    date1_year = year(date1);
    date2_month = month(date2);
 * shift date to beginning of next interval;
    date1_next = intnx('MONTH', date1, 1);
 * count intervals between dates;
    months_between = intck('MONTH', date1, date2);
run;

下面显示了等效的 pandas 操作。除了这些功能外，pandas 还支持 Base SAS 中不可用的其他时间序列功能（例如重新采样和自定义偏移）-请参阅 timeseries 文档了解更多详情。

In [1]: tips["date1"] = pd.Timestamp("2013-01-15")
In [2]: tips["date2"] = pd.Timestamp("2015-02-15")
In [3]: tips["date1_year"] = tips["date1"].dt.year
In [4]: tips["date2_month"] = tips["date2"].dt.month
In [5]: tips["date1_next"] = tips["date1"] + pd.offsets.MonthBegin()
In [6]: tips["months_between"] = tips["date2"].dt.to_period("M") - tips[
 ...:    "date1"
 ...: ].dt.to_period("M")
 ...: 
In [7]: tips[
 ...:    ["date1", "date2", "date1_year", "date2_month", "date1_next", "months_between"]
 ...: ]
 ...: 
Out[7]: 
 date1      date2  date1_year  date2_month date1_next    months_between
0   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
1   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
2   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
3   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
4   2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
..         ...        ...         ...          ...        ...               ...
239 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
240 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
241 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
242 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
243 2013-01-15 2015-02-15        2013            2 2013-02-01  <25 * MonthEnds>
[244 rows x 6 columns]

Pandas 2.2 中文官方教程和指南（五）（3）https://developer.aliyun.com/article/1510585

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Pandas 2.2 中文官方教程和指南（五）（2）

缺失数据

删除具有缺失值的行

从前面的行向前填充

用指定值替换缺失值

GroupBy

聚合

转换

按组处理

其他考虑因素

磁盘与内存

数据互操作

数据结构

通用术语翻译

DataFrame

Series

Index

复制与原地操作

通用术语翻译

DataFrame

Series

Index

复制与原地操作

数据输入 / 输出

从数值构建 DataFrame

读取外部数据

限制输出

导出数据

从数值构建 DataFrame

读取外部数据

限制输出

导出数据

数据操作

列操作

过滤

if/then 逻辑

日期功能

热门文章

最新文章

相关课程

相关电子书

相关实验场景

`DataFrame`

`Series`

`Index`

`DataFrame`

`Series`

`Index`