Pandas 2.2 中文官方教程和指南（五）（4）-阿里云开发者社区

Pandas 2.2 中文官方教程和指南（五）（3）https://developer.aliyun.com/article/1510585

查找字符串的长度

SAS 使用LENGTHN和LENGTHC函数确定字符字符串的长度。LENGTHN排除尾随空格，LENGTHC包括尾随空格。

data _null_;
set tips;
put(LENGTHN(time));
put(LENGTHC(time));
run;

您可以使用Series.str.len()找到字符字符串的长度。在 Python 3 中，所有字符串都是 Unicode 字符串。len包括尾随空格。使用len和rstrip来排除尾随空格。

In [1]: tips["time"].str.len()
Out[1]: 
67     6
92     6
111    6
145    5
135    5
 ..
182    6
156    6
59     6
212    6
170    6
Name: time, Length: 244, dtype: int64
In [2]: tips["time"].str.rstrip().str.len()
Out[2]: 
67     6
92     6
111    6
145    5
135    5
 ..
182    6
156    6
59     6
212    6
170    6
Name: time, Length: 244, dtype: int64

查找子字符串的位置

SAS 使用FINDW函数确定字符串中字符的位置。FINDW接受由第一个参数定义的字符串，并搜索你提供的第二个参数作为子字符串的第一个位置。

data _null_;
set tips;
put(FINDW(sex,'ale'));
run;

您可以使用Series.str.find()方法在字符串列中找到字符的位置。find搜索子字符串的第一个位置。如果找到子字符串，则该方法返回其位置。如果未找到，则返回-1。请记住，Python 索引是从零开始的。

In [1]: tips["sex"].str.find("ale")
Out[1]: 
67     3
92     3
111    3
145    3
135    3
 ..
182    1
156    1
59     1
212    1
170    1
Name: sex, Length: 244, dtype: int64

按位置提取子字符串

SAS 使用SUBSTR函数根据其位置从字符串中提取子字符串。

data _null_;
set tips;
put(substr(sex,1,1));
run;

使用 pandas，您可以使用[]符号按位置位置从字符串中提取子字符串。请记住，Python 索引是从零开始的。

In [1]: tips["sex"].str[0:1]
Out[1]: 
67     F
92     F
111    F
145    F
135    F
 ..
182    M
156    M
59     M
212    M
170    M
Name: sex, Length: 244, dtype: object

提取第 n 个单词

SAS 的SCAN函数从字符串中返回第 n 个单词。第一个参数是要解析的字符串，第二个参数指定要提取的单词。

data firstlast;
input String $60.;
First_Name = scan(string, 1);
Last_Name = scan(string, -1);
datalines2;
John Smith;
Jane Cook;
;;;
run;

用 pandas 提取单词的最简单方法是通过空格分割字符串，然后通过索引引用单词。请注意，如果需要，还有更强大的方法。

In [1]: firstlast = pd.DataFrame({"String": ["John Smith", "Jane Cook"]})
In [2]: firstlast["First_Name"] = firstlast["String"].str.split(" ", expand=True)[0]
In [3]: firstlast["Last_Name"] = firstlast["String"].str.rsplit(" ", expand=True)[1]
In [4]: firstlast
Out[4]: 
 String First_Name Last_Name
0  John Smith       John     Smith
1   Jane Cook       Jane      Cook

更改大小写

SAS 的 UPCASE、LOWCASE 和 PROPCASE 函数改变参数的大小写。

data firstlast;
input String $60.;
string_up = UPCASE(string);
string_low = LOWCASE(string);
string_prop = PROPCASE(string);
datalines2;
John Smith;
Jane Cook;
;;;
run;

pandas 相应的方法为Series.str.upper()、Series.str.lower()和Series.str.title()。

In [1]: firstlast = pd.DataFrame({"string": ["John Smith", "Jane Cook"]})
In [2]: firstlast["upper"] = firstlast["string"].str.upper()
In [3]: firstlast["lower"] = firstlast["string"].str.lower()
In [4]: firstlast["title"] = firstlast["string"].str.title()
In [5]: firstlast
Out[5]: 
 string       upper       lower       title
0  John Smith  JOHN SMITH  john smith  John Smith
1   Jane Cook   JANE COOK   jane cook   Jane Cook

合并

合并示例中将使用以下表格：

In [1]: df1 = pd.DataFrame({"key": ["A", "B", "C", "D"], "value": np.random.randn(4)})
In [2]: df1
Out[2]: 
 key     value
0   A  0.469112
1   B -0.282863
2   C -1.509059
3   D -1.135632
In [3]: df2 = pd.DataFrame({"key": ["B", "D", "D", "E"], "value": np.random.randn(4)})
In [4]: df2
Out[4]: 
 key     value
0   B  1.212112
1   D -0.173215
2   D  0.119209
3   E -1.044236

在 SAS 中，数据必须在合并之前明确排序。使用 in= 虚拟变量来实现不同类型的连接，以跟踪在一个或两个输入框架中是否找到了匹配项。

proc sort data=df1;
    by key;
run;
proc sort data=df2;
    by key;
run;
data left_join inner_join right_join outer_join;
    merge df1(in=a) df2(in=b);
    if a and b then output inner_join;
    if a then output left_join;
    if b then output right_join;
    if a or b then output outer_join;
run;

pandas DataFrame 有一个merge()方法，提供了类似的功能。数据不必提前排序，并且不同的连接类型通过 how 关键字实现。

In [1]: inner_join = df1.merge(df2, on=["key"], how="inner")
In [2]: inner_join
Out[2]: 
 key   value_x   value_y
0   B -0.282863  1.212112
1   D -1.135632 -0.173215
2   D -1.135632  0.119209
In [3]: left_join = df1.merge(df2, on=["key"], how="left")
In [4]: left_join
Out[4]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059       NaN
3   D -1.135632 -0.173215
4   D -1.135632  0.119209
In [5]: right_join = df1.merge(df2, on=["key"], how="right")
In [6]: right_join
Out[6]: 
 key   value_x   value_y
0   B -0.282863  1.212112
1   D -1.135632 -0.173215
2   D -1.135632  0.119209
3   E       NaN -1.044236
In [7]: outer_join = df1.merge(df2, on=["key"], how="outer")
In [8]: outer_join
Out[8]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059       NaN
3   D -1.135632 -0.173215
4   D -1.135632  0.119209
5   E       NaN -1.044236

缺失数据

pandas 和 SAS 都有一个表示缺失数据的表示形式。

pandas 用特殊的浮点值 NaN（不是一个数字）表示缺失数据。许多语义是相同的；例如，缺失数据在数值运算中传播，并且默认情况下在聚合中被忽略。

In [1]: outer_join
Out[1]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059       NaN
3   D -1.135632 -0.173215
4   D -1.135632  0.119209
5   E       NaN -1.044236
In [2]: outer_join["value_x"] + outer_join["value_y"]
Out[2]: 
0         NaN
1    0.929249
2         NaN
3   -1.308847
4   -1.016424
5         NaN
dtype: float64
In [3]: outer_join["value_x"].sum()
Out[3]: -3.5940742896293765

一个区别是缺失数据不能与其标志值进行比较。例如，在 SAS 中，您可以这样做来过滤缺失值。

data outer_join_nulls;
    set outer_join;
    if value_x = .;
run;
data outer_join_no_nulls;
    set outer_join;
    if value_x ^= .;
run;

在 pandas 中，可以使用Series.isna()和Series.notna()来过滤行。

In [1]: outer_join[outer_join["value_x"].isna()]
Out[1]: 
 key  value_x   value_y
5   E      NaN -1.044236
In [2]: outer_join[outer_join["value_x"].notna()]
Out[2]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059       NaN
3   D -1.135632 -0.173215
4   D -1.135632  0.119209

pandas 提供了多种处理缺失数据的方法。以下是一些示例：

删除含有缺失值的行

In [3]: outer_join.dropna()
Out[3]: 
 key   value_x   value_y
1   B -0.282863  1.212112
3   D -1.135632 -0.173215
4   D -1.135632  0.119209

从前面的行向前填充

In [4]: outer_join.ffill()
Out[4]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059  1.212112
3   D -1.135632 -0.173215
4   D -1.135632  0.119209
5   E -1.135632 -1.044236

用指定值替换缺失值

使用均值：

In [5]: outer_join["value_x"].fillna(outer_join["value_x"].mean())
Out[5]: 
0    0.469112
1   -0.282863
2   -1.509059
3   -1.135632
4   -1.135632
5   -0.718815
Name: value_x, dtype: float64

删除含有缺失值的行

In [3]: outer_join.dropna()
Out[3]: 
 key   value_x   value_y
1   B -0.282863  1.212112
3   D -1.135632 -0.173215
4   D -1.135632  0.119209

从前面的行向前填充

In [4]: outer_join.ffill()
Out[4]: 
 key   value_x   value_y
0   A  0.469112       NaN
1   B -0.282863  1.212112
2   C -1.509059  1.212112
3   D -1.135632 -0.173215
4   D -1.135632  0.119209
5   E -1.135632 -1.044236

用指定值替换缺失值

使用均值：

In [5]: outer_join["value_x"].fillna(outer_join["value_x"].mean())
Out[5]: 
0    0.469112
1   -0.282863
2   -1.509059
3   -1.135632
4   -1.135632
5   -0.718815
Name: value_x, dtype: float64

分组

聚合

SAS 的 PROC SUMMARY 可以用于按一个或多个关键变量分组，并对数值列进行聚合计算。

proc summary data=tips nway;
    class sex smoker;
    var total_bill tip;
    output out=tips_summed sum=;
run;

pandas 提供了灵活的 groupby 机制，允许进行类似的聚合。详细内容和示例请参阅 groupby 文档。

In [1]: tips_summed = tips.groupby(["sex", "smoker"])[["total_bill", "tip"]].sum()
In [2]: tips_summed
Out[2]: 
 total_bill     tip
sex    smoker 
Female No          869.68  149.77
 Yes         527.27   96.74
Male   No         1725.75  302.00
 Yes        1217.07  183.07

转换

在 SAS 中，如果需要将组聚合与原始框架一起使用，则必须将其合并回来。例如，通过吸烟者组逐个观察减去均值。

proc summary data=tips missing nway;
    class smoker;
    var total_bill;
    output out=smoker_means mean(total_bill)=group_bill;
run;
proc sort data=tips;
    by smoker;
run;
data tips;
    merge tips(in=a) smoker_means(in=b);
    by smoker;
    adj_total_bill = total_bill - group_bill;
    if a and b;
run;

pandas 提供了一个 Transformation 机制，允许这些类型的操作在一个操作中简洁地表达。

In [1]: gb = tips.groupby("smoker")["total_bill"]
In [2]: tips["adj_total_bill"] = tips["total_bill"] - gb.transform("mean")
In [3]: tips
Out[3]: 
 total_bill    tip     sex smoker   day    time  size  adj_total_bill
67         1.07   1.00  Female    Yes   Sat  Dinner     1      -17.686344
92         3.75   1.00  Female    Yes   Fri  Dinner     2      -15.006344
111        5.25   1.00  Female     No   Sat  Dinner     1      -11.938278
145        6.35   1.50  Female     No  Thur   Lunch     2      -10.838278
135        6.51   1.25  Female     No  Thur   Lunch     2      -10.678278
..          ...    ...     ...    ...   ...     ...   ...             ...
182       43.35   3.50    Male    Yes   Sun  Dinner     3       24.593656
156       46.17   5.00    Male     No   Sun  Dinner     6       28.981722
59        46.27   6.73    Male     No   Sat  Dinner     4       29.081722
212       46.33   9.00    Male     No   Sat  Dinner     4       29.141722
170       48.81  10.00    Male    Yes   Sat  Dinner     3       30.053656
[244 rows x 8 columns]

按组处理

除了聚合，pandas 的groupby还可以用于复制 SAS 中的大多数其他按组处理。例如，这个DATA步骤按性别/吸烟者组读取数据，并过滤到每个组的第一个条目。

proc sort data=tips;
   by sex smoker;
run;
data tips_first;
    set tips;
    by sex smoker;
    if FIRST.sex or FIRST.smoker then output;
run;

在 pandas 中，这样写：

In [4]: tips.groupby(["sex", "smoker"]).first()
Out[4]: 
 total_bill   tip   day    time  size  adj_total_bill
sex    smoker 
Female No            5.25  1.00   Sat  Dinner     1      -11.938278
 Yes           1.07  1.00   Sat  Dinner     1      -17.686344
Male   No            5.51  2.00  Thur   Lunch     2      -11.678278
 Yes           5.25  5.15   Sun  Dinner     2      -13.506344

聚合

SAS 的PROC SUMMARY可以用于按一个或多个关键变量分组，并在数值列上计算聚合。

proc summary data=tips nway;
    class sex smoker;
    var total_bill tip;
    output out=tips_summed sum=;
run;

pandas 提供了灵活的groupby机制，允许进行类似的聚合。查看 groupby 文档获取更多详细信息和示例。

In [1]: tips_summed = tips.groupby(["sex", "smoker"])[["total_bill", "tip"]].sum()
In [2]: tips_summed
Out[2]: 
 total_bill     tip
sex    smoker 
Female No          869.68  149.77
 Yes         527.27   96.74
Male   No         1725.75  302.00
 Yes        1217.07  183.07

转换

在 SAS 中，如果需要将组聚合与原始框架一起使用，则必须将其合并在一起。例如，通过吸烟者组减去每个观察值的平均值。

proc summary data=tips missing nway;
    class smoker;
    var total_bill;
    output out=smoker_means mean(total_bill)=group_bill;
run;
proc sort data=tips;
    by smoker;
run;
data tips;
    merge tips(in=a) smoker_means(in=b);
    by smoker;
    adj_total_bill = total_bill - group_bill;
    if a and b;
run;

pandas 提供了一个 Transformation 机制，允许这些类型的操作在一个操作中简洁地表达。

In [1]: gb = tips.groupby("smoker")["total_bill"]
In [2]: tips["adj_total_bill"] = tips["total_bill"] - gb.transform("mean")
In [3]: tips
Out[3]: 
 total_bill    tip     sex smoker   day    time  size  adj_total_bill
67         1.07   1.00  Female    Yes   Sat  Dinner     1      -17.686344
92         3.75   1.00  Female    Yes   Fri  Dinner     2      -15.006344
111        5.25   1.00  Female     No   Sat  Dinner     1      -11.938278
145        6.35   1.50  Female     No  Thur   Lunch     2      -10.838278
135        6.51   1.25  Female     No  Thur   Lunch     2      -10.678278
..          ...    ...     ...    ...   ...     ...   ...             ...
182       43.35   3.50    Male    Yes   Sun  Dinner     3       24.593656
156       46.17   5.00    Male     No   Sun  Dinner     6       28.981722
59        46.27   6.73    Male     No   Sat  Dinner     4       29.081722
212       46.33   9.00    Male     No   Sat  Dinner     4       29.141722
170       48.81  10.00    Male    Yes   Sat  Dinner     3       30.053656
[244 rows x 8 columns]

按组处理

proc sort data=tips;
   by sex smoker;
run;
data tips_first;
    set tips;
    by sex smoker;
    if FIRST.sex or FIRST.smoker then output;
run;

在 pandas 中，这样写：

In [4]: tips.groupby(["sex", "smoker"]).first()
Out[4]: 
 total_bill   tip   day    time  size  adj_total_bill
sex    smoker 
Female No            5.25  1.00   Sat  Dinner     1      -11.938278
 Yes           1.07  1.00   Sat  Dinner     1      -17.686344
Male   No            5.51  2.00  Thur   Lunch     2      -11.678278
 Yes           5.25  5.15   Sun  Dinner     2      -13.506344

其他考虑

磁盘 vs 内存

pandas 仅在内存中运行，而 SAS 数据集存在于磁盘上。这意味着 pandas��够加载的数据大小受限于计算机的内存，但也意味着对该数据的操作可能更快。

如果需要进行核心外处理，一种可能性是dask.dataframe库（目前正在开发中），它为磁盘上的DataFrame提供了一部分 pandas 功能。

数据互操作

pandas 提供了一个read_sas()方法，可以读取以 XPORT 或 SAS7BDAT 二进制格式保存的 SAS 数据。

libname xportout xport 'transport-file.xpt';
data xportout.tips;
    set tips(rename=(total_bill=tbill));
 * xport variable names limited to 6 characters;
run;

df = pd.read_sas("transport-file.xpt")
df = pd.read_sas("binary-file.sas7bdat")

您还可以直接指定文件格式。默认情况下，pandas 将尝试根据其扩展名推断文件格式。

df = pd.read_sas("transport-file.xpt", format="xport")
df = pd.read_sas("binary-file.sas7bdat", format="sas7bdat")

XPORT 是一个相对有限的格式，其解析不像其他 pandas 读取器那样经过优化。在 SAS 和 pandas 之间交换数据的另一种方法是序列化为 csv。

# version 0.17, 10M rows
In [8]: %time df = pd.read_sas('big.xpt')
Wall time: 14.6 s
In [9]: %time df = pd.read_csv('big.csv')
Wall time: 4.86 s

磁盘 vs 内存

pandas 仅在内存中运行，而 SAS 数据集存在于磁盘上。这意味着 pandas 能够加载的数据大小受限于计算机的内存，但也意味着对该数据的操作可能更快。

如果需要进行核心外处理，一种可能性是dask.dataframe库（目前正在开发中），它为磁盘上的DataFrame提供了一部分 pandas 功能。

数据互操作

pandas 提供了一个 read_sas() 方法，可以读取以 XPORT 或 SAS7BDAT 二进制格式保存的 SAS 数据。

libname xportout xport 'transport-file.xpt';
data xportout.tips;
    set tips(rename=(total_bill=tbill));
 * xport variable names limited to 6 characters;
run;

df = pd.read_sas("transport-file.xpt")
df = pd.read_sas("binary-file.sas7bdat")

您也可以直接指定文件格式。默认情况下，pandas 将尝试根据文件扩展名推断文件格式。

df = pd.read_sas("transport-file.xpt", format="xport")
df = pd.read_sas("binary-file.sas7bdat", format="sas7bdat")

XPORT 是一个相对有限的格式，其解析并不像其他 pandas 读取器那样优化。在 SAS 和 pandas 之间进行数据交互的另一种方式是序列化为 csv。

# version 0.17, 10M rows
In [8]: %time df = pd.read_sas('big.xpt')
Wall time: 14.6 s
In [9]: %time df = pd.read_csv('big.csv')
Wall time: 4.86 s

Pandas 2.2 中文官方教程和指南（五）（4）

查找字符串的长度

查找子字符串的位置

按位置提取子字符串

提取第 n 个单词

更改大小写

合并

缺失数据

删除含有缺失值的行

从前面的行向前填充

用指定值替换缺失值

删除含有缺失值的行

从前面的行向前填充

用指定值替换缺失值

分组

聚合

转换

按组处理

聚合

转换

按组处理

其他考虑

磁盘 vs 内存

数据互操作

磁盘 vs 内存

数据互操作

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Pandas 2.2 中文官方教程和指南（五）（4）

查找字符串的长度

查找子字符串的位置

按位置提取子字符串

提取第 n 个单词

更改大小写

合并

缺失数据

删除含有缺失值的行

从前面的行向前填充

用指定值替换缺失值

删除含有缺失值的行

从前面的行向前填充

用指定值替换缺失值

分组

聚合

转换

按组处理

聚合

转换

按组处理

其他考虑

磁盘 vs 内存

数据互操作

磁盘 vs 内存

数据互操作

热门文章

最新文章

相关课程

相关电子书