我有一个带有npartition = 8的dask数据帧,这里是数据的快照:
id1 id2 Page_nbr record_type
St1 Sc1 3 START
Sc1 St1 5 ADD
Sc1 St1 9 OTHER
Sc2 St2 34 START
Sc2 St2 45 DURATION
Sc2 St2 65 END
Sc3 Sc3 4 START
我想在record_type之后添加一个列,并根据记录类型的条件添加一个唯一的group_id,所以在下一个record_type = START添加相同的唯一group_id之前,输出将如下所示:
id1 id2 Page_nbr record_type group_id
St1 Sc1 3 START 1
Sc1 St1 5 ADD 1
Sc1 St1 9 OTHER 1
Sc2 St2 34 START 2
Sc2 St2 45 DURATION 2
Sc2 St2 65 END 2
Sc3 Sc3 4 START 3
group_id可以是任何唯一编号。由于数据帧很大,迭代行可能不是最好的选择。想知道是否有任何pythonic方式吗?
取“record_type”列,比较“START”,然后计算cumsum:
ddf['group_id'] = ddf['record_type'].eq('START').cumsum()
ddf.compute()
id1 id2 Page_nbr record_type group_id
0 St1 Sc1 3 START 1
1 Sc1 St1 5 ADD 1
2 Sc1 St1 9 OTHER 1
3 Sc2 St2 34 START 2
4 Sc2 St2 45 DURATION 2
5 Sc2 St2 65 END 2
6 Sc3 Sc3 4 START 3
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。