开发者社区问答正文

在新列中添加唯一标识符，直到另一列满足条件

我有一个带有npartition = 8的dask数据帧，这里是数据的快照：

  id1    id2     Page_nbr    record_type 
  St1    Sc1     3             START
  Sc1    St1     5              ADD      
  Sc1    St1     9             OTHER 
  Sc2    St2     34            START
  Sc2    St2     45           DURATION  
  Sc2    St2     65             END
  Sc3    Sc3     4              START

我想在record_type之后添加一个列，并根据记录类型的条件添加一个唯一的group_id，所以在下一个record_type = START添加相同的唯一group_id之前，输出将如下所示：

  id1    id2     Page_nbr    record_type     group_id
  St1    Sc1     3             START             1
  Sc1    St1     5              ADD              1    
  Sc1    St1     9             OTHER             1 
  Sc2    St2     34            START             2
  Sc2    St2     45           DURATION           2
  Sc2    St2     65             END              2
  Sc3    Sc3     4              START            3

group_id可以是任何唯一编号。由于数据帧很大，迭代行可能不是最好的选择。想知道是否有任何pythonic方式吗？

展开

收起

一码平川MACHEL 2019-02-28 13:40:41 4318 版权

1 条回答

写回答

取消提交回答

一码平川MACHEL

取“record_type”列，比较“START”，然后计算cumsum：
ddf['group_id'] = ddf['record_type'].eq('START').cumsum()
ddf.compute()
id1 id2 Page_nbr record_type group_id
0 St1 Sc1 3 START 1
1 Sc1 St1 5 ADD 1
2 Sc1 St1 9 OTHER 1
3 Sc2 St2 34 START 2
4 Sc2 St2 45 DURATION 2
5 Sc2 St2 65 END 2
6 Sc3 Sc3 4 START 3

2019-07-17 23:29:42

赞同展开评论

问答地址：

开发者社区 > 云计算 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

在新列中添加唯一标识符，直到另一列满足条件