Python多处理来加速I/O和Groupby/Sum_问答-阿里云开发者社区

我的数据集有~2亿行，~10个分组变量，和~20个变量，是一个~50GB的csv。我做的第一件事是查看运行时是按顺序运行的，但是是按块运行的。它有点复杂，因为有些groupbys实际上在另一个数据集中的不同聚合级别，所以它只有~200mb。现在相关的代码是这样的:

group_cols = ['cols','to','group','by']
cols_to_summarize = ['cols','to','summarize']
groupbys = []
df = pd.read_csv("file/path/df.csv",chunksize=1000000)
for chunk in df:
  chunk = chunk.merge(other_df,left_on="id",right_index=True,how="inner")
  groupbys.append(chunk.groupby(group_cols)[cols_to_summarize].sum())
finalAgg = pd.concat(groupbys).groupby(group_cols)[cols_to_summarize].sum()

每个数据块大约需要5秒钟来处理，所以200个数据块大约需要15-20分钟。我正在使用的服务器有16个内核，所以我希望能加快速度，如果能达到2-3分钟就太好了。但是，当我尝试使用多进程时，我很难得到更多的加速。基于我的谷歌搜索，我认为这将有助于在CSVs阅读，但我想知道，如果多个进程不能读取相同的CSV，也许我应该先分割它?这是我试过的，比连续运行的时间长:

def agg_chunk(start):
  [pull in small dataset]
  chunk = pd.read_csv("file/path/df.csv",skiprows=range(1,start+1),nrows=1000000)
  chunk = chunk.merge(other_df,left_on="id",right_index=True,how="inner")
  return chunk.groupby(group_cols)[cols_to_summarize].sum()
if __name__ == "__main__":
  pool = mp.Pool(16)
  r = list(np.array(range(200))*1000000)
  groupbys = pool.map(agg_chunk,r)
  finalAgg = pd.concat(groupbys).groupby(group_cols)[cols_to_summarize].sum()

有更好的方法吗?额外的[拉入小数据集]块大约需要5秒，但是将每个进程的时间加倍，然后除以16应该仍然是一个很好的加速，不是吗?相反，并行版本已经运行了半个小时，仍然没有完成。还有，有没有什么方法可以将数据集传递给每个进程，而不是让每个进程重新创建数据集? 问题来源StackOverflow 地址：/questions/59385043/python-multiprocessing-to-speed-up-i-o-and-groupby-sum

import dask.dataframe as dd # 读取csv为Dask DataFrame df = dd.read_csv("file/path/df.csv", assume_missing=True) # 合并其他DataFrame（确保other_df也转换为Dask DataFrame） other_df_dask = dd.from_pandas(other_df, npartitions=16) # 假设other_df较小 df = df.merge(other_df_dask, left_on="id", right_index=True, how="inner") # 分组聚合 finalAgg = df.groupby(group_cols)[cols_to_summarize].sum().compute()

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python多处理来加速I/O和Groupby/Sum

相关文章