并发读取大文件-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

并发读取大文件

一码平川MACHEL 2019-01-23 16:57:33 1520

我正在创建一个python管道来处理非常大的二进制文件(即50+ GB)。它们是BAM文件,一种用于表示基因组的格式。我的脚本目前受到两个计算量很大的子进程调用的瓶颈。

这两个命令占用了每次运行管道的约80%的计算时间,因此我需要找到一种方法来加速这个过程。他们从同一个文件中读取数据。我想知道最好的路线,以提高效率。基本上,是否有一种特殊的并发风格才能发挥最佳作用?或者还有其他一些有趣的方法吗?

命令:

subprocess.call('samtools view -b -f 68 {}> {} _ unmapped_one.bam'.format(self.file_path,self.file_prefix),shell = True)

subprocess.call('samtools view -b -f 132 {}> {} _unmapped_two.bam'.format(self.file_path,self.file_prefix),shell = True)

Shell Python
分享到
取消 提交回答
全部回答(1)
  • 一码平川MACHEL
    2019-07-17 23:26:45

    对于您所描述的内容以及您共享的代码,我可以考虑几种提高性能的方法。

    您正在程序的shell中生成子进程来处理文件,这种方法会根据运行程序的硬件而有所不同,如果这是一个多处理器环境,它可能是一个很好的方法。
    考虑使用包含低级hstlib API 的pysam库
    根据您开发的应用程序流程,您可以通过使用asyncio扩展并发活动来显着提高性能。Brad Salomon 最近的一篇文章简要介绍了多处理和多线程以及深度潜入asyncio的好处。
    如果你最终使用ASYNCIO基于UNIX系统上,我还建议在寻找uvloop它包装libuv作为一个事件循环

    0 0
开发与运维
使用钉钉扫一扫加入圈子
+ 订阅

集结各类场景实战经验,助你开发运维畅行无忧

推荐文章
相似问题
推荐课程