怎么还蹦出来个 “ 数据管道 ”-阿里云开发者社区

怎么还蹦出来个 “ 数据管道 ”

2023-08-12 98 发布于吉林

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 怎么还蹦出来个 “ 数据管道 ”

创建数据处理管道

问题核心：★★★★ 口感：天津肉包子

问题

你想以数据管道 (类似 Unix 管道) 的方式迭代处理数据。比如，你有个大量的数据需要处理，但是不能将它们一次性放入内存中。

解决方案

生成器函数是一个实现管道机制的好办法。

假定你要处理一个非常大的日志文件目录：

foo/
access-log-012007.gz
access-log-022007.gz
access-log-032007.gz
...
access-log-012008
bar/
access-log-092007.bz2
...
access-log-022008

假设每个日志文件包含这样的数据：

124.115.6.12 - - [10/Jul/2012:00:18:50 -0500] "GET /robots.txt ..." 200 71
210.212.209.67 - - [10/Jul/2012:00:18:51 -0500] "GET /ply/ ..." 200 11875
210.212.209.67 - - [10/Jul/2012:00:18:51 -0500] "GET /favicon.ico ..." 404 369
61.135.216.105 - - [10/Jul/2012:00:20:04 -0500] "GET /blog/atom.xml ..." 304 -
...

为了处理这些文件，你可以定义一个由多个执行特定任务独立任务的简单生成器函数组成的容器。

就像这样：

import os
import fnmatch
import gzip
import bz2
import re
def gen_find(filepat, top):
      '''
      查找目录树中与外壳通配符模式匹配的所有文件名
      '''
      for path, dirlist, filelist in os.walk(top):
          for name in fnmatch.filter(filelist, filepat):
              yield os.path.join(path,name)
def gen_opener(filenames):
      '''
      每次打开一个文件名序列，生成一个file对象。在进行下一次迭代时，文件将立即关闭。
      '''
      for filename in filenames:
          if filename.endswith('.gz'):
              f = gzip.open(filename, 'rt')
          elif filename.endswith('.bz2'):
              f = bz2.open(filename, 'rt')
          else:
              f = open(filename, 'rt')
          yield f
          f.close()
def gen_concatenate(iterators):
    '''
    将一个迭代器序列链接到一个单独的序列中
    '''
    for it in iterators:
        yield from it
def gen_grep(pattern, lines):
    '''
    在一个行序列中查找regex模式
    '''
    pat = re.compile(pattern)
        for line in lines:
            if pat.search(line):
                  yield line

现在你可以很容易的将这些函数连起来创建一个处理管道。比如，为了查找包含单词 Python 的所有日志行.

你可以这样做：

lognames = gen_find('access-log*', 'www')
files = gen_opener(lognames)
lines = gen_concatenate(files)
pylines = gen_grep('(?i)python', lines)
for line in pylines:
    print(line)

如果将来的时候你想扩展管道，你甚至可以在生成器表达式中包装数据。比如，下面这个版本计算出传输的字节数并计算其总和。

lognames = gen_find('access-log*', 'www')
files = gen_opener(lognames)
lines = gen_concatenate(files)
pylines = gen_grep('(?i)python', lines)
bytecolumn = (line.rsplit(None,1)[1] for line in pylines)
bytes = (int(x) for x in bytecolumn if x != '-')
print('Total', sum(bytes))

结论

以管道方式处理数据可以用来解决各类其他问题，包括解析，读取实时数据，定时轮询等。

为了理解上述代码，重点是要明白yield 语句作为数据的生产者而 for 循环语句作为数据的消费者。当这些生成器被连在一起后，每个 yield 会将一个单独的数据元素传递给迭代处理管道的下一阶段。

在例子最后部分sum() 函数是最终的程序驱动者，每次从生成器管道中提取出一个元素。这种方式一个非常好的特点是每个生成器函数很小并且都是独立的。这样的话就很容易编写和维护它们了。

事实上，由于使用了迭代方式处理，代码运行过程中只需要很小很小的内存。

在调用 gen_concatenate() 函数的时候你可能会有些不太明白。这个函数的目的是将输入序列拼接成一个很长的行序列。itertools.chain() 函数同样有类似的功能，但是它需要将所有可迭代对象最为参数传入。

在上面这个例子中，你可能会写类似这样的语句 lines = itertools.chain(*files) ，这将导致 gen_opener() 生成器被提前全部消费掉。但由于 gen_opener() 生成器每次生成一个打开过的文件，等到下一个迭代步骤时文件就关闭了，因此 chain() 在这里不能这样使用,，当然上面的方案可以避免这种情况。

怎么还蹦出来个 “ 数据管道 ”

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

怎么还蹦出来个 “ 数据管道 ”

热门文章

最新文章

相关电子书