帅到爆炸!使用管道 Pipe 编写 Python 代码竟如此简洁

简介: 众所周知,Pytnon 非常擅长处理数据,尤其是后期数据的清洗工作。今天派森酱就给大家介绍一款处理数据的神器 Pipe。

什么是 Pipe


简言之,Pipe 是 Python 的一个三方库。

通过 Pipe 我们可以将一个函数的处理结果传递给另外一个函数,这意味着你的代码会非常简洁。

要使用 Pipe 需要提前安装,直接使用 pip 安装即可。

pip install pipe


过滤元素


和 filter 类似,pipe 中的 where 操作可以过滤可迭代对象中的元素。

In [5]: numbers = [0, 1, 2, 3, 4, 5]
In [6]: list(numbers | where(lambda x: x % 2 == 0))
Out[6]: [0, 2, 4]


作用元素


类似 map,select 操作可以将函数作用于可迭代对象中的每个元素。下面的例子中我们将列表中的元素都扩大 2 倍。

In [8]: list(numbers | select(lambda x: x * 2))
Out[8]: [0, 2, 4, 6, 8, 10]


当然,还可以将多种操作合并在一起来玩。

下面的例子就是将列表中的偶数挑选出来并扩大 2 倍,和 filter 与 map 不同的是,pipe 可以将多个操作连接起来,就像水管套水管一样,所以我想管道这个名字也是很接地气了。


In [10]: list(numbers
    ...:     | where(lambda x: x % 2 == 0)
    ...:     | select(lambda x: x * 2)
    ...:    )
    ...:
Out[10]: [0, 4, 8]


连接元素


操作嵌套列表时非常痛苦,值得高兴的是 pipe 给出了很友好的接口,只需要 chain 一下即可。

In [11]: list([[1, 2], [3, 4], [5]] | chain)
Out[11]: [1, 2, 3, 4, 5]
In [30]: list((1, 2, 3) | chain_with([4, 5], [6]))
Out[30]: [1, 2, 3, 4, 5, 6]
In [31]: list((1, 2, 3) | chain_with([4, 5], [6,[7]]))
Out[31]: [1, 2, 3, 4, 5, 6, [7]]


如你所见,chain 只可以拆开一层,如果要拆开多层嵌套的话,不要慌,traverse 轻松搞定。


In [12]: list([[1, 2], [[[3], [[4]]], [5]]] | traverse)
Out[12]: [1, 2, 3, 4, 5]


结合 select 一起,获取字典中的某个字段属性集合。


In [32]: fruits = [
    ...:     {"name": "apple", "price": [2, 5]},
    ...:     {"name": "orange", "price": 4},
    ...:     {"name": "grape", "price": 5},
    ...: ]
In [33]: list(fruits
    ...:      | select(lambda fruit: fruit["price"])
    ...:      | traverse)
    ...:
Out[33]: [2, 5, 4, 5]


分组


对列表中的元素进行分组是必不可少的,在 pipe 中可以使用 groupby 来完成。


In [26]: list(numbers
    ...:      | groupby(lambda x: 'Even' if x % 2 == 0 else 'Odd')
    ...:      | select(lambda x: {x[0]: list(x[1])})
    ...:     )
    ...:
Out[26]: [{'Even': [0, 2, 4]}, {'Odd': [1, 3, 5]}]

同样,还可以在 select 中添加 where 过滤条件。

In [27]: list(numbers
    ...:      | groupby(lambda x: 'Even' if x % 2 == 0 else 'Odd')
    ...:      | select(lambda x: {x[0]: list(x[1] | where(lambda x: x > 2))})
    ...:     )
    ...:
Out[27]: [{'Even': [4]}, {'Odd': [3, 5]}]


行列互换


数据处理中时常会用到行列互相转换,尤其是在用 DataFrame 时,使用 pipe 一行代码搞定行列转换。


In [24]: [[1, 2, 3], [4, 5, 6], [7, 8, 9]] | transpose
Out[24]: [(1, 4, 7), (2, 5, 8), (3, 6, 9)]


删除元素


对列表去重也是一项常用的操作,在 pipe 中使用 dedup 来对列表进行去重。


In [28]: list([1, 1, 2, 2, 3, 3, 1, 2, 3] | dedup)
Out[28]: [1, 2, 3]


与 dedup 不同的是,uniq 只会对连续的重复元素保留一个,非连续重复元素则不过滤。


In [29]: list([1, 1, 2, 2, 3, 3, 1, 2, 3] | uniq)
Out[29]: [1, 2, 3, 1, 2, 3]


总结

今天派森酱给大家介绍了一个处理数据的神器,使用管道可以让繁琐的操作浓缩在几行甚至一行代码搞定,提高可读性的同时还提升了代码的整洁程度,美滋滋~

目录
相关文章
|
23天前
|
存储 缓存 Java
Python高性能编程:五种核心优化技术的原理与Python代码
Python在高性能应用场景中常因执行速度不及C、C++等编译型语言而受质疑,但通过合理利用标准库的优化特性,如`__slots__`机制、列表推导式、`@lru_cache`装饰器和生成器等,可以显著提升代码效率。本文详细介绍了这些实用的性能优化技术,帮助开发者在不牺牲代码质量的前提下提高程序性能。实验数据表明,这些优化方法能在内存使用和计算效率方面带来显著改进,适用于大规模数据处理、递归计算等场景。
58 5
Python高性能编程:五种核心优化技术的原理与Python代码
|
2月前
|
Python
课程设计项目之基于Python实现围棋游戏代码
游戏进去默认为九路玩法,当然也可以选择十三路或是十九路玩法 使用pycharam打开项目,pip安装模块并引用,然后运行即可, 代码每行都有详细的注释,可以做课程设计或者毕业设计项目参考
78 33
|
2月前
|
JavaScript API C#
【Azure Developer】Python代码调用Graph API将外部用户添加到组,结果无效,也无错误信息
根据Graph API文档,在单个请求中将多个成员添加到组时,Python代码示例中的`members@odata.bind`被错误写为`members@odata_bind`,导致用户未成功添加。
52 10
|
2月前
|
数据可视化 Python
以下是一些常用的图表类型及其Python代码示例,使用Matplotlib和Seaborn库。
通过这些思维导图和分析说明表,您可以更直观地理解和选择适合的数据可视化图表类型,帮助更有效地展示和分析数据。
105 8
|
2月前
|
Python
探索Python中的装饰器:简化代码,增强功能
在Python的世界里,装饰器就像是给函数穿上了一件神奇的外套,让它们拥有了超能力。本文将通过浅显易懂的语言和生动的比喻,带你了解装饰器的基本概念、使用方法以及它们如何让你的代码变得更加简洁高效。让我们一起揭开装饰器的神秘面纱,看看它是如何在不改变函数核心逻辑的情况下,为函数增添新功能的吧!
|
2月前
|
程序员 测试技术 数据安全/隐私保护
深入理解Python装饰器:提升代码重用与可读性
本文旨在为中高级Python开发者提供一份关于装饰器的深度解析。通过探讨装饰器的基本原理、类型以及在实际项目中的应用案例,帮助读者更好地理解并运用这一强大的语言特性。不同于常规摘要,本文将以一个实际的软件开发场景引入,逐步揭示装饰器如何优化代码结构,提高开发效率和代码质量。
74 6
|
2月前
|
数据采集 分布式计算 大数据
构建高效的数据管道:使用Python进行ETL任务
在数据驱动的世界中,高效地处理和移动数据是至关重要的。本文将引导你通过一个实际的Python ETL(提取、转换、加载)项目,从概念到实现。我们将探索如何设计一个灵活且可扩展的数据管道,确保数据的准确性和完整性。无论你是数据工程师、分析师还是任何对数据处理感兴趣的人,这篇文章都将成为你工具箱中的宝贵资源。
|
2月前
|
Python
[oeasy]python055_python编程_容易出现的问题_函数名的重新赋值_print_int
本文介绍了Python编程中容易出现的问题,特别是函数名、类名和模块名的重新赋值。通过具体示例展示了将内建函数(如`print`、`int`、`max`)或模块名(如`os`)重新赋值为其他类型后,会导致原有功能失效。例如,将`print`赋值为整数后,无法再用其输出内容;将`int`赋值为整数后,无法再进行类型转换。重新赋值后,这些名称失去了原有的功能,可能导致程序错误。总结指出,已有的函数名、类名和模块名不适合覆盖赋新值,否则会失去原有功能。如果需要使用类似的变量名,建议采用其他命名方式以避免冲突。
52 14
|
2月前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
116 2
|
2月前
|
Unix Linux 程序员
[oeasy]python053_学编程为什么从hello_world_开始
视频介绍了“Hello World”程序的由来及其在编程中的重要性。从贝尔实验室诞生的Unix系统和C语言说起,讲述了“Hello World”作为经典示例的起源和流传过程。文章还探讨了C语言对其他编程语言的影响,以及它在系统编程中的地位。最后总结了“Hello World”、print、小括号和双引号等编程概念的来源。
126 80

热门文章

最新文章

推荐镜像

更多