每周一个 Python 模块 | glob

简介: 使用 Unix shell 规则查找与模式匹配的文件名。尽管 glob API 不多,但该模块具有很强的功能。当程序需要通过名称与模式匹配的方式查找文件列表时,它很有用。要创建一个文件列表,这些文件名具有特定的扩展名,前缀或中间的任何公共字符串,这个时候,使用glob而不是编写自定义代码来扫描目录内容。

使用 Unix shell 规则查找与模式匹配的文件名。

尽管 glob API 不多,但该模块具有很强的功能。当程序需要通过名称与模式匹配的方式查找文件列表时,它很有用。要创建一个文件列表,这些文件名具有特定的扩展名,前缀或中间的任何公共字符串,这个时候,使用glob而不是编写自定义代码来扫描目录内容。

glob 模式规则与 re 模块使用的正则表达式不同。相反,它们遵循标准的 Unix 路径扩展规则,只有少数特殊字符用于实现两个不同的通配符和字符范围。模式规则应用于文件名段(在路径分隔符处停止/),模式中的路径可以是相对的或绝对的,Shell 变量名和波浪号(~)不会展开。


示例数据


本节中的示例假定当前工作目录中存在以下测试文件。


dir
dir/file.txt
dir/file1.txt
dir/file2.txt
dir/filea.txt
dir/fileb.txt
dir/file?.txt
dir/file*.txt
dir/file[.txt
dir/subdir
dir/subdir/subfile.txt
复制代码


通配符


星号(*)匹配名称段中的零个或多个字符。例如,dir/*


import glob
for name in sorted(glob.glob('dir/*')):
    print(name)
# output
# dir/file *.txt
# dir/file.txt
# dir/file1.txt
# dir/file2.txt
# dir/file?.txt
# dir/file[.txt
# dir/filea.txt
# dir/fileb.txt
# dir/subdir
复制代码


该模式匹配目录 dir 中的每个路径名(文件或目录),而不会进一步递归到子目录中。返回的数据未排序,因此这里的示例对其进行排序以便更直观地展示结果。

要列出子目录中的文件,子目录必须包含在模式中。


import glob
print('Named explicitly:')
for name in sorted(glob.glob('dir/subdir/*')):
    print('  {}'.format(name))
print('Named with wildcard:')
for name in sorted(glob.glob('dir/*/*')):
    print('  {}'.format(name))
# output
# Named explicitly:
#   dir/subdir/subfile.txt
# Named with wildcard:
#   dir/subdir/subfile.txt
复制代码


前面显示的第一种情况明确列出了子目录名称,而第二种情况依赖于通配符来查找目录。

在这种情况下,结果是相同的。如果有另一个子目录,则通配符将匹配两个子目录并包含两者的文件名。


单字符通配符


问号(?)是另一个通配符。它匹配名称中该位置的任何单个字符。


import glob
for name in sorted(glob.glob('dir/file?.txt')):
    print(name)
# output
# dir/file*.txt
# dir/file1.txt
# dir/file2.txt
# dir/file?.txt
# dir/file[.txt
# dir/filea.txt
# dir/fileb.txt
复制代码


示例匹配所有以 file 开头的文件名,具有任何类型的单个字符,然后以 .txt 结束。


字符范围


使用字符范围([a-z])而不是问号来匹配多个字符之一。此示例在扩展名之前查找名称中带有数字的所有文件。


import glob
for name in sorted(glob.glob('dir/*[0-9].*')):
    print(name)
# output
# dir/file1.txt
# dir/file2.txt
复制代码


字符范围[0-9]匹配任何单个数字。范围根据每个字母/数字的字符代码排序,短划线表示连续字符的连续范围。可以写入相同的范围值[0123456789]



转义元字符


有时需要搜索名称中包含特殊元字符(glob用于模式匹配)的文件。escape()函数使用特殊字符“转义”构建合适的模式,因此它们不会被扩展或解释为特殊字符。


import glob
specials = '?*['
for char in specials:
    pattern = 'dir/*' + glob.escape(char) + '.txt'
    print('Searching for: {!r}'.format(pattern))
    for name in sorted(glob.glob(pattern)):
        print(name)
    print()
# output
# Searching for: 'dir/*[?].txt'
# dir/file?.txt
# 
# Searching for: 'dir/*[*].txt'
# dir/file*.txt
# 
# Searching for: 'dir/*[[].txt'
# dir/file[.txt
复制代码


通过构建包含单个条目的字符范围来转义每个特殊字符。


目录
相关文章
|
26天前
|
开发者 Python
如何在Python中管理模块和包的依赖关系?
在实际开发中,通常会结合多种方法来管理模块和包的依赖关系,以确保项目的顺利进行和可维护性。同时,要及时更新和解决依赖冲突等问题,以保证代码的稳定性和可靠性
42 4
|
5天前
|
Python
Python Internet 模块
Python Internet 模块。
100 74
|
23天前
|
算法 数据安全/隐私保护 开发者
马特赛特旋转算法:Python的随机模块背后的力量
马特赛特旋转算法是Python `random`模块的核心,由松本真和西村拓士于1997年提出。它基于线性反馈移位寄存器,具有超长周期和高维均匀性,适用于模拟、密码学等领域。Python中通过设置种子值初始化状态数组,经状态更新和输出提取生成随机数,代码简单高效。
104 63
|
25天前
|
测试技术 Python
手动解决Python模块和包依赖冲突的具体步骤是什么?
需要注意的是,手动解决依赖冲突可能需要一定的时间和经验,并且需要谨慎操作,避免引入新的问题。在实际操作中,还可以结合使用其他方法,如虚拟环境等,来更好地管理和解决依赖冲突😉。
|
25天前
|
持续交付 Python
如何在Python中自动解决模块和包的依赖冲突?
完全自动解决所有依赖冲突可能并不总是可行,特别是在复杂的项目中。有时候仍然需要人工干预和判断。自动解决的方法主要是提供辅助和便捷,但不能完全替代人工的分析和决策😉。
|
1月前
|
JSON Linux 数据格式
Python模块:从入门到精通,只需一篇文章!
Python中的模块是将相关代码组织在一起的单元,便于重用和维护。模块可以是Python文件或C/C++扩展,Python标准库中包含大量模块,如os、sys、time等,用于执行各种任务。定义模块只需创建.py文件并编写代码,导入模块使用import语句。此外,Python还支持自定义模块和包,以及虚拟环境来管理项目依赖。
Python模块:从入门到精通,只需一篇文章!
|
26天前
|
Python
Python的模块和包
总之,模块和包是 Python 编程中非常重要的概念,掌握它们可以帮助我们更好地组织和管理代码,提高开发效率和代码质量
38 5
|
25天前
|
数据可视化 Python
如何在Python中解决模块和包的依赖冲突?
解决模块和包的依赖冲突需要综合运用多种方法,并且需要团队成员的共同努力和协作。通过合理的管理和解决冲突,可以提高项目的稳定性和可扩展性
|
29天前
|
JavaScript 前端开发 Python
python中的OS模块的基本使用
欢迎来到瑞雨溪的博客,一名热爱JavaScript与Vue的大一学生。博客分享前端技术及全栈开发经验,持续更新中,期待您的关注和支持!🎉🎉🎉
35 0
|
29天前
|
JavaScript 前端开发 Python
python中的platform模块的基本使用
欢迎来到瑞雨溪的博客,一名热爱JavaScript与Vue的大一学生。博客分享前端技术,助你成长。关注我,持续更新中!🎉🎉🎉
23 0
下一篇
DataWorks