Python模块filecmp 文件比较

简介:

filecmp模块用于比较文件及文件夹的内容,它是一个轻量级的工具,使用非常简单。python标准库还提供了difflib模块用于比较文件的内容。关于difflib模块,且听下回分解。

    filecmp定义了两个函数,用于方便地比较文件与文件夹:

filecmp.cmp(f1, f2[, shallow]):

    比较两个文件的内容是否匹配。参数f1, f2指定要比较的文件的路径。可选参数shallow指定比较文件时是否需要考虑文件本身的属性(通过os.stat函数可以获得文件属性)。如果文件内容匹配,函数返回True,否则返回False。

filecmp.cmpfiles(dir1, dir2, common[, shallow]):

    比较两个文件夹内指定文件是否相等。参数dir1, dir2指定要比较的文件夹,参数common指定要比较的文件名列表。函数返回包含3个list元素的元组,分别表示匹配、不匹配以及错误的文件列表。错误的文件指的是不存在的文件,或文件被琐定不可读,或没权限读文件,或者由于其他原因访问不了该文件。

    filecmp模块中定义了一个dircmp类,用于比较文件夹,通过该类比较两个文件夹,可以获取一些详细的比较结果(如只在A文件夹存在的文件列表),并支持子文件夹的递归比较。

dircmp提供了三个方法用于报告比较的结果

  • report():只比较指定文件夹中的内容(文件与文件夹)

  • report_partial_closure():比较文件夹及第一级子文件夹的内容

  • report_full_closure():递归比较所有的文件夹的内容

例子:在文件夹"1"中含有文件"1.txt", 在文件夹"2"中含有文件"1.txt"和"2.txt",其两个文件夹下面的文件"1.txt"内容一样,

>>>import filecmp

>>>x = filecmp.dircmp("1", "2")

>>>x.report()

>>>

diff 1 2
Only in 2 : ['2.txt']
Identical files : ['1.txt']

 

如果两个文件夹下面的文件"1.txt"内容不相同那么结果如下:

>>>import filecmp

>>>x = filecmp.dircmp("1", "2")

>>>x.report()

>>>

diff 1 2
Only in 2 : ['2.txt']
Differing files : ['1.txt'] 

 

 

dircmp还提供了下面这些属性用于获取比较的详细结果

  • left_list:左边文件夹中的文件与文件夹列表;

  • right_list:右边文件夹中的文件与文件夹列表;

  • common:两边文件夹中都存在的文件或文件夹;

  • left_only:只在左边文件夹中存在的文件或文件夹;

  • right_only:只在右边文件夹中存在的文件或文件夹;

  • common_dirs:两边文件夹都存在的子文件夹;

  • common_files:两边文件夹都存在的子文件;

  • common_funny:两边文件夹都存在的子文件夹;

  • same_files:匹配的文件;

  • diff_files:不匹配的文件;

  • funny_files:两边文件夹中都存在,但无法比较的文件;

  • subdirs:我没看明白这个属性的意思,python手册中的解释如下:A dictionary mapping names in common_dirs to dircmp objects










本文转自 chengxuyonghu 51CTO博客,原文链接:http://blog.51cto.com/6226001001/1552977,如需转载请自行联系原作者
目录
相关文章
|
3天前
|
自然语言处理 数据处理 Python
python操作和解析ppt文件 | python小知识
本文将带你从零开始,了解PPT解析的工具、工作原理以及常用的基本操作,并提供具体的代码示例和必要的说明【10月更文挑战第4天】
92 60
|
2天前
|
Linux 区块链 Python
Python实用记录(十三):python脚本打包exe文件并运行
这篇文章介绍了如何使用PyInstaller将Python脚本打包成可执行文件(exe),并提供了详细的步骤和注意事项。
7 1
Python实用记录(十三):python脚本打包exe文件并运行
|
2天前
|
JSON 数据格式 Python
Python实用记录(十四):python统计某个单词在TXT/JSON文件中出现的次数
这篇文章介绍了一个Python脚本,用于统计TXT或JSON文件中特定单词的出现次数。它包含两个函数,分别处理文本和JSON文件,并通过命令行参数接收文件路径、目标单词和文件格式。文章还提供了代码逻辑的解释和示例用法。
7 0
Python实用记录(十四):python统计某个单词在TXT/JSON文件中出现的次数
|
3天前
|
Python
Python实用记录(四):os模块-去后缀或者改后缀/指定目录下图片或者子目录图片写入txt/csv
本文介绍了如何使用Python的os模块来操作文件,包括更改文件后缀、分割文件路径和后缀、将指定目录下的所有图片写入txt文档,以及将指定目录下所有子目录中的图片写入csv文档,并为每个子目录分配一个标签。
6 1
|
2天前
|
Python
Python实用记录(十二):文件夹下所有文件重命名以及根据图片路径保存到新路径下保存
这篇文章介绍了如何使用Python脚本对TTK100_VOC数据集中的JPEGImages文件夹下的图片文件进行批量重命名,并将它们保存到指定的新路径。
7 0
|
4天前
|
Python
如何利用Python快捷地操作文件和文件夹
关注B站用户“肆十二-”,观看更多实战教学视频。本文介绍Python的shutil库,涵盖文件和文件夹的复制、移动、删除及归档等高级操作,提供实用代码示例。
12 0
|
4天前
|
Python
Python中tqdm模块的常用方法和示例
`tqdm` 是一个快速、可扩展的Python进度条库,适用于长循环中添加进度提示。通过封装迭代器 `tqdm(iterator)`,可以轻松实现进度显示。支持自定义描述、宽度及嵌套进度条,适用于多种迭代对象。在Jupyter notebook中,可自动调整显示效果。
14 0
|
4天前
|
Python
Python中threading模块的常用方法和示例
Python 的 `threading` 模块提供了多线程编程的能力,允许同时执行多个线程。主要类包括 `Thread`、`Lock` 和 `Condition`。`Thread` 类用于创建和管理线程,`Lock` 用于同步线程,防止资源竞争,`Condition` 用于线程间协调。本文介绍了这些类的常用方法及示例代码,帮助你更好地理解和使用多线程编程。
13 0
|
4天前
|
Shell Python
Python中os模块的常用方法和示例
在Python中,`os`模块提供了与操作系统交互的函数,用于文件和目录管理、路径操作、环境变量等。常用方法包括路径操作(如`os.path.join()`、`os.path.abspath()`)、文件和目录管理(如`os.mkdir()`、`os.remove()`)、环境变量和进程管理(如`os.getenv()`、`os.system()`)以及其他常用功能(如`os.getcwd()`、`os.urandom()`)。
8 0
|
4天前
|
数据安全/隐私保护 Python
python学习十一:python常用模块使用,如 加密模块pyarmor,时间模块time等
这篇文章介绍了Python中两个常用模块的使用:加密模块pyarmor用于保护代码,以及时间模块time用于处理时间相关的功能。