Python filecmp文件和目录对比模块

简介: ilecmp可以实现文件,目录,遍历子目录的差异对比功能。自带filecmp模块,无需安装。常用方法说明filecmp提供3个操作方法,cmp(单文件对比),cmpfile(多文件对比),dircmp(目录对比).单文件对比,filecmp.cmp(f1,f2[,shallow])f1 f2为文件,相同True,不同False,shallow默认为True,只根据os.stat()方法返回的文件基本信息进行对比。

ilecmp可以实现文件,目录,遍历子目录的差异对比功能。

自带filecmp模块,无需安装。

常用方法说明

filecmp提供3个操作方法,cmp(单文件对比),cmpfile(多文件对比),dircmp(目录对比).

单文件对比,filecmp.cmp(f1,f2[,shallow])

f1 f2为文件,相同True,不同False,shallow默认为True,只根据os.stat()方法返回的文件基本信息进行对比。比如最后访问时间,修改时间,状态改变时间等,会忽略文件内容的对比,当shallow为False时,则os.stat()与文件内容同时进行校验。

<pre style="margin-top: 0px; margin-bottom: 0px; white-space: pre-wrap; word-wrap: break-word; font-family: "Courier New" !important; font-size: 12px !important;">1 >>>filrcmp.cmp("/temp/a1","/temp/a2") 2 >>>True 3
4 >>>filrcmp.cmp("/temp/a1","/temp/a3") 5 >>>False</pre>

多文件对比,采用filecmp.cmpfiles(dir1, dir2, common[, shallow])
  比较两个文件夹内指定文件是否相等。参数dir1, dir2指定要比较的文件夹,参数common指定要比较的文件名列表。函数返回包含3个list元素的元组,分别表示匹配、不匹配以及错误的文件列表。错误的文件指的是不存在的文件,或文件被琐定不可读,或没权限读文件,或者由于其他原因访问不了该文件。

  目录对比,通过 filecmp(a,b[,ignore[,hide]])类创建一个目录比较对象
  用于比较文件夹,通过该类比较两个文件夹,可以获取一些详细的比较结果(如只在A文件夹存在的文件列表),并支持子文件夹的递归比较。

<pre style="margin-top: 0px; margin-bottom: 0px; white-space: pre-wrap; word-wrap: break-word; font-family: "Courier New" !important; font-size: 12px !important;">dircmp#提供了三个方法用于报告比较的结果:
report():#只比较指定文件夹中的内容(文件与文件夹)
report_partial_closure():#比较文件夹及第一级子文件夹的内容
report_full_closure():#递归比较所有的文件夹的内容</pre>

[
img_51e409b11aa51c150090697429a953ed.gif
复制代码

](javascript:void(0); "复制代码")

<pre style="margin-top: 0px; margin-bottom: 0px; white-space: pre-wrap; word-wrap: break-word; font-family: "Courier New" !important; font-size: 12px !important;">#dircmp还提供了下面这些属性用于获取比较的详细结果
left_list:#左边文件夹中的文件与文件夹列表;
right_list:#右边文件夹中的文件与文件夹列表;
common:#两边文件夹中都存在的文件或文件夹;
left_only:#只在左边文件夹中存在的文件或文件夹;
right_only:#只在右边文件夹中存在的文件或文件夹;
common_dirs:#两边文件夹都存在的子文件夹;
common_files:#两边文件夹都存在的子文件;
common_funny:#两边文件夹都存在的子文件夹;
same_files:#匹配的文件;
diff_files:#不匹配的文件;
funny_files:#两边文件夹中都存在,但无法比较的文件;
subdirs:#将common_dirs 目录映射到新的dircmp对象,格式为字典的类型。</pre>

[
img_51e409b11aa51c150090697429a953ed.gif
复制代码

](javascript:void(0); "复制代码")

[
img_51e409b11aa51c150090697429a953ed.gif
复制代码

](javascript:void(0); "复制代码")

<pre style="margin-top: 0px; margin-bottom: 0px; white-space: pre-wrap; word-wrap: break-word; font-family: "Courier New" !important; font-size: 12px !important;"> 1 #!/usr/bin/python3
2 #coding:utf-8
3 import os,sys 4 import filecmp 5 import re 6 import shutil 7 '''
8 校验源与备份目录的差异
9 '''
10
11 holderlist = [] 12 def compareme(dir1,dir2): #递归获取更新项函数
13 dircomp = filecmp.dircmp(dir1,dir2) 14 only_in_one = dircomp.left_only #源目录新文件或目录
15 diff_in_one = dircomp.diff_files #不匹配文件,源目录文件已发生变化
16 dirpath = os.path.abspath(dir1) #定义源目录绝对路径
17
18 #将更新文件或目录追加到holderlist
19 [ holderlist.append(os.path.abspath(os.path.join(dir1,x))) for x in only_in_one ] 20 [ holderlist.append(os.path.abspath(os.path.join(dir1,x))) for x in diff_in_one ] 21 if len(dircomp.common_dirs) > 0: #判断是否存在相同子目录,以便递归
22 for item in dircomp.common_dirs: #递归子目录
23 compareme(os.path.abspath(os.path.join(dir1,item)),os.path.abspath(os.path.join(dir2,item))) 24 return holderlist 25
26 def main(): 27 if len(sys.argv) > 2: #输入源目录与备份目录
28 dir1 = sys.argv[1] 29 dir2 = sys.argv[2] 30 else : 31 print('Usage:',sys.argv[0],'datadir backdir') 32 sys.exit() 33 source_files = compareme(dir1,dir2) #对比源目录与备份目录
34 dir1 = os.path.abspath(dir1) #取绝对路径后,后面不会自动加上'/'
35
36 if not dir2.endswith('/'): 37 dir2 = dir2+'/' #备份目录路径加'/'
38
39 dir2 = os.path.abspath(dir2) 40 destination_files = [] 41 createdir_bool = False 42
43 for item in source_files: #遍历返回的差异文件或目录清单
44 destination_dir = re.sub(dir1,dir2,item) #将源目录差异路径清单对应替换成备份目录,即需要在dir2中创建的差异目录和文件
45 destination_files.append(destination_dir) 46 if os.path.isdir(item): #如果差异路径为目录且不存在,则在备份目录中创建
47 if not os.path.exists(destination_dir): 48 os.makedirs(destination_dir) 49 createdir_bool = True #再次调用copareme函数标记
50 if createdir_bool : #重新调用compareme函数,重新遍历新创建目录的内容
51 destination_files = [] 52 source_files = [] 53 source_files = compareme(dir1,dir2) #调用compareme函数
54 for item in source_files: #获取源目录差异路径清单,对应替换成备份目录
55 destination_dir = re.sub(dir1,dir2,item) 56 destination_files.append(destination_dir) 57
58 print('update item:') 59 print(source_files) #输出更新项列表清单
60 copy_pair = zip(source_files,destination_files) #将源目录与备份目录文件清单拆分成元组
61 for item in copy_pair: 62 if os.path.isfile(item[0]): #判断是否为文件,是则进行复制操作
63 shutil.copyfile(item[0],item[1]) 64
65 if name == 'main' : 66 main()</pre>

目录
相关文章
|
1月前
|
Python
Python Internet 模块
Python Internet 模块。
124 74
|
2月前
|
算法 数据安全/隐私保护 开发者
马特赛特旋转算法:Python的随机模块背后的力量
马特赛特旋转算法是Python `random`模块的核心,由松本真和西村拓士于1997年提出。它基于线性反馈移位寄存器,具有超长周期和高维均匀性,适用于模拟、密码学等领域。Python中通过设置种子值初始化状态数组,经状态更新和输出提取生成随机数,代码简单高效。
127 63
|
10天前
|
存储 算法 Serverless
剖析文件共享工具背后的Python哈希表算法奥秘
在数字化时代,文件共享工具不可或缺。哈希表算法通过将文件名或哈希值映射到存储位置,实现快速检索与高效管理。Python中的哈希表可用于创建简易文件索引,支持快速插入和查找文件路径。哈希表不仅提升了文件定位速度,还优化了存储管理和多节点数据一致性,确保文件共享工具高效运行,满足多用户并发需求,推动文件共享领域向更高效、便捷的方向发展。
|
11天前
|
Python
[oeasy]python057_如何删除print函数_dunder_builtins_系统内建模块
本文介绍了如何删除Python中的`print`函数,并探讨了系统内建模块`__builtins__`的作用。主要内容包括: 1. **回忆上次内容**:上次提到使用下划线避免命名冲突。 2. **双下划线变量**:解释了双下划线(如`__name__`、`__doc__`、`__builtins__`)是系统定义的标识符,具有特殊含义。
24 3
|
2月前
|
持续交付 Python
如何在Python中自动解决模块和包的依赖冲突?
完全自动解决所有依赖冲突可能并不总是可行,特别是在复杂的项目中。有时候仍然需要人工干预和判断。自动解决的方法主要是提供辅助和便捷,但不能完全替代人工的分析和决策😉。
|
1月前
|
计算机视觉 Python
如何使用Python将TS文件转换为MP4
本文介绍了如何使用Python和FFmpeg将TS文件转换为MP4文件。首先需要安装Python和FFmpeg,然后通过`subprocess`模块调用FFmpeg命令,实现文件格式的转换。代码示例展示了具体的操作步骤,包括检查文件存在性、构建FFmpeg命令和执行转换过程。
50 7
|
1月前
|
人工智能 数据可视化 数据挖掘
探索Python编程:从基础到高级
在这篇文章中,我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员,都可以从中获得新的知识和技能。我们将从Python的基础语法开始,然后逐步过渡到更复杂的主题,如面向对象编程、异常处理和模块使用。最后,我们将通过一些实际的代码示例,来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧!
|
1月前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
30天前
|
Unix Linux 程序员
[oeasy]python053_学编程为什么从hello_world_开始
视频介绍了“Hello World”程序的由来及其在编程中的重要性。从贝尔实验室诞生的Unix系统和C语言说起,讲述了“Hello World”作为经典示例的起源和流传过程。文章还探讨了C语言对其他编程语言的影响,以及它在系统编程中的地位。最后总结了“Hello World”、print、小括号和双引号等编程概念的来源。
111 80
|
19天前
|
Python
[oeasy]python055_python编程_容易出现的问题_函数名的重新赋值_print_int
本文介绍了Python编程中容易出现的问题,特别是函数名、类名和模块名的重新赋值。通过具体示例展示了将内建函数(如`print`、`int`、`max`)或模块名(如`os`)重新赋值为其他类型后,会导致原有功能失效。例如,将`print`赋值为整数后,无法再用其输出内容;将`int`赋值为整数后,无法再进行类型转换。重新赋值后,这些名称失去了原有的功能,可能导致程序错误。总结指出,已有的函数名、类名和模块名不适合覆盖赋新值,否则会失去原有功能。如果需要使用类似的变量名,建议采用其他命名方式以避免冲突。
37 14