python3 编写超简单的重复文件扫描工具

简介: 参考我之前的文章(python3 编写简单的扫描相同文件工具)做的简化代码import os,json,codecsimport hashlib##############_path = ["I:\\大电影","H:\\小电影","J:...

参考我之前的文章(python3 编写简单的扫描相同文件工具)做的简化

代码

import os,json,codecs
import hashlib
##############

_path = ["I:\\大电影","H:\\小电影","J:\\电影"]  # 路径 (自定义)
#读取大文件的时候如果直接读取所有可能就很慢,这里示例就读取部分
_read_s=1024*1024 #截取开始大小
_read_e=1024*1024*5#截取结束大小
########## 
def wrJson(path,jsonMap):#写入json
    f= codecs.open(path,'w',"utf-8") 
    f.write(json.dumps(jsonMap,ensure_ascii=False))
    f.close() 
     
    
def getFileMd5(files):  # 获取Md5
    srcl = open(files, 'rb')
    m2 = hashlib.md5()
    m2.update(srcl.read(_read_e)[_read_s:_read_e])
    srcl.close()
    return m2.hexdigest()

_size_map1 = {}  # 第一次过滤
_size_map2 = {}  # 第二次过滤
_size_map3 = {}  # 第三次过滤

#第一次根据大小进行分组
def fileFilter1(path): 
    if os.path.isdir(path):
        files = os.listdir(path)
        for f in files:
            p = path + "\\" + f
            fileFilter1(p)
    else:
        s = os.path.getsize(path)
        ###自定义过滤 -s
        if '.psd' in path: return #后缀过滤示例
        if s<1024*1024*200:return#示例200M的大文件
        ###自定义过滤-e
        if not (s in _size_map1.keys()):
            _size_map1[s] = {"list": [], "count": 0}
        _size_map1[s]["list"].append(path)
        _size_map1[s]["count"] += 1

#第二次根据大小进行分组
def fileFilter2():
    for k in _size_map1:
        i = _size_map1[k]
        if i["count"] > 1:
            for p in i["list"]:
                h=getFileMd5(p)
                if not (h in _size_map2.keys()):
                    _size_map2[h] = {"list": [], "count": 0,"size":k}
                _size_map2[h]["list"].append(p)
                _size_map2[h]["count"] += 1
                
#第三次过滤出分组数量大于1的,就当做是重复的
def fileFilter3():
    for k in _size_map2:
        i = _size_map2[k]
        if i["count"] > 1: 
            _size_map3[str(k)]=i
            
for p in _path:
    fileFilter1(p)
fileFilter2()
del _size_map1
fileFilter3()
del _size_map2
wrJson("./test.json",_size_map3)
print("---->over")

代码简单我就不详细说明了..

相关文章
|
10天前
|
计算机视觉 Python
如何使用Python将TS文件转换为MP4
本文介绍了如何使用Python和FFmpeg将TS文件转换为MP4文件。首先需要安装Python和FFmpeg,然后通过`subprocess`模块调用FFmpeg命令,实现文件格式的转换。代码示例展示了具体的操作步骤,包括检查文件存在性、构建FFmpeg命令和执行转换过程。
34 7
|
19天前
|
数据可视化 编译器 Python
Manim:数学可视化的强大工具 | python小知识
Manim(Manim Community Edition)是由3Blue1Brown的Grant Sanderson开发的数学动画引擎,专为数学和科学可视化设计。它结合了Python的灵活性与LaTeX的精确性,支持多领域的内容展示,能生成清晰、精确的数学动画,广泛应用于教育视频制作。安装简单,入门容易,适合教育工作者和编程爱好者使用。
80 7
|
1月前
|
JavaScript 前端开发 开发者
探索 DrissionPage: 强大的Python网页自动化工具
DrissionPage 是一个基于 Python 的网页自动化工具,结合了浏览器自动化的便利性和 requests 库的高效率。它提供三种页面对象:ChromiumPage、WebPage 和 SessionPage,分别适用于不同的使用场景,帮助开发者高效完成网页自动化任务。
141 4
|
1月前
|
开发者 Python
探索Python中的列表推导式:简洁而强大的工具
【10月更文挑战第41天】 在编程的世界中,效率与简洁是永恒的追求。本文将深入探讨Python编程语言中一个独特且强大的特性——列表推导式(List Comprehension)。我们将通过实际代码示例,展示如何利用这一工具简化代码、提升性能,并解决常见编程问题。无论你是初学者还是资深开发者,掌握列表推导式都将使你的Python之旅更加顺畅。
|
1月前
|
开发者 Python
Python中__init__.py文件的作用
`__init__.py`文件在Python包管理中扮演着重要角色,通过标识目录为包、初始化包、控制导入行为、支持递归包结构以及定义包的命名空间,`__init__.py`文件为组织和管理Python代码提供了强大支持。理解并正确使用 `__init__.py`文件,可以帮助开发者更好地组织代码,提高代码的可维护性和可读性。
49 2
|
2月前
|
数据采集 数据可视化 数据挖掘
R语言与Python:比较两种数据分析工具
R语言和Python是目前最流行的两种数据分析工具。本文将对这两种工具进行比较,包括它们的历史、特点、应用场景、社区支持、学习资源、性能等方面,以帮助读者更好地了解和选择适合自己的数据分析工具。
56 2
|
2月前
|
C语言 开发者 Python
探索Python中的列表推导式:简洁而强大的工具
【10月更文挑战第21天】在Python的世界里,代码的优雅与效率同样重要。列表推导式(List Comprehensions)作为一种强大而简洁的工具,允许开发者通过一行代码完成对列表的复杂操作。本文将深入探讨列表推导式的使用方法、性能考量以及它如何提升代码的可读性和效率。
|
1月前
|
中间件 Docker Python
【Azure Function】FTP上传了Python Function文件后,无法在门户页面加载函数的问题
通过FTP上传Python Function至Azure云后,出现函数列表无法加载的问题。经排查,发现是由于`requirements.txt`中的依赖包未被正确安装。解决方法为:在本地安装依赖包到`.python_packages/lib/site-packages`目录,再将该目录内容上传至云上的`wwwroot`目录,并重启应用。最终成功加载函数列表。
|
2月前
|
Java Python
> python知识点100篇系列(19)-使用python下载文件的几种方式
【10月更文挑战第7天】本文介绍了使用Python下载文件的五种方法,包括使用requests、wget、线程池、urllib3和asyncio模块。每种方法适用于不同的场景,如单文件下载、多文件并发下载等,提供了丰富的选择。
|
2月前
|
数据安全/隐私保护 流计算 开发者
python知识点100篇系列(18)-解析m3u8文件的下载视频
【10月更文挑战第6天】m3u8是苹果公司推出的一种视频播放标准,采用UTF-8编码,主要用于记录视频的网络地址。HLS(Http Live Streaming)是苹果公司提出的一种基于HTTP的流媒体传输协议,通过m3u8索引文件按序访问ts文件,实现音视频播放。本文介绍了如何通过浏览器找到m3u8文件,解析m3u8文件获取ts文件地址,下载ts文件并解密(如有必要),最后使用ffmpeg合并ts文件为mp4文件。