python3 编写简单的扫描相同文件工具

简介: 双十一 又快到了,我打算那天买过移动硬盘,因为电脑320G硬盘实在太小,再加上电脑没常整理,硬盘内的什么,图片、视频、文档、脚本等等也是特别的多。所以想先写个脚本吧重复的文件给找出来。

双十一 又快到了,我打算那天买过移动硬盘,因为电脑320G硬盘实在太小,再加上电脑没常整理,硬盘内的什么,图片、视频、文档、脚本等等也是特别的多。所以想先写个脚本吧重复的文件给找出来。
其实在我去年我也写过这脚本,所以我马上找到了之前的代码(https://www.oschina.net/code/snippet_2558914_54344),但感觉代码有些可以优化的地方所以今天又拿出来了。

扫描系统文件代码:

import hashlib, os,threading,time

_errList=[]#存放错误路径列表 
_equalFlags={}#存放相同数据

_skipDir=["node_modules"]#跳过目录名
_skipFile=["index.js"]#跳过文件名
_dirCount=0#目录数量统计
_fileCount=0#文件数量统计

_paths=["E:\\"]#需要被扫描的路径 使用绝对路径

def filters(path,isFile,size=0):
    #自定义过滤内容 比如 大小,后缀正则匹配等
    pass

def getFileMd5(files):#获取Md5
    srcl=open(files,'rb')
    m2 = hashlib.md5()   
    m2.update(srcl.read())
    srcl.close()
    return m2.hexdigest()
 
def getFilesize(path):#用递归的方式遍历文件夹
    global _dirCount,_fileCount
    try:
        if os.path.isdir(path): 
            filters(path,False)
            _dirCount=_dirCount+1
            files = os.listdir(path)
            for f in files: 
                p=path + "/" + f
                if f in _skipDir or f in _skipFile:
                    print("跳过:"+p)
                    continue
                getFilesize(p)
        else: 
            size=os.path.getsize(path)
            md5=getFileMd5(path)
            flag=str(md5)+"--"+str(size)#就这样当做标识吧
            filters(path,True,size)
            _fileCount=_fileCount+1
            if not ( flag in _equalFlags.keys()):
                _equalFlags[flag] = []
            mtime = time.ctime(os.path.getmtime(path))
            ctime = time.ctime(os.path.getctime(path))
            _equalFlags[flag].append({"name":os.path.basename(path),"size":size,"path":path,"mtime":mtime,"ctime":ctime,"md5":md5})  
    except Exception as e:
        print(e)
        _errList.append(path)

counter_lock = threading.Lock()#线程锁
_isScanFinish=False#是否扫描结束

def scanPath():
    global _isScanFinish,_paths
    for path in _paths:
        print("当前扫描目录:",path)
        getFilesize(path)
    _isScanFinish=True


t=threading.Thread(target = scanPath,)#创建扫描线程
print("===>扫描开始!!")
_startClock =time.time()#获取开始时间
t.start()#开始线程

while not _isScanFinish:
    counter_lock.acquire()
    print("已扫描目录:",_dirCount,"  已扫描文件:",_fileCount," 扫描失败:",len(_errList))
    counter_lock.release()
    time.sleep(2)
_endClock =time.time()#获取结束时间
print("===>扫描结束!!"," 用时",str(_endClock-_startClock)+"秒") 


'''
'如果你想查看结果那你可以用以下代码输出
'(也可以在此对重复文件进行处理操作)
'''
print("|文件名|完整路径|大小|创建时间|修改时间|MD5|")
print("| -------- |-------- |-------- |-------- |-------- |-------- |")


for key in _equalFlags.keys():
    itms=_equalFlags[key]
    if len(itms)>1: 
        for itm in itms:
            print("|",itm["name"],"|",itm["path"],"|",itm["size"],"|",itm["ctime"],"|",itm["mtime"],"|",itm["md5"],"|")


'''
'如果想将扫描结果信息导出
'你可以这样做:
'''
import codecs
import json
import datetime

def getNowDate(): #获取时间
    return  str(datetime.datetime.now().strftime('%Y-%m-%dT%H.%M.%S'))

def wrTxt(path,text):#写入txt
    f= codecs.open(path,'w',"utf-8") 
    f.write(text)
    f.close()

def wrJson(path,jsonData):#写入json文件
    wrTxt(path,json.dumps(jsonData,ensure_ascii=False))

wrJson("./扫描结果-"+getNowDate()+".json",_equalFlags)
wrJson("./错误结果-"+getNowDate()+".json",_errList) 
img_2aca41c006279b2ca5a4a46b17484d04.gif
效果

处理相同文件示例:

处理相同文件的方法很多,
比如:对于同一目录的子文件的话,操作很简单,直接删除;
对于不同目录的子文件就要具体情况具体分析了
这里拿对于同一目录不同命的重复文件进行直接删除到回收站的操作

首先 安装send2trash
(づ●─●)づ 注意删除到回收站 而不是直接删除,以防万一嘛!
当然你想直接删除或移动到某个目录都可以的。

import codecs
import json 
from send2trash import send2trash

def rdJson(src, dm='utf-8'):  # <===读取json 
    bfile = codecs.open(src, 'r', dm)
    text = bfile.read()
    bfile.close()
    if text.startswith(u'\ufeff'):
        text = text.encode('utf8')[3:].decode('utf8')
    return json.loads(text)
 


data=rdJson("扫描结果-XXXX.json")#读取到的数据
for key in data.keys():
    itms=data[key]
    itmslen=len(itms)
    if len(itms)>1: 
        for i in range(0,(itmslen-1)):
            p=itms[i]['path']
            print(p)  
            send2trash(p) #<====移动到回收站
相关文章
|
5月前
|
数据可视化 Linux iOS开发
Python脚本转EXE文件实战指南:从原理到操作全解析
本教程详解如何将Python脚本打包为EXE文件,涵盖PyInstaller、auto-py-to-exe和cx_Freeze三种工具,包含实战案例与常见问题解决方案,助你轻松发布独立运行的Python程序。
1409 2
|
5月前
|
存储 缓存 测试技术
理解Python装饰器:简化代码的强大工具
理解Python装饰器:简化代码的强大工具
|
4月前
|
监控 机器人 编译器
如何将python代码打包成exe文件---PyInstaller打包之神
PyInstaller可将Python程序打包为独立可执行文件,无需用户安装Python环境。它自动分析代码依赖,整合解释器、库及资源,支持一键生成exe,方便分发。使用pip安装后,通过简单命令即可完成打包,适合各类项目部署。
899 68
|
6月前
|
程序员 测试技术 开发者
Python装饰器:简化代码的强大工具
Python装饰器:简化代码的强大工具
266 92
|
5月前
|
机器学习/深度学习 编解码 Python
Python图片上采样工具 - RealESRGANer
Real-ESRGAN基于深度学习实现图像超分辨率放大,有效改善传统PIL缩放的模糊问题。支持多种模型版本,推荐使用魔搭社区提供的预训练模型,适用于将小图高质量放大至大图,放大倍率越低效果越佳。
426 3
|
6月前
|
人工智能 自然语言处理 安全
Python构建MCP服务器:从工具封装到AI集成的全流程实践
MCP协议为AI提供标准化工具调用接口,助力模型高效操作现实世界。
1216 1
|
5月前
|
算法 安全 数据安全/隐私保护
Python随机数函数全解析:5个核心工具的实战指南
Python的random模块不仅包含基础的随机数生成函数,还提供了如randint()、choice()、shuffle()和sample()等实用工具,适用于游戏开发、密码学、统计模拟等多个领域。本文深入解析这些函数的用法、底层原理及最佳实践,帮助开发者高效利用随机数,提升代码质量与安全性。
1006 0
|
6月前
|
缓存 数据可视化 Linux
Python文件/目录比较实战:排除特定类型的实用技巧
本文通过四个实战案例,详解如何使用Python比较目录差异并灵活排除特定文件,涵盖基础比较、大文件处理、跨平台适配与可视化报告生成,助力开发者高效完成目录同步与数据校验任务。
223 0
|
6月前
|
API 数据安全/隐私保护 Python
拼多多批量上架软件, 电商一键上货发布工具,python电商框架分享
多线程批量上传架构,支持并发处理商品数据 完整的拼多多API签名和token管理机制
|
6月前
|
安全 API 数据安全/隐私保护

推荐镜像

更多