python3 编写简单的扫描相同文件工具

简介: 双十一 又快到了,我打算那天买过移动硬盘,因为电脑320G硬盘实在太小,再加上电脑没常整理,硬盘内的什么,图片、视频、文档、脚本等等也是特别的多。所以想先写个脚本吧重复的文件给找出来。

双十一 又快到了,我打算那天买过移动硬盘,因为电脑320G硬盘实在太小,再加上电脑没常整理,硬盘内的什么,图片、视频、文档、脚本等等也是特别的多。所以想先写个脚本吧重复的文件给找出来。
其实在我去年我也写过这脚本,所以我马上找到了之前的代码(https://www.oschina.net/code/snippet_2558914_54344),但感觉代码有些可以优化的地方所以今天又拿出来了。

扫描系统文件代码:

import hashlib, os,threading,time

_errList=[]#存放错误路径列表 
_equalFlags={}#存放相同数据

_skipDir=["node_modules"]#跳过目录名
_skipFile=["index.js"]#跳过文件名
_dirCount=0#目录数量统计
_fileCount=0#文件数量统计

_paths=["E:\\"]#需要被扫描的路径 使用绝对路径

def filters(path,isFile,size=0):
    #自定义过滤内容 比如 大小,后缀正则匹配等
    pass

def getFileMd5(files):#获取Md5
    srcl=open(files,'rb')
    m2 = hashlib.md5()   
    m2.update(srcl.read())
    srcl.close()
    return m2.hexdigest()
 
def getFilesize(path):#用递归的方式遍历文件夹
    global _dirCount,_fileCount
    try:
        if os.path.isdir(path): 
            filters(path,False)
            _dirCount=_dirCount+1
            files = os.listdir(path)
            for f in files: 
                p=path + "/" + f
                if f in _skipDir or f in _skipFile:
                    print("跳过:"+p)
                    continue
                getFilesize(p)
        else: 
            size=os.path.getsize(path)
            md5=getFileMd5(path)
            flag=str(md5)+"--"+str(size)#就这样当做标识吧
            filters(path,True,size)
            _fileCount=_fileCount+1
            if not ( flag in _equalFlags.keys()):
                _equalFlags[flag] = []
            mtime = time.ctime(os.path.getmtime(path))
            ctime = time.ctime(os.path.getctime(path))
            _equalFlags[flag].append({"name":os.path.basename(path),"size":size,"path":path,"mtime":mtime,"ctime":ctime,"md5":md5})  
    except Exception as e:
        print(e)
        _errList.append(path)

counter_lock = threading.Lock()#线程锁
_isScanFinish=False#是否扫描结束

def scanPath():
    global _isScanFinish,_paths
    for path in _paths:
        print("当前扫描目录:",path)
        getFilesize(path)
    _isScanFinish=True


t=threading.Thread(target = scanPath,)#创建扫描线程
print("===>扫描开始!!")
_startClock =time.time()#获取开始时间
t.start()#开始线程

while not _isScanFinish:
    counter_lock.acquire()
    print("已扫描目录:",_dirCount,"  已扫描文件:",_fileCount," 扫描失败:",len(_errList))
    counter_lock.release()
    time.sleep(2)
_endClock =time.time()#获取结束时间
print("===>扫描结束!!"," 用时",str(_endClock-_startClock)+"秒") 


'''
'如果你想查看结果那你可以用以下代码输出
'(也可以在此对重复文件进行处理操作)
'''
print("|文件名|完整路径|大小|创建时间|修改时间|MD5|")
print("| -------- |-------- |-------- |-------- |-------- |-------- |")


for key in _equalFlags.keys():
    itms=_equalFlags[key]
    if len(itms)>1: 
        for itm in itms:
            print("|",itm["name"],"|",itm["path"],"|",itm["size"],"|",itm["ctime"],"|",itm["mtime"],"|",itm["md5"],"|")


'''
'如果想将扫描结果信息导出
'你可以这样做:
'''
import codecs
import json
import datetime

def getNowDate(): #获取时间
    return  str(datetime.datetime.now().strftime('%Y-%m-%dT%H.%M.%S'))

def wrTxt(path,text):#写入txt
    f= codecs.open(path,'w',"utf-8") 
    f.write(text)
    f.close()

def wrJson(path,jsonData):#写入json文件
    wrTxt(path,json.dumps(jsonData,ensure_ascii=False))

wrJson("./扫描结果-"+getNowDate()+".json",_equalFlags)
wrJson("./错误结果-"+getNowDate()+".json",_errList) 
img_2aca41c006279b2ca5a4a46b17484d04.gif
效果

处理相同文件示例:

处理相同文件的方法很多,
比如:对于同一目录的子文件的话,操作很简单,直接删除;
对于不同目录的子文件就要具体情况具体分析了
这里拿对于同一目录不同命的重复文件进行直接删除到回收站的操作

首先 安装send2trash
(づ●─●)づ 注意删除到回收站 而不是直接删除,以防万一嘛!
当然你想直接删除或移动到某个目录都可以的。

import codecs
import json 
from send2trash import send2trash

def rdJson(src, dm='utf-8'):  # <===读取json 
    bfile = codecs.open(src, 'r', dm)
    text = bfile.read()
    bfile.close()
    if text.startswith(u'\ufeff'):
        text = text.encode('utf8')[3:].decode('utf8')
    return json.loads(text)
 


data=rdJson("扫描结果-XXXX.json")#读取到的数据
for key in data.keys():
    itms=data[key]
    itmslen=len(itms)
    if len(itms)>1: 
        for i in range(0,(itmslen-1)):
            p=itms[i]['path']
            print(p)  
            send2trash(p) #<====移动到回收站
相关文章
|
2天前
|
JavaScript 前端开发 Android开发
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
34 13
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
|
4天前
|
数据采集 JavaScript Android开发
【02】仿站技术之python技术,看完学会再也不用去购买收费工具了-本次找了小影-感觉页面很好看-本次是爬取vue需要用到Puppeteer库用node.js扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
【02】仿站技术之python技术,看完学会再也不用去购买收费工具了-本次找了小影-感觉页面很好看-本次是爬取vue需要用到Puppeteer库用node.js扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
29 7
【02】仿站技术之python技术,看完学会再也不用去购买收费工具了-本次找了小影-感觉页面很好看-本次是爬取vue需要用到Puppeteer库用node.js扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
|
4天前
|
JavaScript 搜索推荐 Android开发
【01】仿站技术之python技术,看完学会再也不用去购买收费工具了-用python扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-客户的麻将软件需要下载落地页并且要做搜索引擎推广-本文用python语言快速开发爬取落地页下载-优雅草卓伊凡
【01】仿站技术之python技术,看完学会再也不用去购买收费工具了-用python扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-客户的麻将软件需要下载落地页并且要做搜索引擎推广-本文用python语言快速开发爬取落地页下载-优雅草卓伊凡
23 8
【01】仿站技术之python技术,看完学会再也不用去购买收费工具了-用python扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-客户的麻将软件需要下载落地页并且要做搜索引擎推广-本文用python语言快速开发爬取落地页下载-优雅草卓伊凡
|
11天前
|
机器学习/深度学习 存储 算法
解锁文件共享软件背后基于 Python 的二叉搜索树算法密码
文件共享软件在数字化时代扮演着连接全球用户、促进知识与数据交流的重要角色。二叉搜索树作为一种高效的数据结构,通过有序存储和快速检索文件,极大提升了文件共享平台的性能。它依据文件名或时间戳等关键属性排序,支持高效插入、删除和查找操作,显著优化用户体验。本文还展示了用Python实现的简单二叉搜索树代码,帮助理解其工作原理,并展望了该算法在分布式计算和机器学习领域的未来应用前景。
|
21天前
|
监控 网络安全 开发者
Python中的Paramiko与FTP文件夹及文件检测技巧
通过使用 Paramiko 和 FTP 库,开发者可以方便地检测远程服务器上的文件和文件夹是否存在。Paramiko 提供了通过 SSH 协议进行远程文件管理的能力,而 `ftplib` 则提供了通过 FTP 协议进行文件传输和管理的功能。通过理解和应用这些工具,您可以更加高效地管理和监控远程服务器上的文件系统。
51 20
|
27天前
|
存储 数据采集 数据处理
如何在Python中高效地读写大型文件?
大家好,我是V哥。上一篇介绍了Python文件读写操作,今天聊聊如何高效处理大型文件。主要方法包括:逐行读取、分块读取、内存映射(mmap)、pandas分块处理CSV、numpy处理二进制文件、itertools迭代处理及linecache逐行读取。这些方法能有效节省内存,提升效率。关注威哥爱编程,学习更多Python技巧。
|
28天前
|
存储 JSON 对象存储
如何使用 Python 进行文件读写操作?
大家好,我是V哥。本文介绍Python中文件读写操作的方法,包括文件读取、写入、追加、二进制模式、JSON、CSV和Pandas模块的使用,以及对象序列化与反序列化。通过这些方法,你可以根据不同的文件类型和需求,灵活选择合适的方式进行操作。希望对正在学习Python的小伙伴们有所帮助。欢迎关注威哥爱编程,全栈路上我们并肩前行。
|
1月前
|
测试技术 数据库 Python
Python装饰器实战:打造高效性能计时工具
在数据分析中,处理大规模数据时,分析代码性能至关重要。本文介绍如何使用Python装饰器实现性能计时工具,在不改变现有代码的基础上,方便快速地测试函数执行时间。该方法具有侵入性小、复用性强、灵活度高等优点,有助于快速发现性能瓶颈并优化代码。通过设置循环次数参数,可以更准确地评估函数的平均执行时间,提升开发效率。
106 61
Python装饰器实战:打造高效性能计时工具
|
1月前
|
数据可视化 算法 数据挖掘
Python时间序列分析工具Aeon使用指南
**Aeon** 是一个遵循 scikit-learn API 风格的开源 Python 库,专注于时间序列处理。它提供了分类、回归、聚类、预测建模和数据预处理等功能模块,支持多种算法和自定义距离度量。Aeon 活跃开发并持续更新至2024年,与 pandas 1.4.0 版本兼容,内置可视化工具,适合数据探索和基础分析任务。尽管在高级功能和性能优化方面有提升空间,但其简洁的 API 和完整的基础功能使其成为时间序列分析的有效工具。
80 37
Python时间序列分析工具Aeon使用指南
|
1月前
|
存储 算法 Serverless
剖析文件共享工具背后的Python哈希表算法奥秘
在数字化时代,文件共享工具不可或缺。哈希表算法通过将文件名或哈希值映射到存储位置,实现快速检索与高效管理。Python中的哈希表可用于创建简易文件索引,支持快速插入和查找文件路径。哈希表不仅提升了文件定位速度,还优化了存储管理和多节点数据一致性,确保文件共享工具高效运行,满足多用户并发需求,推动文件共享领域向更高效、便捷的方向发展。

热门文章

最新文章

推荐镜像

更多