删除指定文件夹重复的文件

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 这是一个Python脚本,用于删除指定文件夹(包括子目录)中的重复图片文件,基于文件的MD5值。程序依赖`NStudyPy`库,可通过`pip install -U NStudyPy`安装。核心函数`delete_repeat_file`接收路径和是否递归参数,调用未展示的`get_repeat_file`函数获取重复文件并删除。

删除指定文件夹重复的文件

背景和环境说明

本程序使用 python 3.10+
机器学习,样本处理过程中会有重复的数据。这里的样本是图片,本程序根据文件MD5 删除重复文件。

依赖包下载

pip install -U NStudyPy

使用

from NStudyPy import PyFile

if __name__ == '__main__':
    PyFile.delete_repeat_file(r'F:\temp\cards', is_recursive=True)
AI 代码解读

is_recursive 参数来限定是否递归子目录

核心源码

def delete_repeat_file(path: str, is_recursive=True) -> None:
    """
    删除重复文件
    :param path: 路径
    :param is_recursive:  是否递归
    :return: None
    """
    for f in get_repeat_file(path, is_recursive).values():
        for i in f[1:]:
            os.remove(i)
AI 代码解读

get_repeat_file 获取重复文件 , 参加下篇随笔来介绍。

目录
打赏
0
1
1
0
12
分享
相关文章
|
4月前
|
Python实用记录(十二):文件夹下所有文件重命名以及根据图片路径保存到新路径下保存
这篇文章介绍了如何使用Python脚本对TTK100_VOC数据集中的JPEGImages文件夹下的图片文件进行批量重命名,并将它们保存到指定的新路径。
53 0
|
9月前
如何批量删除多个不同路径的文件但又保留文件夹呢
本文介绍了使用一个工具批量处理文件夹的步骤。首先,提供了百度网盘和蓝奏云的链接,需要提取码qwu2和2r1z。接着,展示了一个包含两个图片的文件夹示例。然后,打开工具,利用文件批量复制功能,并勾选“复制时先清空…”选项,即使目标文件夹为空。按照提示操作后,即可完成批量处理。最后,展示了操作完成后的结果。
判断文件或目录是否存在
【4月更文挑战第29天】
65 0
批量将文件名称符合要求的文件自动复制到新文件夹:Python实现
批量将文件名称符合要求的文件自动复制到新文件夹:Python实现
130 2
Python依据某一文件夹中大量文件的名称复制另一文件夹中的同名文件
Python依据某一文件夹中大量文件的名称复制另一文件夹中的同名文件
|
9月前
文件或目录的创建、删除、复制、移动
文件或目录的创建、删除、复制、移动
94 0
批量遍历指定类型的文件及文件夹,并将其复制到新的文件夹
批量遍历指定类型的文件及文件夹,并将其复制到新的文件夹
递归删除指定文件-目录
递归删除指定文件-目录
136 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等