删除指定文件夹重复的文件
背景和环境说明
本程序使用
python 3.10+
机器学习,样本处理过程中会有重复的数据。这里的样本是图片
,本程序根据文件MD5
删除重复文件。
依赖包下载
pip install -U NStudyPy
使用
from NStudyPy import PyFile
if __name__ == '__main__':
PyFile.delete_repeat_file(r'F:\temp\cards', is_recursive=True)
is_recursive
参数来限定是否递归子目录
核心源码
def delete_repeat_file(path: str, is_recursive=True) -> None:
"""
删除重复文件
:param path: 路径
:param is_recursive: 是否递归
:return: None
"""
for f in get_repeat_file(path, is_recursive).values():
for i in f[1:]:
os.remove(i)
get_repeat_file
获取重复文件 , 参加下篇随笔来介绍。