遍历所有文件夹寻找指定格式的数据(遍历所有文件夹及子文件找到相应的.xls .mp4 .pdf .txt .jpg)

简介: 遍历所有文件夹寻找指定格式的数据(遍历所有文件夹及子文件找到相应的.xls .mp4 .pdf .txt .jpg)

遍历文件夹下所有 .* *=jpg/avi/xls/.pdf


有时候文件放置的混乱,存在嵌套关系,寻找起来特别麻烦,于是我就要干他


我的文件放置位置大致如下

root/

├── fileA1.txt

├── fileA2.jpg

├── fileA3.avi

├── fileA4.xls

├── sub1

│ ├── fileB1.txt

│ ├── fileB2.jpg

│ └── fileB3.avi

└── sub2

├── fileC1.txt

├── fileC2.jpg

└── fileC3.avi


当你遇到文件夹下有子文件夹并且文件和子文件都存在想要类型格式的文件,那么采取以下方式,将会比较快的达到你想要达到的目的.

import os
def findAllFile(base):
    for root, ds, fs in os.walk(base):
        for f in fs:
            if f.endswith('.jpg'):
                fullname = os.path.join(root, f)
                print(fullname)
if __name__ == '__main__':
    path = 'root/'
    findAllFile(path)

root:根文件路径
ds: directories 文件夹(们)
fs: files 文件(们)

上述代码运行会得到:

root/fileA2.jpg  
root/sub1/fileB2.jpg  
root/sub2/fileC2.jpg  ps:你当然不是我这种输出格式啦!


敲黑板!敲黑板! 敲黑板!

我这里是想寻找.jpg 而如果你想要寻找.xls文件 直接将.jpg替换为 .xls即可


从文件夹中随机抽取文件


简单示意

list = [0,1,2,3,4]
rs = random.sample(list, 2)
print(rs)
print(list)
》》》[2, 4]    #此数组随着不同的执行,里面的元素随机,但都是两个
》》》[0, 1, 2, 3, 4]    


那么问题来了,随机抽取文件,该怎么做呢

假设你的文件夹下有众多的.jpg文件那么,你只需要随机抽取一章图片,那么,可以用以下方法:

import os
import random
path='C:\\Users\\AIR\\Desktop\\data\\cat\\'
path_=os.listdir(path)
print(path_)
sample1=random.sample(path_,1)
sample1

如果对你有帮助,还希望点个赞!!!


目录
打赏
0
0
0
0
40
分享
相关文章
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
OCRmyPDF 是一款开源命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。
165 17
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
【图片型PDF】批量识别扫描件PDF指定区域局部位置内容,将识别内容导出Excel表格或批量改名文件,基于阿里云OCR对图片型PDF识别改名案例实现
在医疗和政务等领域,图片型PDF文件(如病历、报告、公文扫描件)的处理需求广泛。通过OCR技术识别这些文件中的文字信息,提取关键内容并保存为表格,极大提高了信息管理和利用效率。本文介绍一款工具——咕嘎批量OCR系统,帮助用户快速处理图片型PDF文件,支持区域识别、内容提取、导出表格及批量改名等功能。下载工具后,按步骤选择处理模式、进行区域采样、批量处理文件,几分钟内即可高效完成数百个文件的处理。
73 8
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。
136 4
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
Vision Parse 是一款开源的 PDF 转 Markdown 工具,基于视觉语言模型,能够智能识别和提取 PDF 中的文本和表格,并保持原有格式和结构。
205 19
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
利用阿里云GPU加速服务器实现pdf转换为markdown格式
随着AI模型的发展,GPU需求日益增长,尤其是个人学习和研究。直接购置硬件成本高且更新快,建议选择阿里云等提供的GPU加速型服务器。
利用阿里云GPU加速服务器实现pdf转换为markdown格式
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
MarkItDown 是微软开源的多功能文档转换工具,支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式,具备 OCR 文字识别、语音转文字和元数据提取等功能。
376 9
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
|
2月前
|
jquery图片和pdf文件预览插件
EZView.js是一款jquery图片和pdf文件预览插件。EZView.js可以为图片和pdf格式文件生成在线预览效果。支持的文件格式有pdf、jpg、 png、jpeg、gif。
82 16
模型训练数据-MinerU一款Pdf转Markdown软件
MinerU是由上海人工智能实验室OpenDataLab团队开发的开源智能数据提取工具,专长于复杂PDF文档的高效解析与提取。它能够将含有图片、公式、表格等多模态内容的PDF文档转化为Markdown格式,同时支持从网页和电子书中提取内容,显著提升了AI语料准备的效率。MinerU具备高精度的PDF模型解析工具链,能自动识别乱码,保留文档结构,并将公式转换为LaTeX格式,广泛适用于学术、财务、法律等领域。
329 4
将word文档转换成pdf文件方法
在Java中,将Word文档转换为PDF文件可采用多种方法:1) 使用Apache POI和iText库,适合处理基本转换需求;2) Aspose.Words for Java,提供更高级的功能和性能;3) 利用LibreOffice命令行工具,适用于需要开源解决方案的场景。每种方法都有其适用范围,可根据具体需求选择。
Java将word文档转换成pdf文件的方法?
【10月更文挑战第13天】Java将word文档转换成pdf文件的方法?
1347 1

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等