遍历所有文件夹寻找指定格式的数据(遍历所有文件夹及子文件找到相应的.xls .mp4 .pdf .txt .jpg)

简介: 遍历所有文件夹寻找指定格式的数据(遍历所有文件夹及子文件找到相应的.xls .mp4 .pdf .txt .jpg)

遍历文件夹下所有 .* *=jpg/avi/xls/.pdf


有时候文件放置的混乱,存在嵌套关系,寻找起来特别麻烦,于是我就要干他


我的文件放置位置大致如下

root/

├── fileA1.txt

├── fileA2.jpg

├── fileA3.avi

├── fileA4.xls

├── sub1

│ ├── fileB1.txt

│ ├── fileB2.jpg

│ └── fileB3.avi

└── sub2

├── fileC1.txt

├── fileC2.jpg

└── fileC3.avi


当你遇到文件夹下有子文件夹并且文件和子文件都存在想要类型格式的文件,那么采取以下方式,将会比较快的达到你想要达到的目的.

import os
def findAllFile(base):
    for root, ds, fs in os.walk(base):
        for f in fs:
            if f.endswith('.jpg'):
                fullname = os.path.join(root, f)
                print(fullname)
if __name__ == '__main__':
    path = 'root/'
    findAllFile(path)

root:根文件路径
ds: directories 文件夹(们)
fs: files 文件(们)

上述代码运行会得到:

root/fileA2.jpg  
root/sub1/fileB2.jpg  
root/sub2/fileC2.jpg  ps:你当然不是我这种输出格式啦!


敲黑板!敲黑板! 敲黑板!

我这里是想寻找.jpg 而如果你想要寻找.xls文件 直接将.jpg替换为 .xls即可


从文件夹中随机抽取文件


简单示意

list = [0,1,2,3,4]
rs = random.sample(list, 2)
print(rs)
print(list)
》》》[2, 4]    #此数组随着不同的执行,里面的元素随机,但都是两个
》》》[0, 1, 2, 3, 4]    


那么问题来了,随机抽取文件,该怎么做呢

假设你的文件夹下有众多的.jpg文件那么,你只需要随机抽取一章图片,那么,可以用以下方法:

import os
import random
path='C:\\Users\\AIR\\Desktop\\data\\cat\\'
path_=os.listdir(path)
print(path_)
sample1=random.sample(path_,1)
sample1

如果对你有帮助,还希望点个赞!!!


相关文章
|
4天前
|
人工智能 JSON Linux
利用阿里云GPU加速服务器实现pdf转换为markdown格式
随着AI模型的发展,GPU需求日益增长,尤其是个人学习和研究。直接购置硬件成本高且更新快,建议选择阿里云等提供的GPU加速型服务器。
利用阿里云GPU加速服务器实现pdf转换为markdown格式
|
10天前
|
人工智能 文字识别 数据挖掘
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
MarkItDown 是微软开源的多功能文档转换工具,支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式,具备 OCR 文字识别、语音转文字和元数据提取等功能。
78 9
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
|
13天前
|
JavaScript
jquery图片和pdf文件预览插件
EZView.js是一款jquery图片和pdf文件预览插件。EZView.js可以为图片和pdf格式文件生成在线预览效果。支持的文件格式有pdf、jpg、 png、jpeg、gif。
44 16
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
模型训练数据-MinerU一款Pdf转Markdown软件
MinerU是由上海人工智能实验室OpenDataLab团队开发的开源智能数据提取工具,专长于复杂PDF文档的高效解析与提取。它能够将含有图片、公式、表格等多模态内容的PDF文档转化为Markdown格式,同时支持从网页和电子书中提取内容,显著提升了AI语料准备的效率。MinerU具备高精度的PDF模型解析工具链,能自动识别乱码,保留文档结构,并将公式转换为LaTeX格式,广泛适用于学术、财务、法律等领域。
127 4
|
2月前
|
Java Apache Maven
将word文档转换成pdf文件方法
在Java中,将Word文档转换为PDF文件可采用多种方法:1) 使用Apache POI和iText库,适合处理基本转换需求;2) Aspose.Words for Java,提供更高级的功能和性能;3) 利用LibreOffice命令行工具,适用于需要开源解决方案的场景。每种方法都有其适用范围,可根据具体需求选择。
|
2月前
|
Java Apache Maven
Java将word文档转换成pdf文件的方法?
【10月更文挑战第13天】Java将word文档转换成pdf文件的方法?
574 1
|
2月前
|
索引 Python
PDF文件页面提取操作小指南
PDF文件页面提取操作小指南
102 4
|
2月前
|
Python
Python对PDF文件页面的旋转和切割
Python对PDF文件页面的旋转和切割
52 3
|
2月前
|
计算机视觉 Python
Python操作PDF文件
Python操作PDF文件
43 1
|
2月前
|
JSON 数据格式
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
146 2