遍历所有文件夹寻找指定格式的数据(遍历所有文件夹及子文件找到相应的.xls .mp4 .pdf .txt .jpg)

简介: 遍历所有文件夹寻找指定格式的数据(遍历所有文件夹及子文件找到相应的.xls .mp4 .pdf .txt .jpg)

遍历文件夹下所有 .* *=jpg/avi/xls/.pdf


有时候文件放置的混乱,存在嵌套关系,寻找起来特别麻烦,于是我就要干他


我的文件放置位置大致如下

root/

├── fileA1.txt

├── fileA2.jpg

├── fileA3.avi

├── fileA4.xls

├── sub1

│ ├── fileB1.txt

│ ├── fileB2.jpg

│ └── fileB3.avi

└── sub2

├── fileC1.txt

├── fileC2.jpg

└── fileC3.avi


当你遇到文件夹下有子文件夹并且文件和子文件都存在想要类型格式的文件,那么采取以下方式,将会比较快的达到你想要达到的目的.

import os
def findAllFile(base):
    for root, ds, fs in os.walk(base):
        for f in fs:
            if f.endswith('.jpg'):
                fullname = os.path.join(root, f)
                print(fullname)
if __name__ == '__main__':
    path = 'root/'
    findAllFile(path)

root:根文件路径
ds: directories 文件夹(们)
fs: files 文件(们)

上述代码运行会得到:

root/fileA2.jpg  
root/sub1/fileB2.jpg  
root/sub2/fileC2.jpg  ps:你当然不是我这种输出格式啦!


敲黑板!敲黑板! 敲黑板!

我这里是想寻找.jpg 而如果你想要寻找.xls文件 直接将.jpg替换为 .xls即可


从文件夹中随机抽取文件


简单示意

list = [0,1,2,3,4]
rs = random.sample(list, 2)
print(rs)
print(list)
》》》[2, 4]    #此数组随着不同的执行,里面的元素随机,但都是两个
》》》[0, 1, 2, 3, 4]    


那么问题来了,随机抽取文件,该怎么做呢

假设你的文件夹下有众多的.jpg文件那么,你只需要随机抽取一章图片,那么,可以用以下方法:

import os
import random
path='C:\\Users\\AIR\\Desktop\\data\\cat\\'
path_=os.listdir(path)
print(path_)
sample1=random.sample(path_,1)
sample1

如果对你有帮助,还希望点个赞!!!


相关文章
|
7月前
|
存储 JSON API
如何将 Swagger 文档导出为 PDF 文件
你会发现自己可能需要将 Swagger 文档导出为 PDF 或文件,以便于共享和存档。在这篇博文中,我们将指导你完成将 Swagger 文档导出为 PDF 格式的过程。
|
4月前
|
C#
【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件,PDF自动提取内容命名的方案和详细步骤
本工具可批量提取PDF中的合同编号、日期、发票号等关键信息,支持PDF自定义区域提取并自动重命名文件,适用于合同管理、发票处理、文档归档和数据录入场景。基于iTextSharp库实现,提供完整代码示例与百度、腾讯网盘下载链接,助力高效处理PDF文档。
670 40
|
4月前
|
编译器 Python
如何利用Python批量重命名PDF文件
本文介绍了如何使用Python提取PDF内容并用于文件重命名。通过安装Python环境、PyCharm编译器及Jupyter Notebook,结合tabula库实现PDF数据读取与处理,并提供代码示例与参考文献。
|
6月前
|
人工智能 搜索推荐 算法
PDF 转 JPG 图片小工具:CodeBuddy 助力解决转换痛点
在 PDF 转 JPG 的实际应用中,用户普遍面临转换质量差、批量处理效率低、格式兼容性不足以及编程实现困难等痛点。而 CodeBuddy 凭借智能代码生成与优化、实时错误诊断修复、助力代码学习拓展,以及支持多场景适配与个性化定制等强大的 AI 编程能力,精准直击这些难题。使用 CodeBuddy 开发 Python PDF 转 JPG 小工具,能够有效提升转换效率与质量,降低开发门槛和成本,为用户带来高效、优质的文件格式转换体验。
239 16
|
6月前
|
人工智能 算法 安全
使用CodeBuddy实现批量转换PPT、Excel、Word为PDF文件工具
通过 CodeBuddy 实现本地批量转换工具,让复杂的文档处理需求转化为 “需求描述→代码生成→一键运行” 的极简流程,真正实现 “技术为效率服务” 的目标。感兴趣的快来体验下把
287 10
|
5月前
|
数据采集 存储 API
Python爬虫结合API接口批量获取PDF文件
Python爬虫结合API接口批量获取PDF文件
|
6月前
|
安全 BI
AiPy实战:批量解析 PDF 漏洞报告,今日高风险数据一键归档
作为安全合规部门的效率神器,AiPy工具让处理200+份PDF漏洞报告变得简单高效。只需三步:批量导入文件、精准提取高风险漏洞数据(如编号、名称、类型等),并生成无重复的Excel报表,极大减少手动操作与错误。示例中,从指定目录提取含“高”字样的漏洞信息,并按要求保存为以日期命名的Excel文件,确保数据唯一且完整。相比传统手动方式,AiPy不仅提升工作效率,还留出更多时间专注安全策略优化与技术研究,助你成为团队核心骨干!
|
9月前
|
人工智能 编解码 文字识别
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
OCRmyPDF 是一款开源命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。
1069 17
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
|
10月前
|
人工智能 文字识别 自然语言处理
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
Vision Parse 是一款开源的 PDF 转 Markdown 工具,基于视觉语言模型,能够智能识别和提取 PDF 中的文本和表格,并保持原有格式和结构。
1387 19
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
|
10月前
|
机器学习/深度学习 人工智能 文字识别
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。
984 4
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式

热门文章

最新文章