Python批量提取多目录下多个word文档中的图片

简介: Python批量提取多目录下多个word文档中的图片

title: Python批量提取多目录下多个word文档中的图片
date: 2020-03-27 17:35:25.0
updated: 2020-09-27 20:34:30.0
categories:

  • 代码

tags:

  • Python

写在前面

写这个的起因是源于帮老师收一次作业,要求拍照,于是就收到的各式各样的格式,图片在一个文档中还能直接取出(将 word 另存为网页格式,就能看到所有图片),一个班几十号人,每人一个文档,一个文档中就几张图片,真的很难提取,于是就有了这个项目。。。

实现思路

以 office 保存的 word 文件,修改后缀为 zip 格式,解压后在 word/media 下保存了文档中所有的图片,就很容易实现了,修改后缀->取出 word/media 目录下所有的图片->保存图片即可,
当然你用 wps 保存的文档是 doc,他就不能这么做,要先将 doc 转为 docx(不是直接改后缀名,要修改属性值)
使用的前提是要装了 office

遇到问题

Python3.x 好像都不能安装 win32com,py2.7 可以,Python3.x 可以使用此方法

pip install pypiwin32

多线程处理的时候,报了一个“pywintypes.com_error: (-2147221008, '尚未调用 CoInitialize。', None, None)”的错误,主线程运行的时候就不会,应该就是多个线程共用了一个资源,我们就需要在每一个线程里单独初始化,在 csdn 里找到解决方案如下

import pythoncom

在打开 Word 文件语句之前输入

pythoncom.CoInitialize()

即可解决
另外的一个需求是在提取目录下所有 Word 文档中的图片后,是否需要删除源文档,这就需要每个目录下的文件都由用户输入来决定,可在多线程里面,会将多个线程的等待输入语句一起输出,就不能做到等待用户输入了(我技术不到位,实现不了)
也试过线程锁,以及 thread.join(),好像都无法实现,后来找到一个解决方案,通过图形界面的输入框来实现这个需求即可
还有就是打包成可执行文件时,直接打包会将系统环境中的所有库都打包,程序就会很大,可以使用 pipenv 虚拟环境打包
安装 pipenv

pip install pipenv

为当前目录建立虚拟环境

pipenv install

进入虚拟环境(上一步可省略,因为没有虚拟环境的话会自动建立一个)

pipenv shell

安装程序中所用到的额外包(Python 自带的库就不用装了,装 site-package 下面的),以及 pyinstaller(Python 打包库)即可

使用演示

原来的目录
1.webp
单线程操作
2.webp
多线程操作
1.webp

写在结尾

那个多线程等待用户输入有知道的小伙伴,麻烦说一下呗
软件下载地址:下载 Word 图片提取批处理工具
源码还没上传 GitHub,上传后在更新

目录
相关文章
|
1月前
|
数据采集 Python
Python实用记录(七):通过retinaface对CASIA-WebFace人脸数据集进行清洗,并把错误图路径放入txt文档
使用RetinaFace模型对CASIA-WebFace人脸数据集进行清洗,并将无法检测到人脸的图片路径记录到txt文档中。
40 1
|
1月前
|
Python
Python实用记录(六):如何打开txt文档并删除指定绝对路径下图片
这篇文章介绍了如何使用Python打开txt文档,删除文档中指定路径的图片,并提供了一段示例代码来展示这一过程。
28 1
|
1月前
|
计算机视觉 Python
Python实用记录(一):如何将不同类型视频按关键帧提取并保存图片,实现图片裁剪功能
这篇文章介绍了如何使用Python和OpenCV库从不同格式的视频文件中按关键帧提取图片,并展示了图片裁剪的方法。
66 0
|
1月前
|
数据处理 Python
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
这篇文章介绍了如何使用Python读取Excel文件中的数据,处理后将其保存为txt、xlsx和csv格式的文件。
49 3
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
|
1月前
|
计算机视觉 Python
Python实用记录(九):将不同的图绘制在一起、将不同txt文档中的数据绘制多条折线图
这篇文章介绍了如何使用Python的OpenCV库将多张图片合并为一张图片显示,以及如何使用matplotlib库从不同txt文档中读取数据并绘制多条折线图。
41 3
Python实用记录(九):将不同的图绘制在一起、将不同txt文档中的数据绘制多条折线图
|
1月前
|
Python
Socket学习笔记(二):python通过socket实现客户端到服务器端的图片传输
使用Python的socket库实现客户端到服务器端的图片传输,包括客户端和服务器端的代码实现,以及传输结果的展示。
134 3
Socket学习笔记(二):python通过socket实现客户端到服务器端的图片传输
|
1月前
|
Python
Python实用记录(四):os模块-去后缀或者改后缀/指定目录下图片或者子目录图片写入txt/csv
本文介绍了如何使用Python的os模块来操作文件,包括更改文件后缀、分割文件路径和后缀、将指定目录下的所有图片写入txt文档,以及将指定目录下所有子目录中的图片写入csv文档,并为每个子目录分配一个标签。
16 1
|
4天前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能浪潮下的自我修养:从Python编程入门到深度学习实践
【10月更文挑战第39天】本文旨在为初学者提供一条清晰的道路,从Python基础语法的掌握到深度学习领域的探索。我们将通过简明扼要的语言和实际代码示例,引导读者逐步构建起对人工智能技术的理解和应用能力。文章不仅涵盖Python编程的基础,还将深入探讨深度学习的核心概念、工具和实战技巧,帮助读者在AI的浪潮中找到自己的位置。
|
4天前
|
机器学习/深度学习 数据挖掘 Python
Python编程入门——从零开始构建你的第一个程序
【10月更文挑战第39天】本文将带你走进Python的世界,通过简单易懂的语言和实际的代码示例,让你快速掌握Python的基础语法。无论你是编程新手还是想学习新语言的老手,这篇文章都能为你提供有价值的信息。我们将从变量、数据类型、控制结构等基本概念入手,逐步过渡到函数、模块等高级特性,最后通过一个综合示例来巩固所学知识。让我们一起开启Python编程之旅吧!
|
4天前
|
存储 Python
Python编程入门:打造你的第一个程序
【10月更文挑战第39天】在数字时代的浪潮中,掌握编程技能如同掌握了一门新时代的语言。本文将引导你步入Python编程的奇妙世界,从零基础出发,一步步构建你的第一个程序。我们将探索编程的基本概念,通过简单示例理解变量、数据类型和控制结构,最终实现一个简单的猜数字游戏。这不仅是一段代码的旅程,更是逻辑思维和问题解决能力的锻炼之旅。准备好了吗?让我们开始吧!