Python读取Word/PPT文件文本内容和图片内容

简介: 读取某个指定路径下的Word/PPT文件,并将其中所有的文本内容生成一个TXT文件,将所有的图片内容保存在一个文件夹里

读取Word文件:

读取某个指定路径下的Word文件,并将其中所有的文本内容生成一个TXT文件,将所有的图片内容保存在一个文件夹里

程序实现:

为了实现这个功能,你可以使用Python的docx库来读取Word文档的文本内容和图片,然后使用os库来进行文件和文件夹的操作。确保在运行程序之前安装好docx库,你可以使用以下命令安装它:

pip install python-docx

以下是一个实现你要求的Python程序:

import os
import docx
from docx.shared import Inches
def extract_text_from_docx(docx_path):
    doc = docx.Document(docx_path)
    text = []
    for paragraph in doc.paragraphs:
        text.append(paragraph.text)
    return '\n'.join(text)
def extract_images_from_docx(docx_path, output_folder):
    doc = docx.Document(docx_path)
    for rel in doc.part.rels:
        if "image" in doc.part.rels[rel].target_ref:
            image_part = doc.part.related_parts[doc.part.rels[rel].target_ref]
            image_data = image_part.blob
            image_name = os.path.basename(image_part.target_ref)
            image_path = os.path.join(output_folder, image_name)
            with open(image_path, 'wb') as f:
                f.write(image_data)
def main():
    docx_path = 'path_to_your_input_docx_file.docx'  # 替换为你的Word文档路径
    output_text_file = 'output_text.txt'
    output_image_folder = 'output_images'
    # 创建保存图片的文件夹
    os.makedirs(output_image_folder, exist_ok=True)
    # 提取文本内容并保存为TXT文件
    text_content = extract_text_from_docx(docx_path)
    with open(output_text_file, 'w', encoding='utf-8') as txt_file:
        txt_file.write(text_content)
    # 提取图片并保存到指定文件夹
    extract_images_from_docx(docx_path, output_image_folder)
if __name__ == '__main__':
    main()

在这个示例中,你需要将path_to_your_input_docx_file.docx替换为你实际的Word文档路径。程序会读取指定的Word文档,将文本内容保存为一个TXT文件,同时将所有的图片保存在一个文件夹中。记得事先在相应的路径下创建好输出文件夹。

读取PPT文件:

读取某个指定路径下的PPT文件,并将其中所有的文本内容生成一个TXT文件,将所有的图片内容保存在一个文件夹里

程序实现:

要实现读取指定路径下的PPT文件,并将文本内容保存为TXT文件,同时将图片保存在一个文件夹中,你可以使用Python的python-pptx库来处理PPT文件中的文本和图片。确保在运行程序之前安装好python-pptx库,你可以使用以下命令安装它:

pip install python-pptx

以下是一个实现你要求的Python程序:

import os
from pptx import Presentation
from pptx.util import Inches
def extract_text_from_ppt(ppt_path):
    prs = Presentation(ppt_path)
    text = []
    for slide in prs.slides:
        for shape in slide.shapes:
            if hasattr(shape, 'text'):
                text.append(shape.text)
    return '\n'.join(text)
def extract_images_from_ppt(ppt_path, output_folder):
    prs = Presentation(ppt_path)
    image_count = 0
    for slide in prs.slides:
        for shape in slide.shapes:
            if shape.shape_type == 13:  # 判断是否为图片
                image = shape.image
                image_bytes = image.blob
                image_extension = image.ext
                image_name = f"image_{image_count}{image_extension}"
                image_path = os.path.join(output_folder, image_name)
                with open(image_path, 'wb') as f:
                    f.write(image_bytes)
                image_count += 1
def main():
    ppt_path = 'path_to_your_input_ppt_file.pptx'  # 替换为你的PPT文件路径
    output_text_file = 'output_text.txt'
    output_image_folder = 'output_images'
    # 创建保存图片的文件夹
    os.makedirs(output_image_folder, exist_ok=True)
    # 提取文本内容并保存为TXT文件
    text_content = extract_text_from_ppt(ppt_path)
    with open(output_text_file, 'w', encoding='utf-8') as txt_file:
        txt_file.write(text_content)
    # 提取图片并保存到指定文件夹
    extract_images_from_ppt(ppt_path, output_image_folder)
if __name__ == '__main__':
    main()

在这个示例中,你需要将path_to_your_input_ppt_file.pptx替换为你实际的PPT文件路径。程序会读取指定的PPT文件,将文本内容保存为一个TXT文件,同时将所有的图片保存在一个文件夹中。记得事先在相应的路径下创建好输出文件夹。

目录
相关文章
|
11天前
|
机器学习/深度学习 存储 算法
解锁文件共享软件背后基于 Python 的二叉搜索树算法密码
文件共享软件在数字化时代扮演着连接全球用户、促进知识与数据交流的重要角色。二叉搜索树作为一种高效的数据结构,通过有序存储和快速检索文件,极大提升了文件共享平台的性能。它依据文件名或时间戳等关键属性排序,支持高效插入、删除和查找操作,显著优化用户体验。本文还展示了用Python实现的简单二叉搜索树代码,帮助理解其工作原理,并展望了该算法在分布式计算和机器学习领域的未来应用前景。
|
21天前
|
监控 网络安全 开发者
Python中的Paramiko与FTP文件夹及文件检测技巧
通过使用 Paramiko 和 FTP 库,开发者可以方便地检测远程服务器上的文件和文件夹是否存在。Paramiko 提供了通过 SSH 协议进行远程文件管理的能力,而 `ftplib` 则提供了通过 FTP 协议进行文件传输和管理的功能。通过理解和应用这些工具,您可以更加高效地管理和监控远程服务器上的文件系统。
51 20
|
27天前
|
存储 数据采集 数据处理
如何在Python中高效地读写大型文件?
大家好,我是V哥。上一篇介绍了Python文件读写操作,今天聊聊如何高效处理大型文件。主要方法包括:逐行读取、分块读取、内存映射(mmap)、pandas分块处理CSV、numpy处理二进制文件、itertools迭代处理及linecache逐行读取。这些方法能有效节省内存,提升效率。关注威哥爱编程,学习更多Python技巧。
|
28天前
|
存储 JSON 对象存储
如何使用 Python 进行文件读写操作?
大家好,我是V哥。本文介绍Python中文件读写操作的方法,包括文件读取、写入、追加、二进制模式、JSON、CSV和Pandas模块的使用,以及对象序列化与反序列化。通过这些方法,你可以根据不同的文件类型和需求,灵活选择合适的方式进行操作。希望对正在学习Python的小伙伴们有所帮助。欢迎关注威哥爱编程,全栈路上我们并肩前行。
|
1月前
|
存储 算法 Serverless
剖析文件共享工具背后的Python哈希表算法奥秘
在数字化时代,文件共享工具不可或缺。哈希表算法通过将文件名或哈希值映射到存储位置,实现快速检索与高效管理。Python中的哈希表可用于创建简易文件索引,支持快速插入和查找文件路径。哈希表不仅提升了文件定位速度,还优化了存储管理和多节点数据一致性,确保文件共享工具高效运行,满足多用户并发需求,推动文件共享领域向更高效、便捷的方向发展。
|
9月前
|
数据安全/隐私保护 Python
python 图片打水印 透明图片合并
python 图片打水印 透明图片合并
77 1
|
9月前
|
数据安全/隐私保护 计算机视觉 Python
如何使用Python给图片添加水印
如何使用Python给图片添加水印
174 0
|
9月前
|
数据安全/隐私保护 Python
python怎么使用Pillow库来添加图片水印
python怎么使用Pillow库来添加图片水印
125 0
|
9月前
|
数据安全/隐私保护 Python
Python3给图片添加水印
Python3给图片添加水印
113 1
|
数据安全/隐私保护 计算机视觉 Python
Python批量图片去水印,提高工作效率
Python批量图片去水印,提高工作效率
352 0

热门文章

最新文章

推荐镜像

更多