读取Word文件:
读取某个指定路径下的Word文件,并将其中所有的文本内容生成一个TXT文件,将所有的图片内容保存在一个文件夹里
程序实现:
为了实现这个功能,你可以使用Python的docx
库来读取Word文档的文本内容和图片,然后使用os
库来进行文件和文件夹的操作。确保在运行程序之前安装好docx
库,你可以使用以下命令安装它:
pip install python-docx
以下是一个实现你要求的Python程序:
import os import docx from docx.shared import Inches def extract_text_from_docx(docx_path): doc = docx.Document(docx_path) text = [] for paragraph in doc.paragraphs: text.append(paragraph.text) return '\n'.join(text) def extract_images_from_docx(docx_path, output_folder): doc = docx.Document(docx_path) for rel in doc.part.rels: if "image" in doc.part.rels[rel].target_ref: image_part = doc.part.related_parts[doc.part.rels[rel].target_ref] image_data = image_part.blob image_name = os.path.basename(image_part.target_ref) image_path = os.path.join(output_folder, image_name) with open(image_path, 'wb') as f: f.write(image_data) def main(): docx_path = 'path_to_your_input_docx_file.docx' # 替换为你的Word文档路径 output_text_file = 'output_text.txt' output_image_folder = 'output_images' # 创建保存图片的文件夹 os.makedirs(output_image_folder, exist_ok=True) # 提取文本内容并保存为TXT文件 text_content = extract_text_from_docx(docx_path) with open(output_text_file, 'w', encoding='utf-8') as txt_file: txt_file.write(text_content) # 提取图片并保存到指定文件夹 extract_images_from_docx(docx_path, output_image_folder) if __name__ == '__main__': main()
在这个示例中,你需要将path_to_your_input_docx_file.docx
替换为你实际的Word文档路径。程序会读取指定的Word文档,将文本内容保存为一个TXT文件,同时将所有的图片保存在一个文件夹中。记得事先在相应的路径下创建好输出文件夹。
读取PPT文件:
读取某个指定路径下的PPT文件,并将其中所有的文本内容生成一个TXT文件,将所有的图片内容保存在一个文件夹里
程序实现:
要实现读取指定路径下的PPT文件,并将文本内容保存为TXT文件,同时将图片保存在一个文件夹中,你可以使用Python的python-pptx
库来处理PPT文件中的文本和图片。确保在运行程序之前安装好python-pptx
库,你可以使用以下命令安装它:
pip install python-pptx
以下是一个实现你要求的Python程序:
import os from pptx import Presentation from pptx.util import Inches def extract_text_from_ppt(ppt_path): prs = Presentation(ppt_path) text = [] for slide in prs.slides: for shape in slide.shapes: if hasattr(shape, 'text'): text.append(shape.text) return '\n'.join(text) def extract_images_from_ppt(ppt_path, output_folder): prs = Presentation(ppt_path) image_count = 0 for slide in prs.slides: for shape in slide.shapes: if shape.shape_type == 13: # 判断是否为图片 image = shape.image image_bytes = image.blob image_extension = image.ext image_name = f"image_{image_count}{image_extension}" image_path = os.path.join(output_folder, image_name) with open(image_path, 'wb') as f: f.write(image_bytes) image_count += 1 def main(): ppt_path = 'path_to_your_input_ppt_file.pptx' # 替换为你的PPT文件路径 output_text_file = 'output_text.txt' output_image_folder = 'output_images' # 创建保存图片的文件夹 os.makedirs(output_image_folder, exist_ok=True) # 提取文本内容并保存为TXT文件 text_content = extract_text_from_ppt(ppt_path) with open(output_text_file, 'w', encoding='utf-8') as txt_file: txt_file.write(text_content) # 提取图片并保存到指定文件夹 extract_images_from_ppt(ppt_path, output_image_folder) if __name__ == '__main__': main()
在这个示例中,你需要将path_to_your_input_ppt_file.pptx
替换为你实际的PPT文件路径。程序会读取指定的PPT文件,将文本内容保存为一个TXT文件,同时将所有的图片保存在一个文件夹中。记得事先在相应的路径下创建好输出文件夹。