Python办公自动化【Word转换PDF、PDF读取内容、PDF合并文件、PDF拆分文件、PDF加密文件、PPT基本操作-增加幻灯片、增加内容】(六)-全面详解(学习总结---从入门到深化)(上)

本文涉及的产品
密钥管理服务KMS,1000个密钥,100个凭据,1个月
简介: Python办公自动化【Word转换PDF、PDF读取内容、PDF合并文件、PDF拆分文件、PDF加密文件、PPT基本操作-增加幻灯片、增加内容】(六)-全面详解(学习总结---从入门到深化)

Python操作Word模块库文档



python文档 — python-docx 0.8.11 文档 (osgeo.cn)

python-docx — python-docx 0.8.11 documentation


Word转换PDF



使用office组件将word转换成PDF文件(缺点:只支持windows平台)


原理:使用python win32 库 调用word底层vba,将word转成pdf


安装


pip install pywin32


本地选装 office 套件,可以安装比较稳定的版本


常用方法与属性

函数名&属性&类  含义
win32com.client.gencache.EnsureDispatch()  设置word应用
ensureDispatch.Documents.Open(path)  读取数据
doc.ExportAsFixedFormat(pdfPath)  导出数据


代码

from win32com.client import gencache
from win32com.client import constants,gencache
def createPdf(wordPath, pdfPath):
  """
 word转pdf
 :param wordPath: word文件路径
 :param pdfPath: 生成pdf文件路径
 """
  word = gencache.EnsureDispatch('Word.Application')
  doc = word.Documents.Open(wordPath,ReadOnly=1)
  doc.ExportAsFixedFormat(pdfPath,
 constants.wdExportFormatPDF,
 Item=constants.wdExportDocumentWithMarkup,
 CreateBookmarks=constants.wdExportCreateHeadingBookmarks)
  word.Quit(constants.wdDoNotSaveChanges)
if __name__ == "__main__":
  # 路径填写绝对路径
  createPdf(
 r'D:\code\python\auto_code_word\base_data\原数据.docx',r'D:\code\python\auto_code_word\create_data
\10_word转换成pdf.pdf'
 )
  # 命令要安装pywin32模块,命令:pip install pywin32


PDF读取内容



安装

pip install pypdf2

pip install pdfplumber


常用方法与属性

函数名&属性&类  含义
PyPDF2.PdfFileReader(file)  读取PDF
pdf.getNumPages() 获取总页码
pdf.getPage(num)  获取第num页数据
page.extractText() 获取页面数据


代码

#pip install pypdf2
from PyPDF2 import PdfFileReader
def read_pdf1():
  # 打开文件
  with open('./base_data/10_word转换成pdf.pdf','rb') as f:
    # 将打开的文件传递给Reader对象
    reader = PdfFileReader(f)
    # 获取页面的总页数
    number = reader.getNumPages()
    print(number)
    # 获取单页
    page = reader.getPage(0)
    # 提取文本
    info = page.extractText()
    print(info)
# pip install pdfplumber
def read_pdf2():
  import pdfplumber
  # 打开文件
  with pdfplumber.open('./base_data/10_word转换成pdf.pdf') as f:
    # 获取数据
    print(f.pages)
    for p in f.pages:
      print(p.extract_text())
if __name__ =='__main__':
  # read_pdf1()
  read_pdf2()


PDF合并文件



在工作时,有时会碰到多个同类型内容的PDF文件,页码数又少,一个一个的打开又比较麻烦。这时应该如何处理呢?


这时就需要一个合并PDF的操作,而合并PDF操作的思路是:


1、读取源PDF文件

2、写入到一个新的PDF文件中


常用方法与属性

函数名&属性&类  含义
PyPDF2.PdfFileWriter()  创建一个pdf文件
write.addPage(page)  增加一页数据


代码

def merger_file(*m_path):
  from PyPDF2 import PdfFileReader,PdfFileWriter
  # 创建一个写入的对象
  writer = PdfFileWriter()
  # 读数据
  for path in m_path:
    # 创建reader
    reader = PdfFileReader(open(path,'rb'))
    # 读取页面数据
    for p in reader.pages:
      # 写新的pdf
      writer.addPage(p)
  # 保存
  with open('./create_data/02_合并pdf.pdf','wb') as f:
    writer.write(f)
if __name__ =='__main__':
  path = r'.\base_data\10_word转换成pdf.pdf'
  merger_file(path,path,path)


Python办公自动化【Word转换PDF、PDF读取内容、PDF合并文件、PDF拆分文件、PDF加密文件、PPT基本操作-增加幻灯片、增加内容】(六)-全面详解(学习总结---从入门到深化)(下):https://developer.aliyun.com/article/1420338

目录
相关文章
|
8天前
|
PyTorch Linux 算法框架/工具
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
这篇文章是关于如何使用Anaconda进行Python环境管理,包括下载、安装、配置环境变量、创建多版本Python环境、安装PyTorch以及使用Jupyter Notebook的详细指南。
88 1
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
|
10天前
|
自然语言处理 数据处理 Python
python操作和解析ppt文件 | python小知识
本文将带你从零开始,了解PPT解析的工具、工作原理以及常用的基本操作,并提供具体的代码示例和必要的说明【10月更文挑战第4天】
120 60
|
4天前
|
安全 Linux 数据安全/隐私保护
python知识点100篇系列(15)-加密python源代码为pyd文件
【10月更文挑战第5天】为了保护Python源码不被查看,可将其编译成二进制文件(Windows下为.pyd,Linux下为.so)。以Python3.8为例,通过Cython工具,先写好Python代码并加入`# cython: language_level=3`指令,安装easycython库后,使用`easycython *.py`命令编译源文件,最终生成.pyd文件供直接导入使用。
python知识点100篇系列(15)-加密python源代码为pyd文件
|
5天前
|
机器学习/深度学习 人工智能 架构师
Python学习圣经:从0到1,精通Python使用
尼恩架构团队的大模型《LLM大模型学习圣经》是一个系统化的学习系列,初步规划包括以下内容: 1. **《Python学习圣经:从0到1精通Python,打好AI基础》** 2. **《LLM大模型学习圣经:从0到1吃透Transformer技术底座》**
Python学习圣经:从0到1,精通Python使用
|
8天前
|
运维 监控 网络安全
自动化运维的魔法:如何用Python简化日常任务
【10月更文挑战第9天】在数字时代的浪潮中,运维人员面临着日益增长的挑战。本文将揭示如何通过Python脚本实现自动化运维,从而提高效率、减少错误,并让运维工作变得更具创造性。我们将探索一些实用的代码示例,这些示例将展示如何自动化处理文件、监控系统性能以及管理服务器配置等常见运维任务。准备好让你的运维工作升级换代了吗?让我们开始吧!
|
8天前
|
机器学习/深度学习 缓存 PyTorch
pytorch学习一(扩展篇):miniconda下载、安装、配置环境变量。miniconda创建多版本python环境。整理常用命令(亲测ok)
这篇文章是关于如何下载、安装和配置Miniconda,以及如何使用Miniconda创建和管理Python环境的详细指南。
131 0
pytorch学习一(扩展篇):miniconda下载、安装、配置环境变量。miniconda创建多版本python环境。整理常用命令(亲测ok)
|
11天前
|
开发者 Python
Python学习九:file操作
这篇文章是关于Python文件操作的详细教程,包括文件的打开、读写、关闭,以及文件备份脚本的编写和文件定位操作。
14 2
|
11天前
|
Java C# Python
Python学习七:面向对象编程(中)
这篇文章是关于Python面向对象编程的中级教程,涵盖了析构函数、对象的三大特征(封装、继承、多态)、类属性与实例属性、以及类方法与静态方法的对比。
19 2
|
11天前
|
设计模式 安全 JavaScript
Python学习八:面向对象编程(下):异常、私有等
这篇文章详细介绍了Python面向对象编程中的私有属性、私有方法、异常处理及动态添加属性和方法等关键概念。
15 1
|
5天前
|
机器学习/深度学习 人工智能 架构师
Python学习圣经:从入门到精通Python,打好 LLM大模型的基础
Python学习圣经:从0到1精通Python,打好AI基础