python获取word文档和pdf文档页数的方法
1、获取pdf页码数
这里要使用到 pdfplumber 这个库,首先导入
没有安装的同学还需要先安装
pip install pdfplumber
import pdfplumber from pdfminer.pdfparser import PDFSyntaxError
官方教程
https://codechina.csdn.net/mirrors/jsvine/pdfplumber?utm_source=csdn_github_accelerator
代码如下:
#获取pdf文档页数 def get_pdf_page(pdf_path): try: f = pdfplumber.open(pdf_path) page = len(f.pages) except PDFSyntaxError: page = 0 return page
2、获取word文档页码数
这里我们需要用到pythoncom和win32com这两个库,先导入
import pythoncom import win32com
代码如下
#获取word文档页数 def get_word_page(word_path): pythoncom.CoInitialize() # 调用word程序,不在前台显示 w = win32com.client.Dispatch("Word.Application") w.Visible = 0 w.DisplayAlerts = 0 # 打开一个word文档 doc = w.Documents.Open(word_path) # 获取总页数 w.ActiveDocument.Repaginate() pages = w.ActiveDocument.ComputeStatistics(2) print(pages) # 保存并关闭 doc.SaveAs('test.docx') doc.Close() return pages