② 解密pdf并保存为未加密的pdf
from PyPDF2 import PdfFileReader, PdfFileWriter pdf_reader = PdfFileReader(r"G:\6Tipdm\7python办公自动化\concat_pdf\时间序列.pdf") # 解密pdf pdf_reader.decrypt("a123456") pdf_writer = PdfFileWriter() for page in range(pdf_reader.getNumPages()): pdf_writer.addPage(pdf_reader.getPage(page)) with open("G:\\6Tipdm\\7python办公自动化\\concat_pdf\\未加密的时间序列.pdf", "wb") as out: pdf_writer.write(out)
结果如下:
章节三:python使用python-docx操作word
1、python-docx库介绍
该模块儿可以创建、修改Word(.docx)文件;
此模块儿不属于python标准库,需要单独安装;
python-docx使用官网: python-docx官网
我们在安装此模块儿使用的是pip install python-docx,但是在导入的时候是import docx;
2、Python读取Word文档内容
注意:每进行一个操作,必须保存一下,否则等于白做;
1)word文档结构介绍
2)python-docx提取文字和文字块儿
① python-docx提取文字
有一个这样的docx文件,我们想要提取其中的文字,应该怎么做?
代码如下:
from docx import Document doc = Document(r"G:\6Tipdm\7python办公自动化\concat_word\test1.docx") print(doc.paragraphs) for paragraph in doc.paragraphs: print(paragraph.text)
结果如下:
② python-docx提取文字块儿
from docx import Document doc = Document(r"G:\6Tipdm\7python办公自动化\concat_word\test1.docx") print(doc.paragraphs) paragraph = doc.paragraphs[0] runs = paragraph.runs print(runs) for run in paragraph.runs: print(run.text) ------------------------------ paragraph = doc.paragraphs[1] runs = paragraph.runs print(runs) for run in paragraph.runs: print(run.text)
结果如下:
3)利用Python向Word文档写入内容
① 添加段落
from docx import Document doc = Document(r"G:\6Tipdm\7python办公自动化\concat_word\test1.docx") # print(doc.add_heading("一级标题", level=1)) 添加一级标题的时候出错,还没有解决! paragraph1 = doc.add_paragraph("这是一个段落") paragraph2 = doc.add_paragraph("这是第二个段落") doc.save(r"G:\6Tipdm\7python办公自动化\concat_word\test1.docx") """ 添加段落的时候,赋值给一个变量,方便我们后面进行格式调整; """
结果如下: