Python自动化Office文档处理全攻略

2025-02-25 1308

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文介绍如何使用Python自动化处理Word、Excel和PDF文档，提升办公效率。通过安装`python-docx`、`openpyxl`、`pandas`、`PyPDF2`和`pdfplumber`等库，可以轻松实现读取、修改、创建和批量处理这些文档。具体包括：自动化处理Word文档（如读取、修改内容、调整样式），Excel文档（如读取、清洗、汇总数据），以及PDF文档（如提取文本和表格数据）。结合代码示例和实战案例，帮助你掌握高效办公技巧，减少手动操作的错误率。

在日常办公中，处理Word、Excel和PDF等Office文档是再常见不过的任务。手动操作这些文档不仅耗时耗力，还容易出错。幸运的是，Python提供了丰富的库，使得自动化处理这些文档变得轻松高效。本文将通过通俗易懂的表达方式，结合代码和案例，带你领略Python自动化Office文档处理的魅力。
代理IP在太空数据传输中的关键作用 (10).png

一、自动化处理Word文档

安装python-docx库
python-docx是一个强大的库，可以读取、修改和创建Word文档。在开始之前，你需要确保已经安装了该库。你可以通过以下命令安装：

pip install python-docx

读取Word文档内容
读取Word文档内容非常简单，你可以逐段读取文档中的文字。以下是一个示例代码：

from docx import Document

打开一个Word文档

doc = Document('example.docx')

遍历文档中的段落并打印内容

for paragraph in doc.paragraphs:
print(paragraph.text)

这段代码会打开名为example.docx的文档，并逐段打印其内容。

修改Word文档内容
python-docx同样允许你修改文档内容。例如，你可以替换文档中的特定词语：

from docx import Document

打开一个Word文档

doc = Document('example.docx')

遍历段落并替换特定词语

for paragraph in doc.paragraphs:
if 'old_word' in paragraph.text:
new_text = paragraph.text.replace('old_word', 'new_word')
paragraph.text = new_text

保存修改后的文档

doc.save('modified_example.docx')

这段代码会将文档中的所有old_word替换为new_word，并保存为新的文档。

添加新的段落和文字
你还可以向文档中添加新的段落和文字：

from docx import Document

打开一个Word文档

doc = Document('example.docx')

添加一个新的段落

new_paragraph = doc.add_paragraph()

在新段落里添加文字

new_paragraph.add_run('This is a new paragraph added by Python.')

保存修改后的文档

doc.save('modified_example.docx')

这段代码会在文档的末尾添加一个新的段落，并写入指定的文字。

实战案例：批量调整Word样式
如果你有多个Word文档需要统一调整字体、字号、段落格式等样式，python-docx可以大显身手。以下是一个批量调整Word样式的示例代码：

import os
from docx import Document

定义调整样式的函数

def adjust_word_style(file_path):
doc = Document(file_path)
for paragraph in doc.paragraphs:
for run in paragraph.runs:
run.font.name = 'Times New Roman' # 设置字体
run.font.size = 12 # 设置字号
paragraph.paragraph_format.line_spacing = 1.5 # 设置行距
doc.save(file_path)

指定文件夹路径

folder_path = 'your_folder_path' # 替换为你的文件夹路径

遍历文件夹中的所有文件

for file_name in os.listdir(folder_path):
if file_name.endswith('.docx'):
file_path = os.path.join(folder_path, file_name)
adjust_word_style(file_path)

这段代码会遍历指定文件夹中的所有.docx文件，并统一调整其样式。

二、自动化处理Excel文档

安装openpyxl和pandas库
openpyxl和pandas是处理Excel文档的两大利器。你可以通过以下命令安装它们：

pip install openpyxl pandas

使用openpyxl读取和修改Excel文件
openpyxl可以轻松读取和修改Excel文件。以下是一个示例代码：

import openpyxl

加载现有的Excel文件

workbook = openpyxl.load_workbook('example.xlsx')

选择工作表

sheet = workbook.active

读取单元格值

cell_value = sheet['A1'].value
print(f"单元格 A1 的值是: {cell_value}")

修改单元格值

sheet['A1'] = "新的值"

保存修改后的文件

workbook.save('modified_example.xlsx')

这段代码会打开名为example.xlsx的Excel文件，读取A1单元格的值，将其修改为“新的值”，并保存为新的文件。

使用pandas读取、清洗和保存Excel数据
pandas在处理Excel数据时更加灵活和强大。以下是一个使用pandas读取、清洗和保存Excel数据的示例代码：

import pandas as pd

读取Excel文件

data = pd.read_excel('data.xlsx')

查看前五行数据

print(data.head())

数据清洗：删除空值

data = data.dropna()

数据筛选：选择特定列

selected_columns = data[['Name', 'Age']]

数据排序

sorted_data = data.sort_values(by='Age', ascending=False)

保存处理后的数据到新的Excel文件

sorted_data.to_excel('cleaned_data.xlsx', index=False)

这段代码会读取名为data.xlsx的Excel文件，删除空值，选择Name和Age两列，按Age列降序排序，并将处理后的数据保存为新的Excel文件。

实战案例：数据提取与汇总
从一个复杂的Excel表格中提取特定的数据并进行汇总计算是常见的任务。以下是一个从销售数据表格中提取每个月的销售额总和的示例代码：

import openpyxl

加载Excel工作簿

wb = openpyxl.load_workbook('sales_data.xlsx')

选择工作表

sheet = wb.active

初始化一个字典来存储每个月的销售额

monthly_sales = {}

遍历表格中的行（假设第一行是标题行）

for row in range(2, sheet.max_row + 1):
month = sheet.cell(row=row, column=2).value # 假设月份在第二列
sales_amount = sheet.cell(row=row, column=3).value # 假设销售额在第三列
if month in monthly_sales:
monthly_sales[month] += sales_amount
else:
monthly_sales[month] = sales_amount

打印每个月的销售额总和

for month, sales in monthly_sales.items():
print(f"{month}: {sales}")

这段代码会读取名为sales_data.xlsx的Excel文件，提取每个月的销售额总和，并打印出来。

三、自动化处理PDF文档

安装PyPDF2和pdfplumber库
PyPDF2和pdfplumber是处理PDF文档的两大工具。你可以通过以下命令安装它们：

pip install PyPDF2 pdfplumber

使用PyPDF2读取和合并PDF文件
PyPDF2可以读取PDF文件的内容、获取文件页数、提取指定页的内容以及合并多个PDF文件。以下是一个示例代码：

import PyPDF2

打开PDF文件

with open('example.pdf', 'rb') as file:
reader = PyPDF2.PdfFileReader(file)

获取PDF文件的页数

num_pages = reader.getNumPages()
print(f"PDF 文件有 {num_pages} 页")

提取第一页的内容

page = reader.getPage(0)
text = page.extractText()
print(f"第一页的内容是:\n{text}")

创建新的PDF文件

writer = PyPDF2.PdfFileWriter()
for i in range(num_pages):
page = reader.getPage(i)
writer.addPage(page)

with open('new_example.pdf', 'wb') as output_file:
writer.write(output_file)
print("新的 PDF 文件已保存")

这段代码会打开名为example.pdf的PDF文件，提取第一页的内容并打印出来，然后创建一个包含所有页的新PDF文件。

使用pdfplumber更准确地提取PDF文本
相比PyPDF2，pdfplumber在提取PDF文本时更加准确。以下是一个使用pdfplumber提取PDF文本内容的示例代码：

import pdfplumber

打开PDF文件

with pdfplumber.open('example.pdf') as pdf:

# 获取PDF文件的页数
num_pages = len(pdf.pages)
print(f"PDF 文件有 {num_pages} 页")

# 提取第一页的内容
first_page = pdf.pages[0]
text = first_page.extract_text()

print(f"第一页的内容是:\n{text}")

实战案例：批量提取PDF中的表格数据
在处理包含表格数据的PDF文件时，pdfplumber能够准确地提取表格内容。以下是一个批量提取指定文件夹中所有PDF文件的表格数据的示例代码：

import os
import pdfplumber

指定文件夹路径
folder_path = 'your_pdf_folder_path' # 替换为你的文件夹路径
output_data = []

遍历文件夹中的所有文件
for file_name in os.listdir(folder_path):
if file_name.endswith('.pdf'):
file_path = os.path.join(folder_path, file_name)

打开PDF文件

with pdfplumber.open(file_path) as pdf:
    # 假设每个PDF文件只有一页包含表格数据
    page = pdf.pages[0]  # 根据实际情况调整页码

    # 提取表格
    table = page.extract_table()

    # 将表格数据添加到输出列表中（可以根据需要调整数据结构）
    output_data.append({
        'file_name': file_name,
        'table_data': table
    })

打印或保存提取的表格数据
for item in output_data:
print(f"文件名: {item['file_name']}")
for row in item['table_data']:
print(row)
print("\n")

如果需要保存为Excel文件，可以使用pandas的DataFrame和to_excel方法
import pandas as pd
df = pd.DataFrame(output_data_reformatted) # 需要根据实际情况调整数据结构以适应DataFrame
df.to_excel('extracted_tables.xlsx', index=False)

注意：在实际应用中，可能需要调整代码以适应不同PDF文件的表格结构和数据格式。此外，如果PDF文件中的表格跨越多页，需要相应地修改代码以遍历所有相关页面。

通过本文的介绍，你已经掌握了使用Python自动化处理Word、Excel和PDF文档的基本方法。这些技能将极大地提高你的办公效率，减少手动操作的错误率。随着你对这些库和工具的深入了解，还可以探索更多高级功能，以满足更复杂的文档处理需求。

Python自动化Office文档处理全攻略

打开一个Word文档

遍历文档中的段落并打印内容

打开一个Word文档

遍历段落并替换特定词语

保存修改后的文档

打开一个Word文档

添加一个新的段落

在新段落里添加文字

保存修改后的文档

定义调整样式的函数

指定文件夹路径

遍历文件夹中的所有文件

加载现有的Excel文件

选择工作表

读取单元格值

修改单元格值

保存修改后的文件

读取Excel文件

查看前五行数据

数据清洗：删除空值

数据筛选：选择特定列

数据排序

保存处理后的数据到新的Excel文件

加载Excel工作簿

选择工作表

初始化一个字典来存储每个月的销售额

遍历表格中的行（假设第一行是标题行）

打印每个月的销售额总和

打开PDF文件

获取PDF文件的页数

提取第一页的内容

创建新的PDF文件

打开PDF文件

打开PDF文件

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python自动化Office文档处理全攻略

打开一个Word文档

遍历文档中的段落并打印内容

打开一个Word文档

遍历段落并替换特定词语

保存修改后的文档

打开一个Word文档

添加一个新的段落

在新段落里添加文字

保存修改后的文档

定义调整样式的函数

指定文件夹路径

遍历文件夹中的所有文件

加载现有的Excel文件

选择工作表

读取单元格值

修改单元格值

保存修改后的文件

读取Excel文件

查看前五行数据

数据清洗：删除空值

数据筛选：选择特定列

数据排序

保存处理后的数据到新的Excel文件

加载Excel工作簿

选择工作表

初始化一个字典来存储每个月的销售额

遍历表格中的行（假设第一行是标题行）

打印每个月的销售额总和

打开PDF文件

获取PDF文件的页数

提取第一页的内容

创建新的PDF文件

打开PDF文件

打开PDF文件

热门文章

最新文章

相关课程

相关电子书

推荐镜像