Python通过win32com库操作Word教程

简介: 该教程介绍了Python中pywin32(调用win32com)库操作Word文档的方法,包含新建、写入、设置格式、插入表格、图片、查找替换、插入域代码等功能,还涉及Word转PDF及格式互转,最后通过实例展示了查找替换与插入域代码的应用。

诸神缄默不语-个人技术博文与视频目录

视频教程:Python通过win32com库操作Word教程_哔哩哔哩_bilibili

如果需要原Jupyter notebook文件和用作示例的图片、文档,可以联系我。

引言

在 Python 生态中,操作 Word 文档的库有不少,比如 python-docx 主要处理 .docx 格式,而 win32com(即 pywin32)则提供了更为底层的控制能力——它直接调用微软 Office 的 COM 接口,这意味着你的 Word 软件能做什么,win32com 就能做什么。不仅可以读写文本,还能操作表格、图表、域代码、目录、格式转换,甚至执行查找替换等复杂任务。

不过,使用它也有一些前提和限制:

  • 只能在 Windows 系统上运行,并且必须已安装 Microsoft Word(WPS 或其他打开 Word 的软件不行)。
  • 默认情况下,代码是单线程的。
  • 操作完成后,务必记得关闭 Word 客户端doc.Close()word.Quit()),否则 Word 进程会一直留在后台,需要手动从任务管理器结束。

win32com 其实是一个通用 COM 客户端,不仅能操作 Word,还能操作 Excel、PPT、Outlook 等微软软件。本文只聚焦于 Word 的操作。

通过python-docx、docxtpl、Composer库处理Word文档的教程请参考:Python处理Word文档完全指南:从基础到进阶

安装

pip install pywin32

如果遇到常数(constants)加载异常(例如无法使用 constants.wdReplaceAll),可以尝试强制重新生成缓存:

import win32com.client as win32
word = win32.gencache.EnsureDispatch('Word.Application')  # 替换win32.Dispatch()接口

或者手动删除缓存文件夹(通常在 %temp%\gen_py 下,例如 C:\Users\用户名\AppData\Local\Temp\gen_py)。

基础概念

在深入代码之前,先了解几个核心对象:

对象 说明
Application Word 应用程序本身,通过 win32.Dispatch 获得
Document 代表一个打开的文档,通过 Documents.AddDocuments.Open 获取
Selection 当前光标选中的区域(或光标位置)
Range 文档中的一个连续区域(可以不是选中状态)
Paragraph 段落,由回车符分隔
Font / ParagraphFormat 字体和段落格式

1. 新建文档并写入文字

使用 Range 对象

import win32com.client as win32

word = win32.Dispatch("Word.Application")
word.Visible = True   # True 会显示 Word 界面(但很快消失)

doc = word.Documents.Add()
range_obj = doc.Range(0, 0)
range_obj.InsertAfter("Hello World from Python!")

# 注意:必须使用绝对路径,否则会保存到 Word 的默认文件夹
doc.SaveAs(r"D:\your_path\test.docx")
doc.Close()
word.Quit()

使用 Selection 对象(模拟光标)

word = win32.Dispatch("Word.Application")
word.Visible = False

doc = word.Documents.Add()
selection = word.Selection

selection.TypeText("Hello, World!")
selection.TypeParagraph()          # 换行(新段落)
selection.TypeText("这是第二行")

doc.SaveAs(r"D:\your_path\test.docx")
doc.Close()
word.Quit()

注意Range 是一个独立区域,不依赖光标;Selection 则代表当前光标位置,常用于模拟用户操作。

2. 打开文档,读取内容并追加文字

word = win32.Dispatch("Word.Application")
word.Visible = False

doc = word.Documents.Open(r"D:\your_path\test.docx")

# 遍历所有段落打印内容
for paragraph in doc.Paragraphs:
    print(paragraph.Range.Text)

# 在文档末尾追加内容
doc.Content.InsertAfter("\n这是新增的内容")

doc.Close()
word.Quit()

注意:直接使用 doc.Content.Text 获取全文有时会返回异常结果(如只得到这是第二行, World!),所以推荐遍历段落。

3. 设置字体与段落格式

误区:使用 Selection 设置字体无效

selection = word.Selection

# 字体设置无效
selection.Font.Name = "微软雅黑"
selection.Font.Size = 16
selection.Font.Bold = True
selection.Font.ColorIndex = 6      # 红色

# 段落设置有效
selection.ParagraphFormat.Alignment = 1   # 居中(0左 1中 2右 3两端)
selection.ParagraphFormat.LineSpacingRule = 0  # 单倍行距

原因:Selection 只是一个点,设置字体需要作用于一个区域。

正确方法:使用 Range 设置整个文档

range_obj = doc.Content
range_obj.Font.Name = "微软雅黑"
range_obj.Font.Size = 16
range_obj.Font.Bold = True
range_obj.Font.ColorIndex = 6
range_obj.ParagraphFormat.Alignment = 1
range_obj.ParagraphFormat.LineSpacingRule = 0

设置标题样式

range_obj = doc.Range(0, 0)
range_obj.Text = "第一章 概述"
range_obj.Style = doc.Styles("标题 1")   # 英文版可能是 "Heading 1"

4. 插入表格

range_obj = doc.Content
range_obj.Collapse(0)          # 0 折叠到末尾,1 折叠到开头

table = doc.Tables.Add(range_obj, NumRows=3, NumColumns=3)

# 单元格索引从 1 开始
table.Cell(1,1).Range.Text = "姓名"
table.Cell(1,2).Range.Text = "年龄"
table.Cell(1,3).Range.Text = "结果"

table.Cell(2,1).Range.Text = "张三"
table.Cell(2,2).Range.Text = "25"
table.Cell(2,3).Range.Text = "合格"

5. 查找与替换

简单替换(全文匹配)

find = word.Selection.Find
find.Text = "{
   {name}}"
find.Replacement.Text = "张三"
find.Execute(Replace=2)          # Replace=2 表示全部替换

处理缓存异常问题

缓存异常的显著表现是无法导入 constants ,同时查找和替换功能也会出现异常。可以显式设置所有参数来解决问题:

WD_FIND_CONTINUE = 1   # 继续查找
WD_REPLACE_ALL = 2     # 全部替换

rng = doc.Content
for old, new in [("{
   {name}}", "张三"), ("{
   {date}}", "2026-02-26")]:
    rng.Find.Execute(
        old, False, False, False, False, False,
        True, WD_FIND_CONTINUE, False, new, WD_REPLACE_ALL
    )
    rng = doc.Content   # 重新获取 Range,避免被移动

6. 插入图片

range_obj = doc.Content
range_obj.Collapse(0)   # 移动到末尾

doc.InlineShapes.AddPicture(
    r"D:\your_path\pic1.jpeg",
    False, True, range_obj
)

7. 更新目录

for toc in doc.TablesOfContents:
    toc.Update()

8. Word 转 PDF 及 doc/docx 互转

doc.ExportAsFixedFormat(
    OutputFileName=r"D:\your_path\test.pdf",
    ExportFormat=17      # 17 代表 PDF;16 代表 docx;0/1 代表 doc
)

笔者曾基于此功能开发过一个桌面工具,支持 Word/PDF 互转及 Excel 格式互转,详情参考:如何用Python处理文件:Word导出PDFdoc / docx互相转换

9. 插入域代码:以日期域为例

range_obj = doc.Content
range_obj.Collapse(0)

field = doc.Fields.Add(
    Range=range_obj,
    Type=31               # wdFieldDate
)

# 等价写法(插入空域,再指定代码)
# field = doc.Fields.Add(
#     Range=range_obj,
#     Type=constants.wdFieldEmpty,
#     Text="DATE  \\* MERGEFORMAT"
# )

10. 实例:将纯文本图标签替换为 SEQ 域

原始文档:包含“图 1”、“图 2”等纯文本
目标:替换为域代码 图 { SEQ 图 \* ARABIC },实现自动编号。

word = win32.gencache.EnsureDispatch('Word.Application')
word.Visible = False
doc = word.Documents.Open(r"D:\your_path\instance1.docx")

search_range = doc.Range()
search_range.Find.Text = "图 [0-9]{1,}"
search_range.Find.Wrap = 0                 # wdFindStop,不循环
search_range.Find.MatchWildcards = True    # 通配符匹配

found = search_range.Find.Execute()
while found:
    insert_point = search_range.Duplicate   # 复制当前 Range
    insert_point.Delete()                    # 删除原文本
    insert_point.InsertAfter("图 ")           # 插入“图 ”
    insert_point.Collapse(Direction=0)        # 折叠到末尾

    # 插入 SEQ 域
    seq_code = 'SEQ 图 \\* ARABIC'
    doc.Fields.Add(insert_point, -1, seq_code, False)  # -1 代表 wdFieldEmpty

    search_range.Collapse(Direction=0)
    found = search_range.Find.Execute()

doc.Fields.Update()
doc.SaveAs(r"D:\your_path\test.docx")
doc.Close()
word.Quit()

11. 复杂实例:带章节号的图标签(如 图 1-1、图 1-2)

原始文档:包含“图 1-1”、“图 1-2”等纯文本
目标:替换为 图 { STYLEREF 1 \s }-{ SEQ 图 \* ARABIC \s 1 },其中章节号来自标题1(一级标题)的编号。

word = win32.Dispatch("Word.Application")
word.Visible = False
doc = word.Documents.Open(r"D:\your_path\instance2.docx")

search_range = doc.Range()
search_range.Find.Text = "图 [0-9]{1,}-[0-9]{1,}"
search_range.Find.Wrap = constants.wdFindStop
search_range.Find.MatchWildcards = True

found = search_range.Find.Execute()
while found:
    insert_point = search_range.Duplicate
    insert_point.Delete()
    insert_point.InsertAfter("图 ")
    insert_point.Collapse(Direction=constants.wdCollapseEnd)

    # 插入 STYLEREF 域
    styleref_code = 'STYLEREF 1 \\s'
    field_styleref = doc.Fields.Add(insert_point, constants.wdFieldEmpty, styleref_code, False)
    field_styleref.Update()

    # 将光标移动到域之后
    field_styleref.Select()
    word.Selection.Collapse(Direction=constants.wdCollapseEnd)
    insert_point = word.Selection.Range.Duplicate

    # 插入连字符
    insert_point.InsertAfter("-")
    insert_point.Collapse(Direction=constants.wdCollapseEnd)

    # 插入 SEQ 域
    seq_code = 'SEQ 图 \\* ARABIC \\s 1'
    doc.Fields.Add(insert_point, constants.wdFieldEmpty, seq_code, False)

    search_range.Collapse(Direction=constants.wdCollapseEnd)
    found = search_range.Find.Execute()

doc.Fields.Update()
doc.SaveAs(r"D:\your_path\test.docx")
doc.Close()
word.Quit()

关键点:

  • 使用 Duplicate 复制 Range,避免原对象被后续操作改变。
  • 插入域后需要先更新域(Update()),然后选中它再折叠,才能准确定位到域之后的位置。
  • 这些技巧在插入复杂域时非常重要。

总结

win32com 是操作 Word 的强大工具,几乎可以实现 VBA 能做的所有事情。本文涵盖了从新建文档、格式设置、表格、查找替换、图片、目录、格式转换到域代码操作等常见需求。虽然它有平台限制(仅 Windows + 已安装Word软件),但对于需要深度控制 Word 文档的自动化任务来说,它是不可或缺的利器。

相关文章
|
2天前
|
Web App开发 数据采集 前端开发
如何在VSCode中查看、转换markdown文件:使用MPE(Markdown Previe Enhanced)插件
本文介绍了在VSCode中使用MPE插件处理Markdown文件的方法。主要内容包括:1)MPE插件的安装;2)查看Markdown渲染效果的两种方式(内置快捷键和MPE右键预览);3)Markdown文件转换功能,详细讲解了导出HTML(离线/在线模式)、PDF(Chrome/Prince/Pandoc三种方式)和Word的操作步骤及注意事项。文章还提供了相关软件的安装指南和常见问题解决方案,帮助用户更好地使用MPE插件进行Markdown文档处理。
如何在VSCode中查看、转换markdown文件:使用MPE(Markdown Previe Enhanced)插件
|
8天前
|
人工智能 架构师 测试技术
AI编程王炸组合:顶级三剑客 OpenSpec 定方向,Superpowers定纪律,Harness定协同
AI编程王炸组合:顶级三剑客 OpenSpec 定方向,Superpowers定纪律,Harness定协同
|
23小时前
|
人工智能 弹性计算 API
阿里云轻量应用服务器低成本部署OpenClaw方案:2核2G38元,2核4G199元,全球多地域可选
2026年阿里云轻量应用服务器低成本部署OpenClaw AI助理的方案:用户可通过每天10:00和15:00的限量抢购活动,以38元/年(2核2G/40G云盘)或9.9元/月、199元/年(2核4G/50G云盘)的价格入手服务器,预装OpenClaw镜像实现分钟级一键部署,免代码上手。部署后可通过Web UI或飞书、钉钉、QQ、企业微信等IM工具与AI智能体交互,并支持扩展Skill和自定义RPA流程。方案覆盖个人博客、AI应用开发等场景,大幅降低了AI Agent的技术与资金门槛,是低成本拥抱AI智能体的实用路径。
|
23小时前
|
存储 自然语言处理 安全
节日场景下慈善钓鱼与宠物诈骗机理及闭环防御研究
本文基于波士顿警方预警,系统剖析节日期间高发的慈善钓鱼与宠物诈骗攻击链路,揭示其情感诱导、域名仿冒、支付劫持等核心特征及传统防御失效根源;创新提出“内容识别—链接溯源—支付风控—终端防护”四位一体闭环模型,并提供可工程化部署的代码示例,助力公共安全部门、平台与用户协同提升节日期间反诈能力。(239字)
29 3
|
3天前
|
边缘计算 安全 网络协议
AIWCLOUD:免备案高防CDN,抗投诉,大陆节点免备,在跨国企业混合办公场景下
后疫情时代,跨国企业混合办公面临跨境延迟、未备案域名访问受限及VPN安全隐患等痛点。本文介绍一种“免备案CDN”架构:融合边缘零信任接入(ZTNA)、动态端口敲门、SAP/RDP协议优化、HTTP/3加速、域名分片合规回源与实时数据脱敏,构建安全、合规、高性能的全球数字走廊。(239字)
68 4
|
9天前
|
人工智能 数据可视化 网络安全
阿里云/本地一键部署OpenClaw(Clawdbot)教程
OpenClaw(原Clawdbot)作为轻量级AI自动化代理工具,2026年版本在部署灵活性上实现重大升级,既支持本地私有化部署(满足数据隐私、内网使用需求),也适配阿里云一键部署方案(兼顾便捷性与云端稳定性)。本文将完整拆解两种部署方式的核心流程,从环境准备、安装配置到功能验证,包含实操代码命令与避坑技巧,无论你是需要本地私有化部署的企业用户,还是追求零门槛的个人用户,都能快速完成OpenClaw的落地使用。
278 1
|
18天前
|
数据采集 算法 量子技术
大模型应用:隐私优先的大模型应用:同态加密与大模型结合的完整实践.101
本文深入浅出解析“同态加密+大模型”技术:以全同态加密(FHE)为核心,实现敏感数据(如金融、医疗信息)在密文状态下完成大模型推理,全程不暴露明文,兼顾隐私与智能。涵盖原理、流程、数学基础及Python简易实现。
209 6
|
20天前
|
人工智能 自然语言处理 安全
Open Claw 2.6.4 Windows 一键部署完整教程(技术分享)
OpenClaw(昵称“小龙虾”)是2026年热门开源AI智能体,GitHub星标超28万。支持本地运行、零代码操作、跨平台部署,可理解自然语言指令,自动完成文件管理、数据处理、浏览器自动化等任务,一键安装,隐私安全。
|
20天前
|
SQL 关系型数据库 MySQL
EXPLAIN 执行计划:一眼看穿你的SQL慢在哪
数据库小学妹带你轻松掌握SQL性能诊断!通过EXPLAIN查看执行计划,精准识别索引失效、全表扫描(ALL)、key为NULL等瓶颈。聚焦type、key、rows等6个关键字段,结合实战案例与避坑指南(如函数滥用、最左前缀破坏),让优化有的放矢。学完即用,告别盲目调优!
|
16天前
|
Python
Python 3.7.0 安装教程:环境变量配置+自定义路径(64位)
Python是成熟稳定的面向对象通用编程语言。本文详解Python 3.7.0离线安装全流程:含下载地址、系统位数选择、管理员运行、PATH配置、自定义路径(推荐D盘Python37)及IDLE验证,步骤清晰,零基础可快速完成部署。(239字)