Python通过docx模块读写微软docx文件

简介: Python通过docx模块读写微软docx文件

读取docx文件

方式一:

读取流程: 二进制对象 - 》 解压 ——》读取xml文件

# -*- encoding: utf-8 -*-
from zipfile import ZipFile
from urllib import urlopen
from io import BytesIO
from bs4 import BeautifulSoup
# url="http://www.pythonscraping.com/pages/AwordDocument.doxc"
# word_file = urlopen(url).read()
# word_file = BytesIO(worl_file)
word_file = open("AWordDocument.docx", "rb")
document = ZipFile(word_file)
xml_content = document.read("word/document.xml")
text = xml_content.decode("utf-8")
print text

方式二

解析出文本内容

pip install python-docx
import docx
doc = docx.Document("AWordDocument.docx")
print doc
# 打印所有段落内容
for p in  doc.paragraphs:
    print p.text

更多内容参考

官方文档:http://python-docx.readthedocs.io/en/latest/index.html

相关文章
|
6月前
|
XML 关系型数据库 MySQL
python将word(doc或docx)的内容导入mysql数据库
用python先把doc文件转换成docx文件(这一步也可以不要后续会说明),然后读取docx的文件并另存为htm格式的文件(上一步可以直接把doc文件另存为htm),python根据bs4获取p标签里的内容,如果段落中有图片则保存图片。(图片在word文档中的位置可以很好的还原到生成的数据库内容) 我见网上有把docx压缩后解压获取图片的,然后根据在根据xml来读取图片的位置,我觉得比较繁琐。用docx模块读取段落的时候还需要是不是判断段落中有分页等,然而转成htm之后就不用判断那么多直接判断段落里的样式或者图片等就可以了。
110 1
|
存储 项目管理 Python
数据导入与预处理-第4章-数据获取python读取docx文档(上)
数据导入与预处理-第4章-pandas数据获取docx文档 1.python读取docx文档概述 1.1 从Word文件获取数据 1.2 python-docx库介绍 1. Paragraph类 2. Table类
数据导入与预处理-第4章-数据获取python读取docx文档(上)
|
芯片 Python
M1 Mac 下使用python将doc批量转换为docx
M1 Mac 的兼容原因,win32com库无法引用,故而通过其他方法实现,将doc批量转换为docx。
1165 1
M1 Mac 下使用python将doc批量转换为docx
|
4月前
|
Python
【Python】已解决:(from docx import Document导包报错)ModuleNotFoundError: No module named ‘exceptions’
【Python】已解决:(from docx import Document导包报错)ModuleNotFoundError: No module named ‘exceptions’
284 0
|
6月前
|
Python
Python-函数的传参方式docx
Python-函数的传参方式docx
45 5
|
6月前
|
Python
在Python中.面向对象编程和其他编程范式的区别docx
在Python中.面向对象编程和其他编程范式的区别docx
48 3
|
6月前
|
Python
Python.-判断语句docx
Python.-判断语句docx
36 1
|
6月前
|
Python
Python-标识符docx
Python-标识符docx
34 1
|
6月前
|
PHP Python
基于Python中docx与docxcompose批量合并多个Word文档文件并逐一添加分页符
基于Python中docx与docxcompose批量合并多个Word文档文件并逐一添加分页符
193 1
|
Python
Python应用 | 读写docx文件 (值得收藏的技能)
Python应用 | 读写docx文件 (值得收藏的技能)
139 0