文档备案控制台

开发者社区问答正文

使用python从MS word docx文件中逐页提取文本

我有一个MS docx文件，我需要从它的页面提取文本。我尝试了python-docx，但它可以提取整个文本，但不页面。我还将docx转换为pdf，然后尝试文本提取。问题是，在转换之后docx的页面结构发生了变化。例如，在转换时，字体大小发生了变化，docx的一个页面中的文本内容占用了pdf中的多个页面。我正在寻找一个稳定的解决方案，将提取页面明智的文本从docx(不转换为pdf将更好的为我的整个解决方案)。谁能帮我一下吗? 问题来源StackOverflow 地址：/questions/59385678/extraction-of-text-page-by-page-from-ms-word-docx-file-using-python

展开

收起

kun坤 2019-12-25 22:16:13 805 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

kun坤

在我看来，docx格式(因此也包括python docx库)只支持段落和部分。因此，实际上分页并不存储在docx文件中，而是由呈现引擎执行的: 本页有更多的背景，如果必须保持分页，建议使用PDF。

2019-12-25 22:16:17

赞同展开评论

问答分类：

Python

问答标签：

Python文本 Python Word Python文件 Python word文件 Python docx

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

有没有 python 调用自然语言处理sdk 中的文本纠错功能的代码示例

281

5

0

阿里语音AI的“实时长文本”语音合成服务的流逝返回，有python的sdk吗？

171

1

0

用python上传本地的pdf和word的文件，pdf上传后打开为乱码，如何上传

431

2

0

有什么办法可以批量获得线上这些文件信息嘛？用python可以吗？

651

1

0

python能否不选中资源，直接使用dolphinscheduler的资源中心文件

885

0

0

自定义python processor 通过 urlopen 方式调用 oss存储的文件报错 <

1212

1

0

python可使用 to_csv() 将 dataframe 存储为 csv 文件吗？

859

0

0

python文件如何在dataworks中封装成自定义函数使用

810

1

0

想问一下，python自定义组件中上层OSS读数据的输入，为啥会报文件不存在啊

684

0

0

我用最基础的Hello world用例测了一下，发现python的函数执行速度比java快很多【py

1385

2

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

灵码如何使用skills呢

阿里云服务器镜像系统选哪个比较好？稳定和兼容性如何？

已经实名，但免费API无法使用

灵码编辑器导航栏的前进后退不见了

Swingdeploy搜索不到已有模型

相关文章

MaxCompute SQL AI实战：两个真实业务场景的高效落地

京东商品详情API的JSON数据解析有哪些常见的错误和解决方案？

一行 SQL 搞定外卖平台评价智能分析 —— MaxCompute SQL AI 实战

Ozon关键词搜索数据API接口技术指南

[大模型实战 07] 基于 LlamaIndex ReAct 框架手搓全自动博客监控 Agent

还有其他疑问?