备案控制台

开发者社区问答正文

使用python从MS word docx文件中逐页提取文本

我有一个MS docx文件，我需要从它的页面提取文本。我尝试了python-docx，但它可以提取整个文本，但不页面。我还将docx转换为pdf，然后尝试文本提取。问题是，在转换之后docx的页面结构发生了变化。例如，在转换时，字体大小发生了变化，docx的一个页面中的文本内容占用了pdf中的多个页面。我正在寻找一个稳定的解决方案，将提取页面明智的文本从docx(不转换为pdf将更好的为我的整个解决方案)。谁能帮我一下吗? 问题来源StackOverflow 地址：/questions/59385678/extraction-of-text-page-by-page-from-ms-word-docx-file-using-python

展开

收起

kun坤 2019-12-25 22:16:13 762 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

kun坤

在我看来，docx格式(因此也包括python docx库)只支持段落和部分。因此，实际上分页并不存储在docx文件中，而是由呈现引擎执行的: 本页有更多的背景，如果必须保持分页，建议使用PDF。

2019-12-25 22:16:17

赞同展开评论

问答分类：

Python

问答标签：

Python文本 Python Word Python文件 Python word文件 Python docx

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

有没有 python 调用自然语言处理sdk 中的文本纠错功能的代码示例

226

5

0

阿里语音AI的“实时长文本”语音合成服务的流逝返回，有python的sdk吗？

136

1

0

用python上传本地的pdf和word的文件，pdf上传后打开为乱码，如何上传

374

2

0

有什么办法可以批量获得线上这些文件信息嘛？用python可以吗？

626

1

0

python能否不选中资源，直接使用dolphinscheduler的资源中心文件

842

0

0

自定义python processor 通过 urlopen 方式调用 oss存储的文件报错 <

1170

1

0

python可使用 to_csv() 将 dataframe 存储为 csv 文件吗？

785

0

0

python文件如何在dataworks中封装成自定义函数使用

787

1

0

想问一下，python自定义组件中上层OSS读数据的输入，为啥会报文件不存在啊

650

0

0

python 3.7引用docx操作word文档报错exception ?报错

1047

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

阿里云双十一优惠活动开始了？2025年的是这个吗？

钉钉:因安全管控限制,16位参与人无法直接添加到日程

阿里云PAI是什么？怎么用？

如何训练属于自己的AI大模型呢？有没有大佬有相关文档参考学习下

阿里云2核2G3M适合搭建个人博客或小型项目吗？

相关文章

超越`open()`：深入理解Python上下文管理器

解锁Python超能力：深入理解装饰器

开发者实测：零学习成本Agent一站式短视频创作，哪个AI短视频工具“真懂你、真好用”？

LBA-ECO ND-04 次生林恢复、结构和叶面积指数，巴西亚马逊中部

LBA-ECO ND-04 牧场土壤水分和降水，54 公里处，马瑙斯，巴西：1999-2001 年

还有其他疑问?