我有一个MS docx文件,我需要从它的页面提取文本。 我尝试了python-docx,但它可以提取整个文本,但不页面。 我还将docx转换为pdf,然后尝试文本提取。问题是,在转换之后docx的页面结构发生了变化。例如,在转换时,字体大小发生了变化,docx的一个页面中的文本内容占用了pdf中的多个页面。 我正在寻找一个稳定的解决方案,将提取页面明智的文本从docx(不转换为pdf将更好的为我的整个解决方案)。谁能帮我一下吗? 问题来源StackOverflow 地址:/questions/59385678/extraction-of-text-page-by-page-from-ms-word-docx-file-using-python
在我看来,docx格式(因此也包括python docx库)只支持段落和部分。 因此,实际上分页并不存储在docx文件中,而是由呈现引擎执行的: 本页有更多的背景,如果必须保持分页,建议使用PDF。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。