开发者社区> 问答> 正文

使用python从MS word docx文件中逐页提取文本

我有一个MS docx文件,我需要从它的页面提取文本。 我尝试了python-docx,但它可以提取整个文本,但不页面。 我还将docx转换为pdf,然后尝试文本提取。问题是,在转换之后docx的页面结构发生了变化。例如,在转换时,字体大小发生了变化,docx的一个页面中的文本内容占用了pdf中的多个页面。 我正在寻找一个稳定的解决方案,将提取页面明智的文本从docx(不转换为pdf将更好的为我的整个解决方案)。谁能帮我一下吗? 问题来源StackOverflow 地址:/questions/59385678/extraction-of-text-page-by-page-from-ms-word-docx-file-using-python

展开
收起
kun坤 2019-12-25 22:16:13 694 0
1 条回答
写回答
取消 提交回答
  • 在我看来,docx格式(因此也包括python docx库)只支持段落和部分。 因此,实际上分页并不存储在docx文件中,而是由呈现引擎执行的: 本页有更多的背景,如果必须保持分页,建议使用PDF。

    2019-12-25 22:16:17
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
From Python Scikit-Learn to Sc 立即下载
Data Pre-Processing in Python: 立即下载
双剑合璧-Python和大数据计算平台的结合 立即下载