开发者社区> 问答> 正文

java怎么读取扫描版的pdf文件内容 保证文字读取顺序正确:报错

今天读取一个pdf文件 发现文件的文字格式好像和正常的文本有点不一样
如图:我在读取该文件的时候 读取文字的顺序不是横着依次读取的 是竖着读取的 请问这个
要怎么做才能正常读取文本内容啊

展开
收起
kun坤 2020-06-06 16:53:14 998 0
1 条回答
写回答
取消 提交回答
  • 你用什么工具读取的?有没有用过pdfbox解析呢?

    ######我就是用pdfbox读取的啊 我其他pdf文件读取都是正常的 但是就这个文件读取的文字书序是乱的 而且文字内容读不全 这个文件和其他正常文件的区别就是 我在选中文字的时候 他这个选中是竖着选的 我在想是不是文件的格式不是正常的pdf格式 不然怎么会这个样子呢
    2020-06-06 16:53:18
    赞同 展开评论 打赏
问答分类:
问答地址:
相关产品:
问答排行榜
最热
最新

相关电子书

更多
Spring Cloud Alibaba - 重新定义 Java Cloud-Native 立即下载
The Reactive Cloud Native Arch 立即下载
JAVA开发手册1.5.0 立即下载