备案控制台

开发者社区问答正文

Python PDFminer读取PDF内容速度慢是怎么回事？如何解决？：报错

根据网上的Python读取PDF的相关资料，TZ发现了PDFminer这个Python库，但是当我将其用来读取一个约300MB左右，页数在4000左右的PDF文件时，速度真心感人，一个小时大概读取了2000页，也就是一半的内容，这肯定不是我所预期的样子。时间太太太长了。求Python大佬教教小弟如何优化这个问题。万分感谢

下图为PDFminer读取PDF代码

展开

收起

kun坤 2020-06-07 21:32:35 1419 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

kun坤

在一个月后的今天，把这个问题解决了。换掉了这个三方库，使用的XPD来读取PDF，速度比这个快太多了。
######大哥，XPD是什么库，具体名字叫什么？######
多核
######谢谢你的回答，请问多核是什么意思呢？多进程读取么？还是？求大佬赐教

2020-06-07 21:32:39

赞同展开评论

问答分类：

Python

问答标签：

Python PDF Python报错 PDF报错 Python如何解决 PDF python

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

视觉智能平台调用通用文字识别服务，报错，怎么解决嘞？调用的是PDF识别。

261

4

0

通过oss url pdf 转png 报错SSLException

160

1

0

在使用Python `oss2` 库访问阿里云对象存储OSS时遇到Endpoint解析错误如何解决？

234

0

0

函数计算word转PDF 调用报错是什么原因呢？

105

1

0

函数计算的`s local start` 调用python应用时没有下依赖问题如何解决？

81

1

0

钉钉python dingtalk sdk报这个错，如何解决？

1497

3

0

智能媒体管理发起WORD文件转换PDF任务之后，生成PDF目录转换报错是什么原因？

130

0

0

文档智能pdf转图片报错，什么原因？

93

1

0

请问在Elasticsearch elk里，导出pdf文件报错是什么原因？

262

0

0

智能媒体管理报错Unsupported edit file type pdf，怎么处理？

357

3

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

阿里云双十一优惠活动开始了？2025年的是这个吗？

钉钉:因安全管控限制,16位参与人无法直接添加到日程

阿里云PAI是什么？怎么用？

如何训练属于自己的AI大模型呢？有没有大佬有相关文档参考学习下

阿里云2核2G3M适合搭建个人博客或小型项目吗？

相关文章

淘宝开放平台：获取商品销量数据的API接口详解

Python高效实现Word转HTML：从基础到进阶的全流程方案

Airflow调度爬虫任务：从零搭建高效定时采集系统

PyCharm 2025.1 完整教程：下载安装 + 中文设置 + 激活，一步到位，附安装包

LangChain 不只是“拼模型”：教你从零构建可编程的 AI 工作流

还有其他疑问?