备案控制台

开发者社区彭世瑜的博客文章正文

Python编程：读取pdf、pptx、docx、xlsx文件的页数

2021-11-23 497

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python编程：读取pdf、pptx、docx、xlsx文件的页数

pdf

安装工具

pip install pdfplumber

代码示例

import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError
def get_pdf_page(pdf_path):
    try:
        f = pdfplumber.open(pdf_path)
        page = len(f.pages)
    except PDFSyntaxError:
        page = 0
    return page

pptx

安装工具

 pip install python-pptx

代码示例

from pptx import Presentation
def get_pptx_page(pptx_path):
    try:
        p = Presentation(pptx_path)
        page = len(p.slides)
    except KeyError:
        page = 0
    return page

docx、xlsx

Word是流动分页的，文件内容本身并不存储分页结果。具体分页时断在哪里、最后分出多少页，都需要现场渲染所有的图文内容之后才能确定。

Word文件中仅包含了一行一行的文本，与页面设置中指定的页面尺寸。

Word每次打开文件时都会一行一行“摆放”文本数据，发现一页装不下了自动新开一页

所以，读取页数是不对的

参考

文章标签：

Python

Linux

存储

关键词：

Python编程pdf

Python pdf文件页数

Python编程pdf页数

码农技术君

目录

相关文章

九月天空

|

3月前

|

数据采集机器学习/深度学习人工智能

Python：现代编程的首选语言

Python：现代编程的首选语言

九月天空

321 102 103

九月天空

|

3月前

|

数据采集机器学习/深度学习算法框架/工具

Python：现代编程的瑞士军刀

Python：现代编程的瑞士军刀

九月天空

348 104 104

九月天空

|

3月前

|

人工智能自然语言处理算法框架/工具

Python：现代编程的首选语言

Python：现代编程的首选语言

九月天空

279 103 103

九月天空

|

3月前

|

机器学习/深度学习人工智能数据挖掘

Python：现代编程的首选语言

Python：现代编程的首选语言

九月天空

207 82 82

云流雨洄

|

4月前

|

安全 JavaScript 开发者

Python 自动化办公神器｜一键转换所有文档为 PDF

本文介绍一个自动化批量将 Word、Excel、PPT、TXT、HTML 及图片转换为 PDF 的 Python 脚本。支持多格式识别、错误处理与日志记录，适用于文档归档、报告整理等场景，大幅提升办公效率。仅限 Windows 平台，需安装 Office 及相关依赖。

云流雨洄

254 0 0

AI侠客

|

2月前

|

Python

Python编程：运算符详解

本文全面详解Python各类运算符，涵盖算术、比较、逻辑、赋值、位、身份、成员运算符及优先级规则，结合实例代码与运行结果，助你深入掌握Python运算符的使用方法与应用场景。

AI侠客

230 3 3

AI侠客

|

2月前

|

数据处理 Python

Python编程：类型转换与输入输出

本教程介绍Python中输入输出与类型转换的基础知识，涵盖input()和print()的使用，int()、float()等类型转换方法，并通过综合示例演示数据处理、错误处理及格式化输出，助你掌握核心编程技能。

AI侠客

486 3 3

站大爷

|

2月前

|

并行计算安全计算机视觉

Python多进程编程：用multiprocessing突破GIL限制

Python中GIL限制多线程性能，尤其在CPU密集型任务中。`multiprocessing`模块通过创建独立进程，绕过GIL，实现真正的并行计算。它支持进程池、队列、管道、共享内存和同步机制，适用于科学计算、图像处理等场景。相比多线程，多进程更适合利用多核优势，虽有较高内存开销，但能显著提升性能。合理使用进程池与通信机制，可最大化效率。

站大爷

312 3 3

站大爷

|

2月前

|

Java 调度数据库

Python threading模块：多线程编程的实战指南

本文深入讲解Python多线程编程，涵盖threading模块的核心用法：线程创建、生命周期、同步机制（锁、信号量、条件变量）、线程通信（队列）、守护线程与线程池应用。结合实战案例，如多线程下载器，帮助开发者提升程序并发性能，适用于I/O密集型任务处理。

站大爷

325 0 0

站大爷

|

3月前

|

机器学习/深度学习文字识别 Java

Python实现PDF图片OCR识别：从原理到实战的全流程解析

本文详解2025年Python实现扫描PDF文本提取的四大OCR方案（Tesseract、EasyOCR、PaddleOCR、OCRmyPDF），涵盖环境配置、图像预处理、核心识别与性能优化，结合财务票据、古籍数字化等实战场景，助力高效构建自动化文档处理系统。

站大爷

964 0 1

热门文章

最新文章

python爬取快手商品数据

Python 技术篇-连接oracle数据库并执行sql语句实例演示，python连接oracle数据库oci详细配置方法

【Python之旅】第二篇（八）：zip拉链与map拉链

Python自动化开发学习4-3

linux下安装python

Python 参数传递

Python网络编程基础（Socket编程）错误处理和异常

【python】生成随机数字/字母/指定位数的字母+数字的字符串

[Python学习] 模块三.基本字符串

二叉查找树：Python实现

基于python大数据的台风灾害分析及预测系统

基于Python大数据的热门游戏推荐系统

基于python大数据的青少年网络使用情况分析及预测系统

2026版基于python大数据的电影分析可视化系统

基于Python大数据的的电商用户行为分析系统

基于python大数据技术的医疗数据分析与研究

基于python大数据深度学习的酒店评论文本情感分析系统

Python SQLAlchemy模块：从入门到实战的数据库操作指南

基于python大数据的的海洋气象数据可视化平台

基于Python大数据的主流汽车价格分析可视化系统

相关课程

更多

Python爬虫实战

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

推荐镜像

更多

python-release

下一篇

基于Python+Vue开发的口腔牙科预约管理系统