Python编程:读取pdf、pptx、docx、xlsx文件的页数

简介: Python编程:读取pdf、pptx、docx、xlsx文件的页数

pdf

安装工具

pip install pdfplumber


代码示例

import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError
def get_pdf_page(pdf_path):
    try:
        f = pdfplumber.open(pdf_path)
        page = len(f.pages)
    except PDFSyntaxError:
        page = 0
    return page

pptx

安装工具

pip install python-pptx


代码示例

from pptx import Presentation
def get_pptx_page(pptx_path):
    try:
        p = Presentation(pptx_path)
        page = len(p.slides)
    except KeyError:
        page = 0
    return page

docx、xlsx

Word是流动分页的,文件内容本身并不存储分页结果。具体分页时断在哪里、最后分出多少页,都需要现场渲染所有的图文内容之后才能确定。


Word文件中仅包含了一行一行的文本,与页面设置中指定的页面尺寸。


Word每次打开文件时都会一行一行“摆放”文本数据,发现一页装不下了自动新开一页


所以,读取页数是不对的


参考


如何在 Linux 上使用 Python 读取 word 文件信息(如页数)?

Python编程:pypdf2和pdfplumber获取pdf文件的页数


相关文章
|
19天前
|
Web App开发 Windows
【Windows】 chrome 如何下载网站在线预览PDF文件,保存到本地
【Windows】 chrome 如何下载网站在线预览PDF文件,保存到本地
120 0
|
29天前
|
前端开发
开发过程中遇到过的docx、pptx、xlsx、pdf文件预览多种方式
开发过程中遇到过的docx、pptx、xlsx、pdf文件预览多种方式
16 0
|
24天前
|
JSON 关系型数据库 数据库
【python】Python将100个PDF文件对应的json文件存储到MySql数据库(源码)【独一无二】
【python】Python将100个PDF文件对应的json文件存储到MySql数据库(源码)【独一无二】
【python】Python将100个PDF文件对应的json文件存储到MySql数据库(源码)【独一无二】
|
29天前
|
JSON 关系型数据库 数据库
【python】Python将100个PDF文件对应的json文件存储到MySql数据库(源码)【独一无二】
【python】Python将100个PDF文件对应的json文件存储到MySql数据库(源码)【独一无二】
|
8天前
|
人工智能 Python
【Python实用技能】建议收藏:自动化实现网页内容转PDF并保存的方法探索(含代码,亲测可用)
【Python实用技能】建议收藏:自动化实现网页内容转PDF并保存的方法探索(含代码,亲测可用)
28 0
|
2月前
|
前端开发 JavaScript API
基于ElectronEgg&Python,从零开始打造一款免费的PDF桌面工具
基于ElectronEgg&Python,从零开始打造一款免费的PDF桌面工具
|
2月前
|
JSON JavaScript 前端开发
vue项目使用Print.js插件实现PDF文件打印
vue项目使用Print.js插件实现PDF文件打印
63 0
|
2月前
|
Linux 数据安全/隐私保护 iOS开发
使用pdf2docx轻松将PDF转换成docx
使用pdf2docx轻松将PDF转换成docx
48 0
|
2月前
|
机器学习/深度学习 文字识别 数据安全/隐私保护
Python实现从PDF和图片提取文字的方法总结
Python实现从PDF和图片提取文字的方法总结
57 0
|
2月前
|
数据安全/隐私保护 Python
使用Python脚本实现图片合成PDF功能
使用Python脚本实现图片合成PDF功能
28 0