Python提取pdf中的表格数据(附实战案例)

简介: Python提取pdf中的表格数据(附实战案例)

今天给大家介绍一个Python使用工具,那就是从pdf文件中读取表格数据,主要用到第三方库 pdfplumber。


pdfplumber简介

pdfplumber是一款基于pdfminer,完全由python开发的pdf文档解析库,不仅可以获取每个字符、矩形框、线等对象的具体信息,而且还可以抽取文本和表格。目前pdfplumber仅支持可编辑的pdf文档。


虽然pdfminer也可以对可编辑的pdf文档进行解析,但是比较而言,pdfplumber有以下优势:


  1. 二者都可以获取到每个字符、矩形框、线等对象的具体信息,但是pdfplumber在pdfminer的基础上进行了封装和处理,使得到的对象更易于使用,对用户更友好。
  2. 二者都能对文本解析,但是pdfminer输出的文本在布局上可能与原文差别比较大,但是pdfplumber抽取出的文本与原文可以有更高的一致性。
  3. pdfplumber实现了表格抽取逻辑,基于最基本的字符、线框等对象的位置信息,定位、识别pdf文档中的表格。

首先安装

pip install pdfplumber

实战案例

本次实战,我们需要将pdf中的获奖队伍信息提取出来,然后保存到excel表格中。


原始pdf文件中大多数都是如上图所示的表格,这里为了不泄露个人隐私,我就先打上码了哈。


接着开始敲代码提取表格数据!


import pandas as pd
import pdfplumber
pdf = pdfplumber.open("第十届“正大杯”国奖名单.pdf")
df = pd.DataFrame()
for i in range(3,53):  # 这里3是指表格信息是从第4页开始的(程序计数是从0开始,所以这里第4页对应程序中的3),53是结束位置
    page = pdf.pages[i]  # 读取pdf中的每一页
    table = page.extract_table()  # 从页数据中提取表格数据
    df = df.append(table)  # 将提取的数据转换为DataFrame二维表格形式
df.drop_duplicates(inplace=True)   # 删除重复值
df.to_excel("第十届“正大杯”国奖名单.xlsx", header=False, index=False)  # 将提取的数据保存为excel

这里,我先是用了循环来提取多页,3是指表格信息是从第4页开始的(程序计数是从0开始,所以这里第4页对应程序中的3),53是结束位置 。


运行之后的结果如下:


很简单就将pdf中的表格提取出来了。


做到这里,我只是将一个pdf中的数据提取出来了,可是还有几个类似的pdf需要提取,于是我将上述代码功能进行了简单的封装(功能还比较简陋,各位可根据自己的需要进行扩展)。


def pdf_to_excel(file_path,start:int,end:int,excel_name=None):
    '''
    params:
        file_path:需要提取表格的pdf文件的绝对路径
        start:出现表格的起始页码
        end:表格结束页码
        excel_name:最后保存excel文件的文件名(默认为原始pdf文件名)
    '''
    pdf = pdfplumber.open(file_path)
    if not excel_name:
        excel_name = file_path.split('\\')[-1].split('.')[0]
    df_result = pd.DataFrame()
    for i in range(start-1,end):
        page = pdf.pages[i]
        table = page.extract_table()
        df_result = df_result.append(table)
    df_result = df_result.drop_duplicates(inplace=True)
    df_result.to_excel(excel_name+'.xlsx',index=False)
pdf_to_excel(file_path=r'C:xxx.pdf',start=4,end=53)


以上就是本次分享的python小工具,希望对有同样需求的你有所帮助!


目录
相关文章
|
3天前
|
数据采集 存储 前端开发
Python爬虫实战:动态网页数据抓取与分析
本文将介绍如何利用Python编写爬虫程序,实现对动态网页的数据抓取与分析。通过分析目标网站的结构和请求方式,我们可以利用Selenium等工具模拟浏览器行为,成功获取到需要的数据并进行进一步处理与展示。
|
1天前
|
数据采集 前端开发 JavaScript
利用 Python 抓取数据探索汽车市场趋势
利用 Python 抓取数据探索汽车市场趋势
|
1天前
|
数据采集 存储 数据挖掘
Python 爬虫实战之爬拼多多商品并做数据分析
在上面的代码中,我们使用pandas库创建DataFrame存储商品数据,并计算平均价格和平均销量。最后,我们将计算结果打印出来。此外,我们还可以使用pandas库提供的其他函数和方法来进行更复杂的数据分析和处理。 需要注意的是,爬取拼多多商品数据需要遵守拼多多的使用协议和规定,避免过度请求和滥用数据。
|
1天前
|
数据可视化 Python
Python数据可视化利器Matplotlib实战教程
本文将介绍如何使用Python中强大的数据可视化工具Matplotlib,通过丰富的示例和实战操作,帮助读者快速掌握Matplotlib的基本用法和高级技巧,实现数据可视化的艺术。
|
1天前
|
数据采集 数据可视化 数据挖掘
Python爬虫实战:抓取网站数据并生成报表
本文将介绍如何使用Python编写简单而高效的网络爬虫,从指定的网站上抓取数据,并利用数据分析库生成可视化报表。通过学习本文内容,读者将能够掌握基本的爬虫技术和数据处理方法,为日后开发更复杂的数据采集与分析工具打下坚实基础。
|
2天前
|
XML 存储 数据处理
python绘制热力图-数据处理-VOC数据类别标签分布及数量统计(附代码)
python绘制热力图-数据处理-VOC数据类别标签分布及数量统计(附代码)
|
11天前
|
数据采集 JSON JavaScript
Python爬虫案例:抓取猫眼电影排行榜
python爬取猫眼电影排行榜数据分析,实战。(正则表达式,xpath,beautifulsoup)【2月更文挑战第11天】
43 2
Python爬虫案例:抓取猫眼电影排行榜
|
11天前
|
Web App开发 数据采集 前端开发
Python Selenium 爬虫淘宝案例
本文基于Selenium + MongoDB + ChromeDriver + Pyquery实现爬虫淘宝案例。【2月更文挑战第11天】
45 1
Python Selenium 爬虫淘宝案例
|
2月前
|
数据采集 Python
简单的Python爬虫案例
这个简单的爬虫案例将访问目标网站,获取其HTML内容,然后解析HTML并提取所有的标题。
23 5
|
8月前
|
数据采集 存储 Web App开发
Python爬虫技术的应用案例:聚焦热点话题与趋势分析
Python爬虫技术的应用案例:聚焦热点话题与趋势分析

热门文章

最新文章

相关产品

  • 云迁移中心