【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,视频通用资源包5000点
简介: 学校和教育机构常需处理成绩单、报名表等PDF文件。通过OCR技术,可自动提取学生信息并录入Excel,便于统计分析和存档管理。本文介绍使用阿里云服务实现批量OCR识别、内容提取、重命名及导出表格的完整步骤,包括开通相关服务、编写代码、部署函数计算和设置自动化触发器等。提供Python示例代码和详细操作指南,帮助用户高效处理PDF文件。链接:- 百度网盘:[链接](https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866)- 腾讯网盘:[链接](https://share.weiyun.com/a77jklXK)

一、项目背景

学校和教育机构经常需要处理学生的成绩单、报名表格、论文等 PDF 文件。例如,学校在统计学生成绩时,可以通过 OCR 识别从成绩单 PDF 中提取学生的姓名、学号、课程名称、成绩等信息,自动录入到 Excel 中进行成绩统计和分析。同时,根据成绩单 PDF 文件内容中的学生姓名和学期等标题信息,对文件进行重命名,便于学校进行成绩管理和存档。对于学生的论文,也可以通过这种方式提取关键信息并进行文件重命名,方便论文的评审和管理。


QQ截图20250205094717.jpg


咕嘎批量OCR识别图片PDF多区域内容重命名导出表格系统

百度网盘:https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866

腾讯网盘:https://share.weiyun.com/a77jklXK

最新版公众号Timor君回复:【图片识别改名】图片

相关阅读https://mp.weixin.qq.com/s/WBOb_vtb02PQX5B53UugUg


采样101.jpg

二、下面为大家分享完整的实现步骤:

要实现【全自动】批量 OCR 识别提取 PDF 指定区域内容到 Excel 以及根据 PDF 文件内容的标题来批量重命名,使用阿里云的方式可以通过以下几个主要步骤来完成,主要涉及到阿里云的 OCR 服务、函数计算(FC)等产品:

1. 开通相关阿里云服务


  • 开通阿里云 OCR 服务:在阿里云控制台找到 OCR 服务并开通,根据业务需求选择合适的 OCR 识别套餐。
  • 开通函数计算(FC)服务:函数计算用于自动化处理任务,在控制台开通并熟悉其基本操作。
  • 开通对象存储服务(OSS):用于存储原始 PDF 文件、识别结果以及处理过程中的临时文件。

2. 准备工作


  • 上传 PDF 文件到 OSS:将需要处理的 PDF 文件上传到指定的 OSS Bucket 中,方便后续函数计算进行访问。
  • 创建 Excel 模板:在本地创建一个 Excel 模板,用于存储 OCR 识别后的数据。模板应包含与要提取内容对应的列标题。

3. 实现 OCR 识别功能


  • 编写 OCR 识别代码:使用阿里云 OCR SDK(如 Python SDK)编写代码,实现对 PDF 文件指定区域的内容识别。例如,使用 Python SDK 的示例代码如下:


收起

python

from aliyunsdkcore.client import AcsClient
from aliyunsdkocr.request.v20191230.RecognizePDFRequest import RecognizePDFRequest
import json
# 初始化AcsClient
client = AcsClient('<your_access_key>', '<your_secret_key>', 'cn-hangzhou')  # 替换为你的AccessKey和密钥,以及地域
# 创建OCR请求
request = RecognizePDFRequest()
request.set_accept_format('json')
# 设置PDF文件在OSS中的路径
request.set_OSSFileURL('oss://<your-bucket>/<your-pdf-file>')
# 设置识别区域参数(根据实际需求调整)
request.set_Regions(json.dumps([{"left": 100, "top": 100, "width": 200, "height": 200}]))
# 发送请求并获取识别结果
response = client.do_action_with_exception(request)
result = json.loads(response)
# 处理识别结果,提取所需内容
extracted_data = result['Data']['Blocks']


  • 部署函数计算:将上述 OCR 识别代码封装成一个函数,并部署到函数计算中。在函数计算中配置好所需的环境变量(如 AccessKey、SecretKey 等)。

4. 将识别内容写入 Excel


  • 编写 Excel 写入代码:使用 Python 的openpyxl库编写代码,将 OCR 识别结果写入到 Excel 文件中。示例代码如下:


收起

python

from openpyxl import Workbook
# 创建新的Excel工作簿
wb = Workbook()
ws = wb.active
# 写入表头
headers = ['Column1', 'Column2', 'Column3']  # 根据实际需求修改表头
ws.append(headers)
# 写入识别数据
for data in extracted_data:
    row_data = [data['Content'], data['Confidence']]  # 根据实际提取内容修改
    ws.append(row_data)
# 保存Excel文件到OSS
wb.save('result.xlsx')
# 使用OSS Python SDK将Excel文件上传到OSS
import oss2
auth = oss2.Auth('<your_access_key>', '<your_secret_key>')
bucket = oss2.Bucket(auth, 'oss-cn-hangzhou.aliyuncs.com', '<your-bucket>')
bucket.put_object('result.xlsx', open('result.xlsx', 'rb'))


  • 将 Excel 写入代码集成到函数计算中:在函数计算中调用上述代码,将识别结果写入 Excel 并保存到 OSS。

5. 根据 PDF 文件内容标题批量重命名


  • 提取标题:在 OCR 识别过程中,从 PDF 内容中提取标题信息。可以根据特定的规则或关键词来定位标题。
  • 重命名文件:使用 OSS Python SDK 编写代码,根据提取的标题对 PDF 文件进行重命名。示例代码如下:


收起

python

import oss2
# 初始化OSS认证
auth = oss2.Auth('<your_access_key>', '<your_secret_key>')
bucket = oss2.Bucket(auth, 'oss-cn-hangzhou.aliyuncs.com', '<your-bucket>')
# 获取原始PDF文件名
original_filename = '<your-pdf-file>'
# 假设已经提取到标题
new_title = 'new_title.pdf'
# 重命名文件
bucket.copy_object(bucket.bucket_name, original_filename, bucket.bucket_name, new_title)
bucket.delete_object(bucket.bucket_name, original_filename)


  • 将重命名代码集成到函数计算中:在函数计算中调用上述代码,实现根据 PDF 内容标题对文件进行重命名。

6. 自动化触发


  • 设置触发器:在函数计算中设置触发器,例如定时触发或当新的 PDF 文件上传到 OSS 时自动触发函数执行,实现全自动的批量处理。


通过以上步骤,你可以使用阿里云的相关服务实现批量 OCR 识别提取 PDF 指定区域内容到 Excel 以及根据 PDF 文件内容的标题来批量重命名的功能。请注意,以上代码中的参数(如 AccessKey、SecretKey、Bucket 名称等)需要根据实际情况进行替换。

相关文章
|
21天前
|
文字识别 BI
【工具教程】批量PDF和图片OCR识别指定区域文字自动改图片名字,多个区域一次性批量识别改名批量重命名
本内容介绍了一款用于企业档案、医院病历及办公文件管理的图片和PDF文字识别工具。通过框选识别区域,软件可批量提取关键信息,实现文件重命名或导出为表格,极大提升管理效率。支持图片与PDF两种模式,操作简单,适用于合同、病历、报告等场景。提供详细步骤指导,包含区域设置、文件导入、批量处理及结果校验等功能。
109 8
|
1月前
|
文字识别 BI API
3.4K star!全能PDF处理神器开源!文档转换/OCR识别一键搞定
PDF-Guru 是一款开箱即用的全能型PDF处理工具,支持跨平台文档转换、智能OCR识别、多格式解析等核心功能。项目采用模块化架构设计,提供简洁的Web界面和API接口,开发者可快速集成到现有系统中。
107 1
|
1月前
|
文字识别 UED Python
对双栏 | 单双栏混合 | 图表文字混合的复杂布局的图片OCR识别(对布局复杂的整个pdf进行OCR识别)
这个故事告诉我们要多尝试不同的库和引擎,尤其是需求比较偏门或者少见的时候。同一个方向不同的库所擅长的领域是不一样的。 博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
|
2月前
|
文字识别 BI
【图片型PDF】批量识别扫描件PDF指定区域局部位置内容,将识别内容导出Excel表格或批量改名文件,基于阿里云OCR对图片型PDF识别改名案例实现
在医疗和政务等领域,图片型PDF文件(如病历、报告、公文扫描件)的处理需求广泛。通过OCR技术识别这些文件中的文字信息,提取关键内容并保存为表格,极大提高了信息管理和利用效率。本文介绍一款工具——咕嘎批量OCR系统,帮助用户快速处理图片型PDF文件,支持区域识别、内容提取、导出表格及批量改名等功能。下载工具后,按步骤选择处理模式、进行区域采样、批量处理文件,几分钟内即可高效完成数百个文件的处理。
266 8
|
4月前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
627 10
|
6月前
|
数据采集 存储 JavaScript
自动化数据处理:使用Selenium与Excel打造的数据爬取管道
本文介绍了一种使用Selenium和Excel结合代理IP技术从WIPO品牌数据库(branddb.wipo.int)自动化爬取专利信息的方法。通过Selenium模拟用户操作,处理JavaScript动态加载页面,利用代理IP避免IP封禁,确保数据爬取稳定性和隐私性。爬取的数据将存储在Excel中,便于后续分析。此外,文章还详细介绍了Selenium的基本设置、代理IP配置及使用技巧,并探讨了未来可能采用的更多防反爬策略,以提升爬虫效率和稳定性。
396 4
|
2月前
|
分布式计算 Hadoop 大数据
从Excel到Hadoop:数据规模的进化之路
从Excel到Hadoop:数据规模的进化之路
60 10
|
8月前
|
关系型数据库 MySQL Shell
不通过navicat工具怎么把查询数据导出到excel表中
不通过navicat工具怎么把查询数据导出到excel表中
85 0
|
4月前
|
存储 Java easyexcel
招行面试:100万级别数据的Excel,如何秒级导入到数据库?
本文由40岁老架构师尼恩撰写,分享了应对招商银行Java后端面试绝命12题的经验。文章详细介绍了如何通过系统化准备,在面试中展示强大的技术实力。针对百万级数据的Excel导入难题,尼恩推荐使用阿里巴巴开源的EasyExcel框架,并结合高性能分片读取、Disruptor队列缓冲和高并发批量写入的架构方案,实现高效的数据处理。此外,文章还提供了完整的代码示例和配置说明,帮助读者快速掌握相关技能。建议读者参考《尼恩Java面试宝典PDF》进行系统化刷题,提升面试竞争力。关注公众号【技术自由圈】可获取更多技术资源和指导。
|
6月前
|
数据处理 Python
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
这篇文章介绍了如何使用Python读取Excel文件中的数据,处理后将其保存为txt、xlsx和csv格式的文件。
352 3
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档

热门文章

最新文章

下一篇
oss创建bucket