【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
简介: 学校和教育机构常需处理成绩单、报名表等PDF文件。通过OCR技术,可自动提取学生信息并录入Excel,便于统计分析和存档管理。本文介绍使用阿里云服务实现批量OCR识别、内容提取、重命名及导出表格的完整步骤,包括开通相关服务、编写代码、部署函数计算和设置自动化触发器等。提供Python示例代码和详细操作指南,帮助用户高效处理PDF文件。链接:- 百度网盘:[链接](https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866)- 腾讯网盘:[链接](https://share.weiyun.com/a77jklXK)

一、项目背景

学校和教育机构经常需要处理学生的成绩单、报名表格、论文等 PDF 文件。例如,学校在统计学生成绩时,可以通过 OCR 识别从成绩单 PDF 中提取学生的姓名、学号、课程名称、成绩等信息,自动录入到 Excel 中进行成绩统计和分析。同时,根据成绩单 PDF 文件内容中的学生姓名和学期等标题信息,对文件进行重命名,便于学校进行成绩管理和存档。对于学生的论文,也可以通过这种方式提取关键信息并进行文件重命名,方便论文的评审和管理。


QQ截图20250205094717.jpg


咕嘎批量OCR识别图片PDF多区域内容重命名导出表格系统

百度网盘:https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866

腾讯网盘:https://share.weiyun.com/a77jklXK

最新版公众号Timor君回复:【图片识别改名】图片

相关阅读https://mp.weixin.qq.com/s/WBOb_vtb02PQX5B53UugUg


采样101.jpg

二、下面为大家分享完整的实现步骤:

要实现【全自动】批量 OCR 识别提取 PDF 指定区域内容到 Excel 以及根据 PDF 文件内容的标题来批量重命名,使用阿里云的方式可以通过以下几个主要步骤来完成,主要涉及到阿里云的 OCR 服务、函数计算(FC)等产品:

1. 开通相关阿里云服务


  • 开通阿里云 OCR 服务:在阿里云控制台找到 OCR 服务并开通,根据业务需求选择合适的 OCR 识别套餐。
  • 开通函数计算(FC)服务:函数计算用于自动化处理任务,在控制台开通并熟悉其基本操作。
  • 开通对象存储服务(OSS):用于存储原始 PDF 文件、识别结果以及处理过程中的临时文件。

2. 准备工作


  • 上传 PDF 文件到 OSS:将需要处理的 PDF 文件上传到指定的 OSS Bucket 中,方便后续函数计算进行访问。
  • 创建 Excel 模板:在本地创建一个 Excel 模板,用于存储 OCR 识别后的数据。模板应包含与要提取内容对应的列标题。

3. 实现 OCR 识别功能


  • 编写 OCR 识别代码:使用阿里云 OCR SDK(如 Python SDK)编写代码,实现对 PDF 文件指定区域的内容识别。例如,使用 Python SDK 的示例代码如下:


收起

python

from aliyunsdkcore.client import AcsClient
from aliyunsdkocr.request.v20191230.RecognizePDFRequest import RecognizePDFRequest
import json
# 初始化AcsClient
client = AcsClient('<your_access_key>', '<your_secret_key>', 'cn-hangzhou')  # 替换为你的AccessKey和密钥,以及地域
# 创建OCR请求
request = RecognizePDFRequest()
request.set_accept_format('json')
# 设置PDF文件在OSS中的路径
request.set_OSSFileURL('oss://<your-bucket>/<your-pdf-file>')
# 设置识别区域参数(根据实际需求调整)
request.set_Regions(json.dumps([{"left": 100, "top": 100, "width": 200, "height": 200}]))
# 发送请求并获取识别结果
response = client.do_action_with_exception(request)
result = json.loads(response)
# 处理识别结果,提取所需内容
extracted_data = result['Data']['Blocks']


  • 部署函数计算:将上述 OCR 识别代码封装成一个函数,并部署到函数计算中。在函数计算中配置好所需的环境变量(如 AccessKey、SecretKey 等)。

4. 将识别内容写入 Excel


  • 编写 Excel 写入代码:使用 Python 的openpyxl库编写代码,将 OCR 识别结果写入到 Excel 文件中。示例代码如下:


收起

python

from openpyxl import Workbook
# 创建新的Excel工作簿
wb = Workbook()
ws = wb.active
# 写入表头
headers = ['Column1', 'Column2', 'Column3']  # 根据实际需求修改表头
ws.append(headers)
# 写入识别数据
for data in extracted_data:
    row_data = [data['Content'], data['Confidence']]  # 根据实际提取内容修改
    ws.append(row_data)
# 保存Excel文件到OSS
wb.save('result.xlsx')
# 使用OSS Python SDK将Excel文件上传到OSS
import oss2
auth = oss2.Auth('<your_access_key>', '<your_secret_key>')
bucket = oss2.Bucket(auth, 'oss-cn-hangzhou.aliyuncs.com', '<your-bucket>')
bucket.put_object('result.xlsx', open('result.xlsx', 'rb'))


  • 将 Excel 写入代码集成到函数计算中:在函数计算中调用上述代码,将识别结果写入 Excel 并保存到 OSS。

5. 根据 PDF 文件内容标题批量重命名


  • 提取标题:在 OCR 识别过程中,从 PDF 内容中提取标题信息。可以根据特定的规则或关键词来定位标题。
  • 重命名文件:使用 OSS Python SDK 编写代码,根据提取的标题对 PDF 文件进行重命名。示例代码如下:


收起

python

import oss2
# 初始化OSS认证
auth = oss2.Auth('<your_access_key>', '<your_secret_key>')
bucket = oss2.Bucket(auth, 'oss-cn-hangzhou.aliyuncs.com', '<your-bucket>')
# 获取原始PDF文件名
original_filename = '<your-pdf-file>'
# 假设已经提取到标题
new_title = 'new_title.pdf'
# 重命名文件
bucket.copy_object(bucket.bucket_name, original_filename, bucket.bucket_name, new_title)
bucket.delete_object(bucket.bucket_name, original_filename)


  • 将重命名代码集成到函数计算中:在函数计算中调用上述代码,实现根据 PDF 内容标题对文件进行重命名。

6. 自动化触发


  • 设置触发器:在函数计算中设置触发器,例如定时触发或当新的 PDF 文件上传到 OSS 时自动触发函数执行,实现全自动的批量处理。


通过以上步骤,你可以使用阿里云的相关服务实现批量 OCR 识别提取 PDF 指定区域内容到 Excel 以及根据 PDF 文件内容的标题来批量重命名的功能。请注意,以上代码中的参数(如 AccessKey、SecretKey、Bucket 名称等)需要根据实际情况进行替换。

相关文章
|
7月前
|
存储 JSON API
如何将 Swagger 文档导出为 PDF 文件
你会发现自己可能需要将 Swagger 文档导出为 PDF 或文件,以便于共享和存档。在这篇博文中,我们将指导你完成将 Swagger 文档导出为 PDF 格式的过程。
|
2月前
|
小程序
公众号如何添加附传Word、Excel、Pdf、PPT文档
公众号里添加一些文档给公众号粉丝下载,比如课件PPT、申请表Word文档、岗位需求Excel表、大赛入围/获奖名单等。公众号本身是不支持直接上传文件的,但我们可以通过附件小程序“间接”上传文件。
541 0
|
4月前
|
C#
【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件,PDF自动提取内容命名的方案和详细步骤
本工具可批量提取PDF中的合同编号、日期、发票号等关键信息,支持PDF自定义区域提取并自动重命名文件,适用于合同管理、发票处理、文档归档和数据录入场景。基于iTextSharp库实现,提供完整代码示例与百度、腾讯网盘下载链接,助力高效处理PDF文档。
672 40
|
4月前
|
编译器 Python
如何利用Python批量重命名PDF文件
本文介绍了如何使用Python提取PDF内容并用于文件重命名。通过安装Python环境、PyCharm编译器及Jupyter Notebook,结合tabula库实现PDF数据读取与处理,并提供代码示例与参考文献。
|
4月前
|
Python
Excel中如何批量重命名工作表与将每个工作表导出到单独Excel文件
本文介绍了如何在Excel中使用VBA批量重命名工作表、根据单元格内容修改颜色,以及将工作表导出为独立文件的方法。同时提供了Python实现导出工作表的代码示例,适用于自动化处理Excel文档。
|
6月前
|
人工智能 算法 安全
使用CodeBuddy实现批量转换PPT、Excel、Word为PDF文件工具
通过 CodeBuddy 实现本地批量转换工具,让复杂的文档处理需求转化为 “需求描述→代码生成→一键运行” 的极简流程,真正实现 “技术为效率服务” 的目标。感兴趣的快来体验下把
291 10
|
5月前
|
数据采集 存储 API
Python爬虫结合API接口批量获取PDF文件
Python爬虫结合API接口批量获取PDF文件
|
4月前
|
Python
如何根据Excel某列数据为依据分成一个新的工作表
在处理Excel数据时,我们常需要根据列值将数据分到不同的工作表或文件中。本文通过Python和VBA两种方法实现该操作:使用Python的`pandas`库按年级拆分为多个文件,再通过VBA宏按班级生成新的工作表,帮助高效整理复杂数据。
|
4月前
|
数据采集 数据可视化 数据挖掘
用 Excel+Power Query 做电商数据分析:从 “每天加班整理数据” 到 “一键生成报表” 的配置教程
在电商运营中,数据是增长的关键驱动力。然而,传统的手工数据处理方式效率低下,耗费大量时间且易出错。本文介绍如何利用 Excel 中的 Power Query 工具,自动化完成电商数据的采集、清洗与分析,大幅提升数据处理效率。通过某美妆电商的实战案例,详细拆解从多平台数据整合到可视化报表生成的全流程,帮助电商从业者摆脱繁琐操作,聚焦业务增长,实现数据驱动的高效运营。
|
6月前
|
存储 安全 大数据
网安工程师必看!AiPy解决fscan扫描数据整理难题—多种信息快速分拣+Excel结构化存储方案
作为一名安全测试工程师,分析fscan扫描结果曾是繁琐的手动活:从海量日志中提取开放端口、漏洞信息和主机数据,耗时又易错。但现在,借助AiPy开发的GUI解析工具,只需喝杯奶茶的时间,即可将[PORT]、[SERVICE]、[VULN]、[HOST]等关键信息智能分类,并生成三份清晰的Excel报表。告别手动整理,大幅提升效率!在安全行业,工具党正碾压手动党。掌握AiPy,把时间留给真正的攻防实战!官网链接:https://www.aipyaipy.com,解锁更多用法!

热门文章

最新文章