【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名

简介: 学校和教育机构常需处理成绩单、报名表等PDF文件。通过OCR技术,可自动提取学生信息并录入Excel,便于统计分析和存档管理。本文介绍使用阿里云服务实现批量OCR识别、内容提取、重命名及导出表格的完整步骤,包括开通相关服务、编写代码、部署函数计算和设置自动化触发器等。提供Python示例代码和详细操作指南,帮助用户高效处理PDF文件。链接:- 百度网盘:[链接](https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866)- 腾讯网盘:[链接](https://share.weiyun.com/a77jklXK)

一、项目背景

学校和教育机构经常需要处理学生的成绩单、报名表格、论文等 PDF 文件。例如,学校在统计学生成绩时,可以通过 OCR 识别从成绩单 PDF 中提取学生的姓名、学号、课程名称、成绩等信息,自动录入到 Excel 中进行成绩统计和分析。同时,根据成绩单 PDF 文件内容中的学生姓名和学期等标题信息,对文件进行重命名,便于学校进行成绩管理和存档。对于学生的论文,也可以通过这种方式提取关键信息并进行文件重命名,方便论文的评审和管理。


QQ截图20250205094717.jpg


咕嘎批量OCR识别图片PDF多区域内容重命名导出表格系统

百度网盘:https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866

腾讯网盘:https://share.weiyun.com/a77jklXK

最新版公众号Timor君回复:【图片识别改名】图片

相关阅读https://mp.weixin.qq.com/s/WBOb_vtb02PQX5B53UugUg


采样101.jpg

二、下面为大家分享完整的实现步骤:

要实现【全自动】批量 OCR 识别提取 PDF 指定区域内容到 Excel 以及根据 PDF 文件内容的标题来批量重命名,使用阿里云的方式可以通过以下几个主要步骤来完成,主要涉及到阿里云的 OCR 服务、函数计算(FC)等产品:

1. 开通相关阿里云服务


  • 开通阿里云 OCR 服务:在阿里云控制台找到 OCR 服务并开通,根据业务需求选择合适的 OCR 识别套餐。
  • 开通函数计算(FC)服务:函数计算用于自动化处理任务,在控制台开通并熟悉其基本操作。
  • 开通对象存储服务(OSS):用于存储原始 PDF 文件、识别结果以及处理过程中的临时文件。

2. 准备工作


  • 上传 PDF 文件到 OSS:将需要处理的 PDF 文件上传到指定的 OSS Bucket 中,方便后续函数计算进行访问。
  • 创建 Excel 模板:在本地创建一个 Excel 模板,用于存储 OCR 识别后的数据。模板应包含与要提取内容对应的列标题。

3. 实现 OCR 识别功能


  • 编写 OCR 识别代码:使用阿里云 OCR SDK(如 Python SDK)编写代码,实现对 PDF 文件指定区域的内容识别。例如,使用 Python SDK 的示例代码如下:


收起

python

from aliyunsdkcore.client import AcsClient
from aliyunsdkocr.request.v20191230.RecognizePDFRequest import RecognizePDFRequest
import json
# 初始化AcsClient
client = AcsClient('<your_access_key>', '<your_secret_key>', 'cn-hangzhou')  # 替换为你的AccessKey和密钥,以及地域
# 创建OCR请求
request = RecognizePDFRequest()
request.set_accept_format('json')
# 设置PDF文件在OSS中的路径
request.set_OSSFileURL('oss://<your-bucket>/<your-pdf-file>')
# 设置识别区域参数(根据实际需求调整)
request.set_Regions(json.dumps([{"left": 100, "top": 100, "width": 200, "height": 200}]))
# 发送请求并获取识别结果
response = client.do_action_with_exception(request)
result = json.loads(response)
# 处理识别结果,提取所需内容
extracted_data = result['Data']['Blocks']


  • 部署函数计算:将上述 OCR 识别代码封装成一个函数,并部署到函数计算中。在函数计算中配置好所需的环境变量(如 AccessKey、SecretKey 等)。

4. 将识别内容写入 Excel


  • 编写 Excel 写入代码:使用 Python 的openpyxl库编写代码,将 OCR 识别结果写入到 Excel 文件中。示例代码如下:


收起

python

from openpyxl import Workbook
# 创建新的Excel工作簿
wb = Workbook()
ws = wb.active
# 写入表头
headers = ['Column1', 'Column2', 'Column3']  # 根据实际需求修改表头
ws.append(headers)
# 写入识别数据
for data in extracted_data:
    row_data = [data['Content'], data['Confidence']]  # 根据实际提取内容修改
    ws.append(row_data)
# 保存Excel文件到OSS
wb.save('result.xlsx')
# 使用OSS Python SDK将Excel文件上传到OSS
import oss2
auth = oss2.Auth('<your_access_key>', '<your_secret_key>')
bucket = oss2.Bucket(auth, 'oss-cn-hangzhou.aliyuncs.com', '<your-bucket>')
bucket.put_object('result.xlsx', open('result.xlsx', 'rb'))


  • 将 Excel 写入代码集成到函数计算中:在函数计算中调用上述代码,将识别结果写入 Excel 并保存到 OSS。

5. 根据 PDF 文件内容标题批量重命名


  • 提取标题:在 OCR 识别过程中,从 PDF 内容中提取标题信息。可以根据特定的规则或关键词来定位标题。
  • 重命名文件:使用 OSS Python SDK 编写代码,根据提取的标题对 PDF 文件进行重命名。示例代码如下:


收起

python

import oss2
# 初始化OSS认证
auth = oss2.Auth('<your_access_key>', '<your_secret_key>')
bucket = oss2.Bucket(auth, 'oss-cn-hangzhou.aliyuncs.com', '<your-bucket>')
# 获取原始PDF文件名
original_filename = '<your-pdf-file>'
# 假设已经提取到标题
new_title = 'new_title.pdf'
# 重命名文件
bucket.copy_object(bucket.bucket_name, original_filename, bucket.bucket_name, new_title)
bucket.delete_object(bucket.bucket_name, original_filename)


  • 将重命名代码集成到函数计算中:在函数计算中调用上述代码,实现根据 PDF 内容标题对文件进行重命名。

6. 自动化触发


  • 设置触发器:在函数计算中设置触发器,例如定时触发或当新的 PDF 文件上传到 OSS 时自动触发函数执行,实现全自动的批量处理。


通过以上步骤,你可以使用阿里云的相关服务实现批量 OCR 识别提取 PDF 指定区域内容到 Excel 以及根据 PDF 文件内容的标题来批量重命名的功能。请注意,以上代码中的参数(如 AccessKey、SecretKey、Bucket 名称等)需要根据实际情况进行替换。

相关文章
|
3月前
|
机器学习/深度学习 文字识别 Java
Python实现PDF图片OCR识别:从原理到实战的全流程解析
本文详解2025年Python实现扫描PDF文本提取的四大OCR方案(Tesseract、EasyOCR、PaddleOCR、OCRmyPDF),涵盖环境配置、图像预处理、核心识别与性能优化,结合财务票据、古籍数字化等实战场景,助力高效构建自动化文档处理系统。
945 0
|
2月前
|
机器学习/深度学习 文字识别 Shell
高效率办公PDF批量处理:批量OCR识别PDF区域文字内容,用PDF内容批量改名或导出表格的货物运单应用案例
针对铁路货运物流单存档需求,本项目基于WPF与飞桨OCR技术,实现批量图片多区域文字识别与自动重命名。用户可自定义识别区域,系统提取关键信息(如车号、批次号)并生成规范文件名,提升档案管理效率与检索准确性,支持PDF及图像文件处理。
415 0
|
8月前
|
存储 JSON API
如何将 Swagger 文档导出为 PDF 文件
你会发现自己可能需要将 Swagger 文档导出为 PDF 或文件,以便于共享和存档。在这篇博文中,我们将指导你完成将 Swagger 文档导出为 PDF 格式的过程。
|
5月前
|
C#
【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件,PDF自动提取内容命名的方案和详细步骤
本工具可批量提取PDF中的合同编号、日期、发票号等关键信息,支持PDF自定义区域提取并自动重命名文件,适用于合同管理、发票处理、文档归档和数据录入场景。基于iTextSharp库实现,提供完整代码示例与百度、腾讯网盘下载链接,助力高效处理PDF文档。
758 40
|
3月前
|
小程序
公众号如何添加附传Word、Excel、Pdf、PPT文档
公众号里添加一些文档给公众号粉丝下载,比如课件PPT、申请表Word文档、岗位需求Excel表、大赛入围/获奖名单等。公众号本身是不支持直接上传文件的,但我们可以通过附件小程序“间接”上传文件。
619 0
|
6月前
|
人工智能 文字识别 自然语言处理
熊猫 OCR 识别软件下载,支持截图 OCR、PDF 识别、多语言翻译的免费全能工具,熊猫OCR识别
本文介绍了几款实用的图文识别软件,包括熊猫OCR、Umi-OCR和天若OCR_本地版。熊猫OCR功能强大,支持多窗口操作、AI找图找色、OCR识别等;Umi-OCR免费且高效,具备截图OCR、批量处理等功能;天若OCR界面简洁,适合快速文字识别。文章还提供了下载链接及软件特点、界面展示等内容,便于用户根据需求选择合适的工具。
666 36
|
5月前
|
编译器 Python
如何利用Python批量重命名PDF文件
本文介绍了如何使用Python提取PDF内容并用于文件重命名。通过安装Python环境、PyCharm编译器及Jupyter Notebook,结合tabula库实现PDF数据读取与处理,并提供代码示例与参考文献。
|
7月前
|
人工智能 算法 安全
使用CodeBuddy实现批量转换PPT、Excel、Word为PDF文件工具
通过 CodeBuddy 实现本地批量转换工具,让复杂的文档处理需求转化为 “需求描述→代码生成→一键运行” 的极简流程,真正实现 “技术为效率服务” 的目标。感兴趣的快来体验下把
390 10
|
6月前
|
数据采集 存储 API
Python爬虫结合API接口批量获取PDF文件
Python爬虫结合API接口批量获取PDF文件

热门文章

最新文章