【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
简介: 学校和教育机构常需处理成绩单、报名表等PDF文件。通过OCR技术,可自动提取学生信息并录入Excel,便于统计分析和存档管理。本文介绍使用阿里云服务实现批量OCR识别、内容提取、重命名及导出表格的完整步骤,包括开通相关服务、编写代码、部署函数计算和设置自动化触发器等。提供Python示例代码和详细操作指南,帮助用户高效处理PDF文件。链接:- 百度网盘:[链接](https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866)- 腾讯网盘:[链接](https://share.weiyun.com/a77jklXK)

一、项目背景

学校和教育机构经常需要处理学生的成绩单、报名表格、论文等 PDF 文件。例如,学校在统计学生成绩时,可以通过 OCR 识别从成绩单 PDF 中提取学生的姓名、学号、课程名称、成绩等信息,自动录入到 Excel 中进行成绩统计和分析。同时,根据成绩单 PDF 文件内容中的学生姓名和学期等标题信息,对文件进行重命名,便于学校进行成绩管理和存档。对于学生的论文,也可以通过这种方式提取关键信息并进行文件重命名,方便论文的评审和管理。


QQ截图20250205094717.jpg


咕嘎批量OCR识别图片PDF多区域内容重命名导出表格系统

百度网盘:https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866

腾讯网盘:https://share.weiyun.com/a77jklXK

最新版公众号Timor君回复:【图片识别改名】图片

相关阅读https://mp.weixin.qq.com/s/WBOb_vtb02PQX5B53UugUg


采样101.jpg

二、下面为大家分享完整的实现步骤:

要实现【全自动】批量 OCR 识别提取 PDF 指定区域内容到 Excel 以及根据 PDF 文件内容的标题来批量重命名,使用阿里云的方式可以通过以下几个主要步骤来完成,主要涉及到阿里云的 OCR 服务、函数计算(FC)等产品:

1. 开通相关阿里云服务


  • 开通阿里云 OCR 服务:在阿里云控制台找到 OCR 服务并开通,根据业务需求选择合适的 OCR 识别套餐。
  • 开通函数计算(FC)服务:函数计算用于自动化处理任务,在控制台开通并熟悉其基本操作。
  • 开通对象存储服务(OSS):用于存储原始 PDF 文件、识别结果以及处理过程中的临时文件。

2. 准备工作


  • 上传 PDF 文件到 OSS:将需要处理的 PDF 文件上传到指定的 OSS Bucket 中,方便后续函数计算进行访问。
  • 创建 Excel 模板:在本地创建一个 Excel 模板,用于存储 OCR 识别后的数据。模板应包含与要提取内容对应的列标题。

3. 实现 OCR 识别功能


  • 编写 OCR 识别代码:使用阿里云 OCR SDK(如 Python SDK)编写代码,实现对 PDF 文件指定区域的内容识别。例如,使用 Python SDK 的示例代码如下:


收起

python

from aliyunsdkcore.client import AcsClient
from aliyunsdkocr.request.v20191230.RecognizePDFRequest import RecognizePDFRequest
import json
# 初始化AcsClient
client = AcsClient('<your_access_key>', '<your_secret_key>', 'cn-hangzhou')  # 替换为你的AccessKey和密钥,以及地域
# 创建OCR请求
request = RecognizePDFRequest()
request.set_accept_format('json')
# 设置PDF文件在OSS中的路径
request.set_OSSFileURL('oss://<your-bucket>/<your-pdf-file>')
# 设置识别区域参数(根据实际需求调整)
request.set_Regions(json.dumps([{"left": 100, "top": 100, "width": 200, "height": 200}]))
# 发送请求并获取识别结果
response = client.do_action_with_exception(request)
result = json.loads(response)
# 处理识别结果,提取所需内容
extracted_data = result['Data']['Blocks']


  • 部署函数计算:将上述 OCR 识别代码封装成一个函数,并部署到函数计算中。在函数计算中配置好所需的环境变量(如 AccessKey、SecretKey 等)。

4. 将识别内容写入 Excel


  • 编写 Excel 写入代码:使用 Python 的openpyxl库编写代码,将 OCR 识别结果写入到 Excel 文件中。示例代码如下:


收起

python

from openpyxl import Workbook
# 创建新的Excel工作簿
wb = Workbook()
ws = wb.active
# 写入表头
headers = ['Column1', 'Column2', 'Column3']  # 根据实际需求修改表头
ws.append(headers)
# 写入识别数据
for data in extracted_data:
    row_data = [data['Content'], data['Confidence']]  # 根据实际提取内容修改
    ws.append(row_data)
# 保存Excel文件到OSS
wb.save('result.xlsx')
# 使用OSS Python SDK将Excel文件上传到OSS
import oss2
auth = oss2.Auth('<your_access_key>', '<your_secret_key>')
bucket = oss2.Bucket(auth, 'oss-cn-hangzhou.aliyuncs.com', '<your-bucket>')
bucket.put_object('result.xlsx', open('result.xlsx', 'rb'))


  • 将 Excel 写入代码集成到函数计算中:在函数计算中调用上述代码,将识别结果写入 Excel 并保存到 OSS。

5. 根据 PDF 文件内容标题批量重命名


  • 提取标题:在 OCR 识别过程中,从 PDF 内容中提取标题信息。可以根据特定的规则或关键词来定位标题。
  • 重命名文件:使用 OSS Python SDK 编写代码,根据提取的标题对 PDF 文件进行重命名。示例代码如下:


收起

python

import oss2
# 初始化OSS认证
auth = oss2.Auth('<your_access_key>', '<your_secret_key>')
bucket = oss2.Bucket(auth, 'oss-cn-hangzhou.aliyuncs.com', '<your-bucket>')
# 获取原始PDF文件名
original_filename = '<your-pdf-file>'
# 假设已经提取到标题
new_title = 'new_title.pdf'
# 重命名文件
bucket.copy_object(bucket.bucket_name, original_filename, bucket.bucket_name, new_title)
bucket.delete_object(bucket.bucket_name, original_filename)


  • 将重命名代码集成到函数计算中:在函数计算中调用上述代码,实现根据 PDF 内容标题对文件进行重命名。

6. 自动化触发


  • 设置触发器:在函数计算中设置触发器,例如定时触发或当新的 PDF 文件上传到 OSS 时自动触发函数执行,实现全自动的批量处理。


通过以上步骤,你可以使用阿里云的相关服务实现批量 OCR 识别提取 PDF 指定区域内容到 Excel 以及根据 PDF 文件内容的标题来批量重命名的功能。请注意,以上代码中的参数(如 AccessKey、SecretKey、Bucket 名称等)需要根据实际情况进行替换。

目录
打赏
0
4
5
0
29
分享
相关文章
3.4K star!全能PDF处理神器开源!文档转换/OCR识别一键搞定
PDF-Guru 是一款开箱即用的全能型PDF处理工具,支持跨平台文档转换、智能OCR识别、多格式解析等核心功能。项目采用模块化架构设计,提供简洁的Web界面和API接口,开发者可快速集成到现有系统中。
对双栏 | 单双栏混合 | 图表文字混合的复杂布局的图片OCR识别(对布局复杂的整个pdf进行OCR识别)
这个故事告诉我们要多尝试不同的库和引擎,尤其是需求比较偏门或者少见的时候。同一个方向不同的库所擅长的领域是不一样的。 博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
【图片型PDF】批量识别扫描件PDF指定区域局部位置内容,将识别内容导出Excel表格或批量改名文件,基于阿里云OCR对图片型PDF识别改名案例实现
在医疗和政务等领域,图片型PDF文件(如病历、报告、公文扫描件)的处理需求广泛。通过OCR技术识别这些文件中的文字信息,提取关键内容并保存为表格,极大提高了信息管理和利用效率。本文介绍一款工具——咕嘎批量OCR系统,帮助用户快速处理图片型PDF文件,支持区域识别、内容提取、导出表格及批量改名等功能。下载工具后,按步骤选择处理模式、进行区域采样、批量处理文件,几分钟内即可高效完成数百个文件的处理。
172 8
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。
222 4
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
如何使用OCR技术批量识别图片中的文字并重命名文件,OCR 技术批量识别图片中的文字可能出现的错误
### 简介 【批量识别图片内容重命名】工具可批量识别图片中的文字并重命名文件,方便高效处理大量图片。然而,OCR 技术面临字符识别错误(如形近字混淆、生僻字识别不佳)、格式错误(段落错乱、换行问题)和语义理解错误等挑战。为提高准确性,建议提升图片质量、选择合适的 OCR 软件及参数,并结合自动校对与人工审核,确保最终文本的正确性和完整性。
286 12
如何使用OCR技术批量识别图片中的文字并重命名文件,OCR 技术批量识别图片中的文字可能出现的错误
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
431 2
使用Vue+xlsx+xlsx-style实现导出自定义样式的Excel文件
本文介绍了在Vue项目中使用`xlsx`和`xlsx-style`(或`xlsx-style-vite`)库实现导出具有自定义样式的Excel文件的方法,并提供了详细的示例代码和操作效果截图。
1388 2
使用Vue+xlsx+xlsx-style实现导出自定义样式的Excel文件
使用Python+openpyxl实现导出自定义样式的Excel文件
本文介绍了如何使用Python的openpyxl库导出具有自定义样式的Excel文件,包括设置字体、对齐方式、行列宽高、边框和填充等样式,并提供了完整的示例代码和运行效果截图。
301 1
使用Python+openpyxl实现导出自定义样式的Excel文件
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
498 10
从Excel到Hadoop:数据规模的进化之路
从Excel到Hadoop:数据规模的进化之路
48 10

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等