开源OCR模型DIY票证信息抽取

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 票证检测矫正模型在实际生活中有着广泛的需求,例如信息抽取、图像质量判断、证件扫描、票据审计等领等场景,可以大幅提高工作效率和准确性。

票证检测矫正模型在实际生活中有着广泛的需求,例如信息抽取、图像质量判断、证件扫描、票据审计等领等场景,可以大幅提高工作效率和准确性。

     

读光-票证检测矫正模型

日前,读光团队 开源的商用票证检测矫正模型,基于海量的真实数据训练,可以从容应对多种复杂场景的票证检测矫正任务,该模型具有以下优点:

  • 支持任意角度、多卡证票据等混贴场景,同时检测输入图像任意角度的多个子图区域
  • 基于海量真实数据训练,效果满足国内常见的卡证票据的检测矫正需求
  • 支持子图区域复印件判断、四方向判断,准确率高达 99%

模型链接:

https://modelscope.cn/models/damo/cv_resnet18_card_correction/summary

下图是模型的实现流程:

输入图片,基于 Resnet18-FPN 提取特征后,在 1/4 尺寸处通过三条分支分别识别出票证的中心点、偏移量(中心点到4个顶点距离)、中心点偏移量(为了得到精准的中心点),即可解码数出票证区域的四边形框;再用透视变换将票证拉平得到矫正后的票证信息;与此同时,分类分支识别出子图朝向,用于而切割的子图转正。

下图是模型效果:



接下来,介绍如何利用读光-检测矫正模型结合更多开源模型组合 DIY 票证信息抽取 应用:

实操教程:DIY票证信息抽取

票证信息抽取的流程包括:

预处理:对采集到的图像进行预处理操作,以提高后续处理的准确性。这包括图像去噪、二值化、旋转校正、尺寸标准化等操作。

文本检测:使用文本检测算法(如OCR技术)对处理后的图像进行分析,检测出图像中的文字区域。

文本识别:将检测到的文字区域进行识别,将图像中的文字转换成电子文本形式。

信息抽取:对识别出的文本进行分析,根据票据或证件的特定格式提取出关键信息,如发票号码、金额、日期等。

信息验证:对抽取出的信息进行验证,确保信息的准确性。这可能包括与数据库中的信息进行比对、检查信息的格式等。



1. 首先使用读光票证检测矫正模型,将图片中多个证件切分出来,并把对其方向进行旋转和矫正。

推荐模型

读光-票证检测矫正模型:https://modelscope.cn/models/damo/cv_resnet18_card_correction/summary

card_detection_correction = pipeline(Tasks.card_detection_correction, model='damo/cv_resnet18_card_correction')
card_result = card_detection_correction(file)
array_imgs = card_result['output_imgs']

2. 第二步使用读光文字检测模型,将每个证件中的文字按照行检测出来。使用ICGN效果会更好,使用DBNet调试更方便。

推荐模型

读光-文字检测-DBNet行检测模型-中英-通用领域:

https://modelscope.cn/models/damo/cv_resnet18_ocr-detection-db-line-level_damo/summary

ocr_detection = pipeline(Tasks.ocr_detection, model='damo/cv_resnet18_ocr-detection-db-line-level_damo')
for img in array_imgs:
  o_img = img
  det_result = ocr_detection(o_img)

3. 第三步使用读光文字识别模型,将每个检测框中的文字识别出来。

推荐模型:

读光-文字识别-行识别模型-中英-通用领域:

https://modelscope.cn/models/damo/cv_convnextTiny_ocr-recognition-general_damo/summary

ocr_recognition = pipeline(Tasks.ocr_recognition, model='damo/cv_convnextTiny_ocr-recognition-general_damo')
for ori_pts in det_result['polygons']:
  pts = order_point(ori_pts)
  image_crop = crop_image(o_img, pts)
  line_result = ocr_recognition(image_crop)['text'][0]
  text_all = text_all+';'+line_result

4. 最后使用大模型或者NER模型将文字内容中实体信息抽取出来。

推荐模型:

通义千问-7B-Chat:https://modelscope.cn/models/qwen/Qwen-7B-Chat/summary

model_dir = snapshot_download("qwen/Qwen-7B-Chat", revision = 'v1.1.4')
tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True).eval()
model.generation_config = GenerationConfig.from_pretrained(model_dir, trust_remote_code=True)
response, history = model.chat(tokenizer, "你好", history=None)
response, history = model.chat(tokenizer, "请告诉我下面这段文字的发票代码,发票号码,发票金额,发票印制地名称:"+text_all, history=None)

下图是结果,展示了检测和识别的内容,以及使用千问chat提问的结果:





更多开源

读光团队在工业界和学术界上开源出了一系列的模型,这些模型贯穿了从基础的预训练模型,到核心图文处理模型,再到行业应用模型。具体地,在图像预处理方面开源了证件和票据检测矫正模型。



读光团队会在ModelScope上全栈布局,并将最新的研究成果公开,最终能够促进行业落地。希望这些开源的模型能够在学术界和工业界为大家提供帮助和启迪。

附:读光团队

文字检测模型:

● ICGN:

https://modelscope.cn/models/damo/cv_resnet18_ocr-detection-line-level_damo/summary

● DB:

https://modelscope.cn/models/damo/cv_resnet18_ocr-detection-db-line-level_damo/summary

● DB-轻量化:

https://modelscope.cn/models/damo/cv_proxylessnas_ocr-detection-db-line-level_damo/summary



文字识别模型:

● ConvNextVit-中英:

https://modelscope.cn/models/damo/cv_convnextTiny_ocr-recognition-general_damo/summary

● ConvNextVit-文档:

https://modelscope.cn/models/damo/cv_convnextTiny_ocr-recognition-document_damo/summary

● ConvNextVit-手写:

https://modelscope.cn/models/damo/cv_convnextTiny_ocr-recognition-handwritten_damo/summary

● CRNN-通用:

https://modelscope.cn/models/damo/cv_crnn_ocr-recognition-general_damo/summary

● LightweightEdge-轻量化:https://modelscope.cn/models/damo/cv_LightweightEdge_ocr-recognitoin-general_damo/summary



表格:

● 有线表格:

https://modelscope.cn/models/damo/cv_dla34_table-structure-recognition_cycle-centernet/summary

● 无线表格:

https://modelscope.cn/models/damo/cv_resnet-transformer_table-structure-recognition_lore/summary



卡证:

● 透视矫正:

https://modelscope.cn/models/damo/cv_resnet18_card_correction/summary

点击链接查看更多社区ocr模型实践案例

https://mp.weixin.qq.com/s?__biz=MzkxNTM5NTg2OA==&mid=2247483706&idx=1&sn=52d7d09088569a5c424392e07555feae&chksm=c15e8549f6290c5f5977d3bb93b137f5428e18f1385db4f773ad5753d2f9ccdcada5549531d2&scene=25#wechat_redirect

相关文章
|
5月前
|
人工智能 JSON 文字识别
AI新宠DocExt:纯本地文档抽取,开源免费还无依赖!你还在为OCR头疼吗?
DocExt 是一款开源、免费的本地文档结构化提取工具,无需依赖 OCR 或云端服务,通过视觉语言模型(VLM)实现票据、护照、发票等多类型文档的关键字段与表格识别。支持多页文档处理、置信度量化及本地部署,提供直观的 Gradio Web 界面和灵活的 API 调用方式,适配高隐私场景如金融、医疗等领域。项目参与 IDP Leaderboard 评测,具备零模板限制和多模型支持等优势,是处理敏感文件的理想选择。
1690 0
|
1月前
|
机器学习/深度学习 文字识别 Linux
Umi-OCR_文字识别工具 免安装使用教程(附下载安装包)!永久免费,开源离线OCR识别软件下载
Umi-OCR是一款开源免费、支持离线运行的高精度OCR文字识别工具,基于深度学习技术,可快速识别中文、英文、日文等多种语言。无需联网,保护隐私,适用于Windows和Linux系统,解压即用,操作简便,是处理图片转文本的理想选择。
615 7
|
8月前
|
人工智能 文字识别 异构计算
SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍
SmolDocling 是一款轻量级的多模态文档处理模型,能够将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。
655 1
SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍
|
5月前
|
存储 人工智能 文字识别
Nanonets-OCR-s开源!复杂文档转Markdown SoTA,颠覆复杂文档工作流
Nanonets团队开源了 Nanonets-OCR-s,该模型基于Qwen2.5-VL-3B微调,9G显存就能跑。
676 2
|
7月前
|
存储 人工智能 JSON
传统OCR集体阵亡!Versatile-OCR-Program:开源多语言OCR工具,精准解析表格和数学公式等复杂结构
本文解析开源OCR工具Versatile-OCR-Program的技术实现,其基于多模态融合架构实现90%以上识别准确率,支持数学公式与图表的结构化输出,为教育资料数字化提供高效解决方案。
917 5
传统OCR集体阵亡!Versatile-OCR-Program:开源多语言OCR工具,精准解析表格和数学公式等复杂结构
|
8月前
|
机器学习/深度学习 人工智能 文字识别
Umi-OCR:31K Star!离线OCR终结者!公式+二维码+多语种,开源免费吊打付费
Umi-OCR 是一款免费开源的离线 OCR 文字识别工具,支持截图、批量图片、PDF 扫描件的文字识别,内置多语言识别库,提供命令行和 HTTP 接口调用功能。
713 0
Umi-OCR:31K Star!离线OCR终结者!公式+二维码+多语种,开源免费吊打付费
|
8月前
|
机器学习/深度学习 文字识别 开发者
使用OCR库Pix2Text执行p2t.recognize()时出现list index out of range的错误信息(附有Pix2Text识别图片内容和laTex公式的代码)
有时候报错并不是你代码有问题,源码出错也是很常见的情况,比如之前使用mxgraph也出现了不知名bug,最后也是修改的源码解决的。有疑问欢迎交流~ 博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
|
10月前
|
人工智能 文字识别 API
moonshot-v1-vision-preview:月之暗面Kimi推出多模态视觉理解模型,支持图像识别、OCR文字识别、数据提取
moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型,具备强大的图像识别、OCR文字识别和数据提取能力,支持API调用,适用于多种应用场景。
1189 6
moonshot-v1-vision-preview:月之暗面Kimi推出多模态视觉理解模型,支持图像识别、OCR文字识别、数据提取
|
8月前
|
文字识别 BI API
3.4K star!全能PDF处理神器开源!文档转换/OCR识别一键搞定
PDF-Guru 是一款开箱即用的全能型PDF处理工具,支持跨平台文档转换、智能OCR识别、多格式解析等核心功能。项目采用模块化架构设计,提供简洁的Web界面和API接口,开发者可快速集成到现有系统中。
556 1
|
10月前
|
人工智能 文字识别 自然语言处理
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
Vision Parse 是一款开源的 PDF 转 Markdown 工具,基于视觉语言模型,能够智能识别和提取 PDF 中的文本和表格,并保持原有格式和结构。
1338 19
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式

热门文章

最新文章