OCR文档自学习初体验

本文涉及的产品
票证核验,票证核验 50次/账号
自定义KV模板,自定义KV模板 500次/账号
车辆物流识别,车辆物流识别 200次/月
简介: 简要讲述什么是OCR文档自学习以及OCR文档自学习模板、信息抽取模型的使用

什么是OCR文档自学习

什么是OCR文档自学习呢?OCR文档自学习,是面向“无算法基础”的企业与个人开发者用户,通过全流程可视化操作,支持用户完成模板配置、数据处理&标注、模型构建&训练、部署发布等操作的一站式工具平台。下面我们开始逐步体验OCR文档自学习创建自定义模板以及信息抽取模型。

自定义模板

打开OCR文档自学习控制台:https://document-automl.console.aliyun.com/automl/intro

点击【我的任务】打开任务列表页

image.png

点击【创建任务】,选择自定义KV模板

image.png

点击【创建】看到提示

image.png

我们还没有开通服务,点击【去开通】跳转到服务开通页面,开通服务之后再次点击创建即可看到任务创建成功页面

image.png

点击【开始创建模板】上传服务清晰度的图片,这里我上传一张电子发票的图片

image.png

上传完成之后点击【下一步】,然后框选四个角的字段

image.png

点击【下一步】配置电子发票识别字段,也就是业务需要的字段

image.png

点击【下一步】上传电子发票验证我们勾选的识别字段是否是对的可以看到字段值位置不太准确,回到上一步重新勾选一下

image.png

再次勾选之后的效果如图

image.png

基本上算是准确了,点击【发布模板并开始API调用】

image.png

自此模板发布成功,可以点击【在线使用】上传电子发票图片检验一下识别效果了。

image.png

同样的方法也可以创建自定义表格模板,大家可以自行尝试。

在自定义KV模板中,在第三步勾选识别字段的时候,位置不够准确,有一部分的偏差,希望后续可以优化一下,具体的情况可以通过截图看出来的。下面我们再来体验一下单证票据信息抽取

单证票据信息抽取

同样的办法需要先创建单证票据信息抽取的任务

image.png

点击【创建】如果提示没有开通服务的话点击【去开通】开通对应的单据票证信息抽取服务,阿里云的产品计费比较精细,企业在选择时完全可以细化公司的业务方向来开通需要的服务,而不需要一次开通全部的服务,这样的设计也可以为企业节约成本开支,还是挺人性化的。下面继续进行单据票证信息抽取

image.png

首先开始上传数据集,上传文件点击【创建】

image.png

点击【标注任务】

image.png

点击【创建标注任务】,这里创建标注任务可以选择【本地文件】【从数据集中选择】

image.png

我们已经创建了数据集,那么我们就直接从数据集中选择【确定】完成之后点击【下一步】

image.png

设置标注字段之后点击【创建】可以看到

image.png

点击【标注】打开标注页面开始表述字段信息

image.png

标注完成之后点击右上角【提交任务】返回到列表页面

image.png

点击【质检】根据实际信息确定标注的是否正确,最后点击【提交任务】

image.png

一段时间后可以看到列表页面显示已完成

image.png

至此单据票证信息抽取的上传数据集及标注数据已经操作完了,在操作过程中对于标注任务创建完成之后没有相关的引导去人工进行标注,导致个人等了挺久时间,以为是会按设定好的字段自动标注,结果最后发现是需要人工标注的,白白耽误了一部分时间,希望后续这块的引导可以丰富一下,方便新手上手使用方便。同样的操作完成电子发票标注02的标注操作

image.png

下面开始继续创建模型操作

image.png

点击【下一步】跳转到数据集绑定页面

image.png

这里训练集选择电子发票标注01数据集,测试集选择电子发票标注02数据集,点击【下一步】提示

image.png

下面我们再根据数据标注的操作添加9个训练集,在创建标注任务时可以选择右上角【使用题目库】

image.png

后续的标注、质检操作无变化,重复操作添加9个数据集,或者也可以在列表页面点击【复制】按钮复制已经标注完成的标注任务,但是这里有一点就是复制过来的标注任务还是会显示待标注状态,需要再次点击【标注】按钮进入标注页面点击【提交任务】之后回到列表页面才会显示质检中状态,希望后期可以丰富一下【复制】按钮的功能,复制完成之后标注状态和质检状态与被复制的标注任务状态一致。另外就是复制的标注任务名称无法修改,希望后期也可以开放修改复制的标注任务名称。还有就是列表页可以增加一个批量质检按钮效果更好哦,比如这样的

image.png

等到所有的标注任务全部质检完成,状态显示为已完成之后

image.png

就可以继续创建我们的模型了,选择训练集和测试集

image.png

点击【下一步】,点击【创建模型】

image.png

可以看到模型中心列表页面显示刚才创建的模型处于训练中

image.png

待模型训练完成之后最后点击【部署】按钮,完成部署之后就可以在线使用,体验模型抽取数据的效果,

操作体验

到此整个OCR文档自学习的主体功能便全部操作完成,大家如果在操作过程中有疑问的话也可以在文章下留言,这里是个人全套测试的体验内容,整体来看我操作过程中对于文档的需求不是很大,功能设计的也比较合理比较容易理解,只是在遇到一些操作中的疑问时回去文档查看,比如标注不是自动化标注,而是需要人工标注的,整体来说,本次体验操作还算流畅,文档内容也足够全面,具体业务场景中遇到的问题以及相应的希望改进的地方,我也在具体的业务中提过了。对于OCR文档自学习功能的用途,个人觉得像文档中提到的KV模板,单据票据,表格,长文档提取等都是有很大应用空间的,作为教育行业,对于固定格式的KV图片内容提取,以及日常报销中的单据票据信息抽取,报销表格内容提取,以及合同或者电子书长文档提取等,都是有应用场景的,整体上来说,对于单据票证信息抽取的体验比较满意,对于标注任务的定位线设计,坐标定位设计感觉很贴心,可以充分的保证所选取内容是自己需要选定的内容,感谢好产品的出现,每一款好产品都离不开无数技术人对产品的精益求精的追求,希望后续可以改进的越来越好,让每一个需要用到OCR文档自学习的开发者都可以不用文档便能轻松操作控制台功能以及API接口调用。


注:文章中图片涉及到的公司名称及纳税人识别号仅为示例数据,勿用于其他非法用途,否则涉及到侵权诉讼问题,本文不承担任何责任。

相关文章
|
5月前
|
文字识别 并行计算 PyTorch
MiniCPM-V 系列模型在多模态文档 RAG 中的应用(无需OCR的多模态文档检索+生成)
现在我们以 OpenBMB 基于 MiniCPM-V-2.0 训练的端到端多模态检索模型 MiniCPM-Visual-Embedding-v0 为例,实现无需OCR的多模态文档检索与问答。
MiniCPM-V 系列模型在多模态文档 RAG 中的应用(无需OCR的多模态文档检索+生成)
|
6月前
|
人工智能 文字识别 Java
印刷文字识别使用问题之识别出的文字如何直接保存到Word文档中进行编辑
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
8月前
|
文字识别 开发工具 数据安全/隐私保护
印刷文字识别产品使用合集之教育场景识别,是否支持以Word文档的形式批量导入题目呢
印刷文字识别(Optical Character Recognition, OCR)技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域,以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。
|
人工智能 文字识别 自然语言处理
Nougat:一种用于科学文档OCR的Transformer 模型
随着人工智能领域的不断进步,其子领域,包括自然语言处理,自然语言生成,计算机视觉等,由于其广泛的用例而迅速获得了大量的普及。光学字符识别(OCR)是计算机视觉中一个成熟且被广泛研究的领域。它有许多用途,如文档数字化、手写识别和场景文本识别。数学表达式的识别是OCR在学术研究中受到广泛关注的一个领域。
320 0
|
文字识别 API 语音技术
百度语音技术:文字识别转化为语音在线API和PHP-SDK开发文档的学习
百度语音技术:文字识别转化为语音在线API和PHP-SDK开发文档的学习
111 0
|
8月前
|
机器学习/深度学习 人工智能 文字识别
通用场景OCR文本识别任务-baseline学习(PaddleOCR)
通用场景OCR文本识别任务-baseline学习(PaddleOCR)
294 0
|
文字识别 数据安全/隐私保护 开发者
《开发者评测》之OCR文档自学习评测获奖名单
OCR文档自学习评测活动获奖名单出炉啦!
|
存储 文字识别 Java
OCR技术大揭秘:纸质文档数字化的新选择
随着数字化和信息化的快速发展,OCR 技术逐渐成为处理大量纸质或电子文档的主要手段之一,具有广泛的应用前景。 本文将从OCR 技术的关键技术点、应用、优缺点以及推荐优秀的应用API 等角度给大家讲述OCR 相关的内容。
228 0
|
6月前
|
人工智能 文字识别 开发工具
印刷文字识别使用问题之是否支持识别并返回文字在图片中的位置信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
6月前
|
人工智能 JSON 文字识别
印刷文字识别使用问题之如何数电发票进行识别
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

热门文章

最新文章