旷视Face++人工智能开放平台上线自定义模板文字识别功能 实用教程看这里

本文涉及的产品
个人证照识别,个人证照识别 200次/月
OCR统一识别,每月200次
教育场景识别,教育场景识别 200次/月
简介: 传统OCR对于没有制作对应模板的票据、卡证只能按行返回识别结果,因此容易产生误识与格式错误,增加了数据录入与处理的难度。为了破解传统OCR识别与卡证识别的困局,Face++人工智能开放平台上线自定义模板文字识别功能,通过自助的模板制作,生成识别规则,配合自动分类功能,实现自动化、便捷化的数据获取与录入。

传统OCR对于没有制作对应模板的票据、卡证只能按行返回识别结果,因此容易产生误识与格式错误,增加了数据录入与处理的难度;而单一的卡证识别只能获得某一类型的识别结果。为了破解传统OCR识别与卡证识别的困局,Face++人工智能开放平台上线自定义模板文字识别功能,通过自助的模板制作,生成识别规则,配合自动分类功能,实现自动化、便捷化的数据获取与录入。

自定义文字模版功能

Face++平台的自定义模板文字识别,提供高精度、普适的格式化文本识别服务,支持各类票据、文书、卡证等识别。用户通过简单的标注创建专属自己的模板后,便可通过API接口批量识别同类图片内容信息,获得定义好的输出结果,满足用户的个性化OCR需求。自定义模板文字识别功能在传统卡证审核、信息录入等行业应用广泛,大幅度降低了人力和时间成本,帮助带来更高效和优质的服务。

技术亮点

1、无需设置识别域参考点

现有的OCR技术必须通过设置参考点、辅助线找到字段位置。而Face++人工智能开放平台提供的业内独家技术无需手动设置参考点,简化了模板制作步骤,上手更容易更省时。

2、有效应对任意角度图片

通常我们在上传待识别图片时,必须手动调整图片角度,费时费力。而Face++人工智能开放平台的算法能针对各角度图片自适应,支持任意旋转的图片识别与同等优质的结果输出,节省上传时间,从细节处优化用户体验。

3、多种模板识别能力突出

Face++人工智能开放平台算法支持多类型票据、文书、卡证等识别,其中北京社保卡、顺丰快递单、电子发票识别效果尤为突出。

功能演示

1、在批量识别同一类型的卡证之前,首先您需要制作一个通用模板。在官网技术能力“自定义模板文字识别”页面中点击“立即体验”,即可进入制作页面。


2、进入模板制作页,点击“新建模板”。

图注:演示人员为虚假身份

3、选择您希望识别的类型(此处以识别北京社保卡为例),进入制作页面。

除了推荐模板,您还可以通过“空白模板”建立您需要识别的模板类型。只需上传一张图片作为示例,即可同样进入制作页面。

4、进入社保卡模板制作页面,选取识别域。

什么是识别域呢?通俗来讲,指需要识别的字段,例如图中被选中的字段“乐乐”、“女”、“汉”、“199934日”、“210204199903045789”、“122510100000”。

如果您还希望识别图片上的更多字段,比如文字信息“社会保障号码”,只需选中该部分即可创建一个新识别域(如下图)。如果不小心勾选错误,可以直接删除。

当您创建完成后,务必填写右侧的“字段名称”及“字段类型”。“字段名称”是为了区分每个字段代表的含义,“字段类型”是为了定义字段的属性范围,给予算法指示。显然,您既定的范围越精细,算法得到的指示就越清晰,识别准确率也就越高。

如果您未找到合适的字段类型,还可以自由创建:

请注意:新建字段类型相当于由您制定的一套新规则,因此返回的识别结果也间接由您限定。假设您需要识别员工卡号,那么您需要在“字段值”处提供所有员工卡号,保障返回的结果是其中一个数字,否则结果将为空值或返回错误。

如果您无法判断字段的属性,选择“常规”类型即可。填好信息后如图:

5、完成这一步,点击“发布模板”,您已经成功建立一个专属模板。

6、回到模板界面,点击“测试模板”开始进行测试。

7、上传图片测试效果,仅支持jpg, jpeg, png, bmp格式,不支持PDF等格式。同时建议您尽量上传清晰、背景干净、角度端正的图片。测试结果如图:

如果您在测试过程中遇到任何识别问题,欢迎通过Face++人工智能开放平台在线智能客服提交反馈!

8、现在,您可以根据API文档指示进行批量调用啦。

相关文章
|
3月前
|
机器学习/深度学习 人工智能 文字识别
Kimi 上线视觉思考模型,K1 系列强化学习模型正式开放,无需借助外部 OCR 处理图像与文本进行思考并回答
k1视觉思考模型是kimi推出的k1系列强化学习AI模型,具备端到端图像理解和思维链技术,能够在数学、物理、化学等领域表现优异。本文详细介绍了k1视觉思考模型的功能、技术原理、使用方法及其在多个应用场景中的表现。
313 68
Kimi 上线视觉思考模型,K1 系列强化学习模型正式开放,无需借助外部 OCR 处理图像与文本进行思考并回答
|
27天前
|
人工智能 自然语言处理 物联网
阿里万相重磅开源,人工智能平台PAI一键部署教程来啦
阿里云视频生成大模型万相2.1(Wan)重磅开源!Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势,轻松实现高质量的视频生成。同时,万相还支持业内领先的中英文文字特效生成,满足广告、短视频等领域的创意需求。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署阿里万相重磅开源的4个模型,可获得您的专属阿里万相服务。
|
1月前
|
文字识别 Serverless 开发工具
【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名
学校和教育机构常需处理成绩单、报名表等PDF文件。通过OCR技术,可自动提取学生信息并录入Excel,便于统计分析和存档管理。本文介绍使用阿里云服务实现批量OCR识别、内容提取、重命名及导出表格的完整步骤,包括开通相关服务、编写代码、部署函数计算和设置自动化触发器等。提供Python示例代码和详细操作指南,帮助用户高效处理PDF文件。 链接: - 百度网盘:[链接](https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866) - 腾讯网盘:[链接](https://share.weiyun.com/a77jklXK)
87 5
|
1月前
|
人工智能 编解码 文字识别
谷歌放大招!多模态模型PaliGemma 2 Mix上线:通吃问答+OCR+检测等多项视觉理解任务,28B参数无需额外加载模型
PaliGemma 2 Mix 是谷歌DeepMind发布的多任务视觉语言模型,支持图像描述、OCR、目标检测等功能,适用于文档理解、科学问题解答等场景。
83 2
|
9月前
|
文字识别 算法
印刷文字识别产品使用合集之开通了阿里云发票识别验真功能,其他人可以调用我的这个接口吗
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
4月前
|
机器学习/深度学习 存储 人工智能
政务部门人工智能OCR智能化升级:3大技术架构与4项核心功能解析
本项目针对政务服务数字化需求,建设智能文档处理平台,利用OCR、信息抽取和深度学习技术,实现文件自动解析、分类、比对与审核,提升效率与准确性。平台强调本地部署,确保数据安全,解决低质量扫描件、复杂表格等痛点,降低人工成本与错误率,助力智慧政务发展。
|
7月前
|
机器学习/深度学习 文字识别 前端开发
基于 Spring Boot 3.3 + OCR 实现图片转文字功能
【8月更文挑战第30天】在当今数字化信息时代,图像中的文字信息越来越重要。无论是文档扫描、名片识别,还是车辆牌照识别,OCR(Optical Character Recognition,光学字符识别)技术都发挥着关键作用。本文将围绕如何使用Spring Boot 3.3结合OCR技术,实现图片转文字的功能,分享工作学习中的技术干货。
438 2
|
8月前
|
文字识别 Java API
印刷文字识别使用问题之发票凭证识别功能是否可以对接ERP系统
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
8月前
|
文字识别 API
印刷文字识别使用问题之如何进行自定义KV模版的操作
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
8月前
|
文字识别
印刷文字识别使用问题之自定义模板功能在什么地方
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

热门文章

最新文章