【OCR】企业实现全面“数据化”转型,这么做数据才有价值!

本文涉及的产品
小语种识别,小语种识别 200次/月
教育场景识别,教育场景识别 200次/月
文档理解,结构化解析 100页
简介: 随着智能手机和移动设备的普及,越来越多的图片被产生,也有越来越多的图片文字识别需求。由于深度学习和图像检测技术的发展,使得上述场景中的文字的检测和识别效果越来越好,使得机器自动识别成为可能,在业务审核中给公司节省了大量的人力

前言:

随着智能手机和移动设备的普及,越来越多的图片被产生,也有越来越多的图片文字识别需求。由于深度学习和图像检测技术的发展,使得上述场景中的文字的检测和识别效果越来越好,使得机器自动识别成为可能,在业务审核中给公司节省了大量的人力。

以下内容根据演讲嘉宾视频分享以及PPT整理而成。
本次主要内容分为三部分:

一.OCR能力简介
二.OCR产品
三.OCR应用

一、OCR能力简介

OCR到底是什么?
image

其实它就是把图片里面的文字识别出来。为什么OCR突然现在越来越多的场景都要用到它呢?很多人一定听过数据化、智能化?那么怎么把很多的东西变成可用的数据呢,这个就非常的关键。
image

我们之前在很多法院以及司法机关等,其中的卷宗都是纸质的文档。大家都知道,纸质文档时间久了会褪色,查询的时候也会很麻烦。我们要把所有的文档中的文字提取出来,把这些变成可编辑的数据,这时候才是有价值的,这个才是数据化的第一步。

接着便是智能化。比如说我们过去在银行,如果要登记身份证的信息,那可是要银行的工作人员一个一个手打进去的,但现在很方便了,你只要一扫,所有的信息就可以按要求来输出。
image

还有一个场景就是——网络监管,现在有很多广告发出来,在发布广告时,不允许出现“最”、“第一”等等。但现在这么多的商家,这么多的图片,不可能依靠人力去一个一个识别,所以也要用到OCR技术,把图片的文字内容识别出来。

这就是OCR应用场景,就是数据化、智能化第一步,整体足够降低50%的人力成本。

从技术的维度做解释:
简单来说,就是文字识别;更深维度就是说 文字理解。
image

第一步,把文字识别出来。比如这张图片的火车票,把有字的地方定位出来,识别出来。
第二步,很多时候,所有的文字并非都有用,我们需要的也许只是一部分信息。其实也就是说你需要什么信息,需要进行文字理解,然后对应我给你输出什么信息。

目前我们能做的主要包括这么几大类:
image

卡证类、表单类、汽车相关类识别、资产类证件、通用文字识别、行业文档的识别等等。
这些都是满足客户标准化的需求;当然如果客户有比较特别的需求的话,我们可以输出自定义模板,根据客户的需求来定制。
image

这是我们阿里云OCR和友商的一个对比,大家也可以自己对比下。

二、OCR产品

OCR整体来说就分为两类,一种是全文识别,另外就是结构化识别。

image

全文OCR识别:只要识别里面的文字就行了,所有的内容识别起来。我们只做文字定位、识别、提取。

结构化OCR识别:卡针类、发票类,比如其他一些不同的证件,这是要做结构化提取的。

举个例子:
一张司法行业的单子:
1.判断这张图是否旋转
2.内容分类,全文字还是表格类的
3.每个字的坐标确认,识别,输出

结构化:
image

这是户口页的一张图。全文识别就是把其中所有的内容识别出来,但我们无法判断其中的关系,户主是谁?所以这个时候我们要通过核心的关键字词来判断。

整个步骤如下:
1.提取整个表格
2.文字提取
3.语义空间关系提取
4.通过结构化来输出客户想要的信息

自定义模板
当客户公司有自己的单子,每一家公司的肯定也不一样,这个时候就要用到自定义模板。
image

  1. 把你想要的内容标注出来,然后发布
  2. 接着把数据做调用,看下能否达到你的效果(不一定适用,不合适那就继续改,直到满足自己的模板)
  3. 通过不断的训练,和模板优化,最后输出自己满意的模板
    image

这是我们自己的一个技术,包括收货凭证、门诊发票以及海外的一些证件,都可以自定义模板来配出来的
image

和第三方OCR作对比的能力:

  1. 高准确率:准确率好不好,要依据大量数据,我们有2000亿张图片来进行训练
  2. 适用性:多用于多种场景下的普适性文字识别
  3. 高实时性 我们平均耗时100ms

我们OCR目前是支持公共云和专有云的。
image

如果你们对数据不是特别敏感,我还是建议你们用公共云的方式来调用,因为我们的数据本身是不落盘的,其次我们不用去购买另外的服务器;最后我们线上的版本也在不断优化和更新,对于客户来说,会以最快的速度体验到我们最新的版本。
当然专有云一样,有一些比如像政府、司法、银行,数据绝对不允许外流,他们必须在自己的网络上进行,但专有云有一点要有自己的GPU服务器,其他的我们的交付方式还是性能来说,都一样的,
如果你们需要来测试我们接口的话, 公共云有500次免费的;专有云当然也可以poc测试,只要客户准备好GPU服务器,说明需求,我们可以把做好的“加密狗”寄到他们那来测试,测试完了之后我们再实施部署。

三、OCR应用

公共云客户也非常多,简单举个例子,以物流行业为例。可能会碰到很多司机,来注册我们平台,这时候需要司机来提供身份证、驾驶证供我们来认证,客户就可以通过OCR印刷文字识别来解决这个问题。

专有云目前核心在司法和金融行业。
image

OCR在司法行业,提供最底层的技术能力,通过很多合作伙伴,联合ISV对外输出。

金融行业:目前在银行用的最多的是“两录一审”的状态,我们录入信息的时候,都是两个人录入,一个人审核,全都是通过人工的方式。现在通过OCR的能力,可以减少一部分人工的成本。

目前专有云上在司法和金融比较成熟的,另外我们也在拓展海关以及医疗的一些场景;公共云我们会把很多通用性的标准的接口输出,让大家用API的方式对接更简单。

这就是今天和大家分享的内容,有问题可以继续提问哈~~

资料链接:

PPT下载
ET体验馆
官方demo

OCR对外客户反馈群 入群方式:
钉钉搜索:11700462

目录
相关文章
|
4月前
|
JSON 文字识别 数据格式
文本,文识11,解析OCR结果,paddOCR返回的数据,接口返回的数据有code,data,OCR返回是JSON的数据,得到JSON数据先安装依赖,Base64转换工具网站在21.14
文本,文识11,解析OCR结果,paddOCR返回的数据,接口返回的数据有code,data,OCR返回是JSON的数据,得到JSON数据先安装依赖,Base64转换工具网站在21.14
文本,文识11,解析OCR结果,paddOCR返回的数据,接口返回的数据有code,data,OCR返回是JSON的数据,得到JSON数据先安装依赖,Base64转换工具网站在21.14
|
4月前
|
文字识别 Java
文本,文字识别12,接口返回值和异常封装,一个好的接口,应该包括,错误码,提示信息,返回的数据,应该知道出错,错在哪里,抛出业务异常应该怎样解决?出现业务异常的时候,抛出业务异常,全局异常处理
文本,文字识别12,接口返回值和异常封装,一个好的接口,应该包括,错误码,提示信息,返回的数据,应该知道出错,错在哪里,抛出业务异常应该怎样解决?出现业务异常的时候,抛出业务异常,全局异常处理
|
4月前
|
人工智能 JSON 文字识别
印刷文字识别使用问题之demo无法获取正常的数据,该怎么办
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
4月前
|
文字识别 监控 算法
印刷文字识别使用问题之调用次数数据怎么导出
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5月前
|
文字识别
印刷文字识别产品使用合集之 识别营业执照时,如果企业名称中有中英文括号,请问是统一转换为英文括号返回还是按实际的括号类型返回
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5月前
|
文字识别 API
印刷文字识别产品使用合集之怎么识别消毒产品生产企业卫生许可证
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5月前
|
人工智能 JSON 文字识别
印刷文字识别操作报错合集之口算判题AI能力(文字识别OCR)接口返回数据的时,不显示正确答案只判断对错吗
在使用印刷文字识别(OCR)服务时,可能会遇到各种错误。例如:1.Java异常、2.配置文件错误、3.服务未开通、4.HTTP错误码、5.权限问题(403 Forbidden)、6.调用拒绝(Refused)、7.智能纠错问题、8.图片质量或格式问题,以下是一些常见错误及其可能的原因和解决方案的合集。
|
6月前
|
人工智能 文字识别
阿里云的 口算判题 AI能力(文字识别OCR)接口 返回数据的时候 没有正确答案只有 对错吗?
阿里云的 口算判题 AI能力(文字识别OCR)接口 返回数据的时候 没有正确答案只有 对错吗?
229 0
|
文字识别 开发工具 Python
Python编程:通过百度文字识别提取表格数据
Python编程:通过百度文字识别提取表格数据
177 0
Python编程:通过百度文字识别提取表格数据
|
机器学习/深度学习 算法
MXNet之CNN:自定义CNN-OCR算法训练车牌数据集(umpy.ndarray格式数据)的模型实现一张新车牌照片字符预测
MXNet之CNN:自定义CNN-OCR算法训练车牌数据集(umpy.ndarray格式数据)的模型实现一张新车牌照片字符预测
MXNet之CNN:自定义CNN-OCR算法训练车牌数据集(umpy.ndarray格式数据)的模型实现一张新车牌照片字符预测

热门文章

最新文章

  • 1
    【Python】已解决:Python正确安装文字识别库EasyOCR
    456
  • 2
    提升爬虫OCR识别率:解决嘈杂验证码问题
    131
  • 3
    文本,文字识别14,身份证和车牌识别接口
    29
  • 4
    文本,文字识别13,参数校验,实现参数校验,使用@Valid注解
    27
  • 5
    文本,文字识别12,接口返回值和异常封装,一个好的接口,应该包括,错误码,提示信息,返回的数据,应该知道出错,错在哪里,抛出业务异常应该怎样解决?出现业务异常的时候,抛出业务异常,全局异常处理
    37
  • 6
    文本,文识11,解析OCR结果,paddOCR返回的数据,接口返回的数据有code,data,OCR返回是JSON的数据,得到JSON数据先安装依赖,Base64转换工具网站在21.14
    101
  • 7
    文本,文识10,springBoot提供RestTemplate以调用Flask OCR接口,调用flask实现ocr接口,用paddleocr进行图片识别云服务技术,单个paddleocr接口有影响
    93
  • 8
    文本,文识08图片保存()上,最方便在于整体生成代码,serivce及实体类,base64编码保存图片文件,调用flask实现内部ocr接口,通过paddleocr识别,解析结果,base64转图片
    45
  • 9
    文本,文字识别07,SpringBoot服务开发-入参和返回值,编写接口的时候,要注意识别的文字返回的是多行,因此必须是List集合,Bean层,及实体类的搭建
    49
  • 10
    文本,文字识别,Flask实现内部接口开发,OCR外部接口的开发,如何开发一个识别接口,通过post调用,参数是图片的路径,内部调用,直接传图片路径就行
    64
  • 下一篇
    无影云桌面