前言:
随着智能手机和移动设备的普及,越来越多的图片被产生,也有越来越多的图片文字识别需求。由于深度学习和图像检测技术的发展,使得上述场景中的文字的检测和识别效果越来越好,使得机器自动识别成为可能,在业务审核中给公司节省了大量的人力。
以下内容根据演讲嘉宾视频分享以及PPT整理而成。
本次主要内容分为三部分:
一.OCR能力简介
二.OCR产品
三.OCR应用
一、OCR能力简介
OCR到底是什么?
其实它就是把图片里面的文字识别出来。为什么OCR突然现在越来越多的场景都要用到它呢?很多人一定听过数据化、智能化?那么怎么把很多的东西变成可用的数据呢,这个就非常的关键。
我们之前在很多法院以及司法机关等,其中的卷宗都是纸质的文档。大家都知道,纸质文档时间久了会褪色,查询的时候也会很麻烦。我们要把所有的文档中的文字提取出来,把这些变成可编辑的数据,这时候才是有价值的,这个才是数据化的第一步。
接着便是智能化。比如说我们过去在银行,如果要登记身份证的信息,那可是要银行的工作人员一个一个手打进去的,但现在很方便了,你只要一扫,所有的信息就可以按要求来输出。
还有一个场景就是——网络监管,现在有很多广告发出来,在发布广告时,不允许出现“最”、“第一”等等。但现在这么多的商家,这么多的图片,不可能依靠人力去一个一个识别,所以也要用到OCR技术,把图片的文字内容识别出来。
这就是OCR应用场景,就是数据化、智能化第一步,整体足够降低50%的人力成本。
从技术的维度做解释:
简单来说,就是文字识别;更深维度就是说 文字理解。
第一步,把文字识别出来。比如这张图片的火车票,把有字的地方定位出来,识别出来。
第二步,很多时候,所有的文字并非都有用,我们需要的也许只是一部分信息。其实也就是说你需要什么信息,需要进行文字理解,然后对应我给你输出什么信息。
目前我们能做的主要包括这么几大类:
卡证类、表单类、汽车相关类识别、资产类证件、通用文字识别、行业文档的识别等等。
这些都是满足客户标准化的需求;当然如果客户有比较特别的需求的话,我们可以输出自定义模板,根据客户的需求来定制。
这是我们阿里云OCR和友商的一个对比,大家也可以自己对比下。
二、OCR产品
OCR整体来说就分为两类,一种是全文识别,另外就是结构化识别。
全文OCR识别:只要识别里面的文字就行了,所有的内容识别起来。我们只做文字定位、识别、提取。
结构化OCR识别:卡针类、发票类,比如其他一些不同的证件,这是要做结构化提取的。
举个例子:
一张司法行业的单子:
1.判断这张图是否旋转
2.内容分类,全文字还是表格类的
3.每个字的坐标确认,识别,输出
结构化:
这是户口页的一张图。全文识别就是把其中所有的内容识别出来,但我们无法判断其中的关系,户主是谁?所以这个时候我们要通过核心的关键字词来判断。
整个步骤如下:
1.提取整个表格
2.文字提取
3.语义空间关系提取
4.通过结构化来输出客户想要的信息
自定义模板
当客户公司有自己的单子,每一家公司的肯定也不一样,这个时候就要用到自定义模板。
- 把你想要的内容标注出来,然后发布
- 接着把数据做调用,看下能否达到你的效果(不一定适用,不合适那就继续改,直到满足自己的模板)
- 通过不断的训练,和模板优化,最后输出自己满意的模板
这是我们自己的一个技术,包括收货凭证、门诊发票以及海外的一些证件,都可以自定义模板来配出来的
和第三方OCR作对比的能力:
- 高准确率:准确率好不好,要依据大量数据,我们有2000亿张图片来进行训练
- 适用性:多用于多种场景下的普适性文字识别
- 高实时性 我们平均耗时100ms
我们OCR目前是支持公共云和专有云的。
如果你们对数据不是特别敏感,我还是建议你们用公共云的方式来调用,因为我们的数据本身是不落盘的,其次我们不用去购买另外的服务器;最后我们线上的版本也在不断优化和更新,对于客户来说,会以最快的速度体验到我们最新的版本。
当然专有云一样,有一些比如像政府、司法、银行,数据绝对不允许外流,他们必须在自己的网络上进行,但专有云有一点要有自己的GPU服务器,其他的我们的交付方式还是性能来说,都一样的,
如果你们需要来测试我们接口的话, 公共云有500次免费的;专有云当然也可以poc测试,只要客户准备好GPU服务器,说明需求,我们可以把做好的“加密狗”寄到他们那来测试,测试完了之后我们再实施部署。
三、OCR应用
公共云客户也非常多,简单举个例子,以物流行业为例。可能会碰到很多司机,来注册我们平台,这时候需要司机来提供身份证、驾驶证供我们来认证,客户就可以通过OCR印刷文字识别来解决这个问题。
专有云目前核心在司法和金融行业。
OCR在司法行业,提供最底层的技术能力,通过很多合作伙伴,联合ISV对外输出。
金融行业:目前在银行用的最多的是“两录一审”的状态,我们录入信息的时候,都是两个人录入,一个人审核,全都是通过人工的方式。现在通过OCR的能力,可以减少一部分人工的成本。
目前专有云上在司法和金融比较成熟的,另外我们也在拓展海关以及医疗的一些场景;公共云我们会把很多通用性的标准的接口输出,让大家用API的方式对接更简单。
这就是今天和大家分享的内容,有问题可以继续提问哈~~
资料链接:
OCR对外客户反馈群 入群方式:
钉钉搜索:11700462