文字识别OCR 就这种格式 我希望能得到单位:编号:单独key 的对应值,需要用那种识别?
自定义KV模版:https://help.aliyun.com/document_detail/603348.html?spm=a2c4g.603347.0.0.54f55e3fqQqsUe
【适用于业务数据样本少(少于20张),经过配置调优的模板识别准确率可达85%+】
单据票证信息抽取:https://help.aliyun.com/document_detail/603350.html?spm=a2c4g.603348.0.0.760c5f34pAufCt
【在图像质量较好情况下,通过100+训练样本标注,调优后模型识别准确率可超95%+】
按需测试 都有500次免费额度-此回答整理自钉群“【官方】阿里云OCR公共云客户交流群”
您可以使用OCR文本识别技术中的关键字识别功能,来提取指定关键字的对应值。具体操作步骤如下:
首先,您需要确定需要提取的关键字,例如"单位"、"编号"、"单独key"等。
然后,使用OCR技术对文本进行识别,获取文本的识别结果。
对识别结果进行关键字匹配,找到关键字对应的位置和内容。
提取关键字对应的值,例如"单位"对应的值为"ABC公司","编号"对应的值为"123456","单独key"对应的值为"789"等。
如果你希望从OCR识别结果中提取单位、编号和单独的键值对,你可以使用基于自然语言处理(NLP)的技术来完成这个任务。OCR工具本身主要用于识别文字,而提取特定的字段则需要进一步的处理。
下面是一个示例的处理流程:
使用OCR工具进行文字识别:首先,使用OCR工具对待处理的文档或图像进行文字识别,获得原始的识别结果。
文本清理和预处理:对识别结果进行清理和预处理,例如去除无关字符、修正识别错误等。
文本分析和提取:使用自然语言处理技术(如正则表达式、命名实体识别、关键词提取等),针对单位、编号和键值对进行文本分析和提取。这可以通过编写代码或使用相应的NLP库和工具来实现。
单位和编号提取:根据你的需求,确认单位和编号的规则或特征,并使用相应的文本分析技术来提取它们。例如,可以使用正则表达式匹配特定的文本模式,或者使用命名实体识别技术来识别特定的单位名称。
键值对提取:同样,根据你的需求,使用适当的文本分析技术来提取键值对。这可能涉及到识别特定的键(如"编号")和相应的值,并将它们匹配成对。
您好,读光OCR识别接口均支持图片格式数据,包括:.jpg/.jpeg/.png/.bmp./gif./tiff./webp,请注意图片大小不超过10M,最短边大于15像素,最长边不超过8192像素;
支持PDF|PDF格式接口:增值税发票识别、混贴发票识别、火车票识别、航空行程单识别、定额发票识别、通用机打发票识别、增值税发票卷票识别
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。