文档智能跟OCR有啥区别?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
文档智能是OCR(光学字符识别)技术的进一步升级。传统OCR主要针对固定版式下的文字识别,难以应对复杂情况。文档智能能够分析各种随机版式,识别文档中的层级和结构关系,甚至理解复杂的表格。由于任务复杂多样,文档智能一直是业界公认的高难度技术之一。 文档智能除了文字识别,文档智能还综合运用自然语言处理、图像处理、电子文档解析、文档预训练模型等多种技术,实现对PDF/Word/Excel/图片等各类非结构化和半结构化文档的智能自动化处理。相较于文字识别只能处理固定版式的图片,文档智能技术能处理非固定版式且规则样式变化的多种格式文档。