一文上手文档智能Document Mind

本文涉及的产品
个人证照识别,个人证照识别 200次/月
票据凭证识别,票据凭证识别 200次/月
文档理解,结构化解析 100页
简介: 简要讲述文档智能Document Mind以及文档智能的功能测试

什么是文档智能

什么是文档智能?文档智能(Document Mind),是基于阿里巴巴达摩院多年技术积累打造的多模态文档识别与理解引擎,为用户提供通用文档智能、行业文档智能和文档自学习能力,可满足各种场景下的智能文档处理需求。

那么怎么简单理解一下呢?直接上效果图,看一下效果

image.png可以看到除了正确的识别出图片中的文字,文档的层级结构也完美识别了,是不是很强大!

文档智能适用场景

文档智能的适用场景是很丰富的,就个人日常工作中接触的文档来说,日常工作中经常会用到截图、合同照片、扫描件等的文字识别,也会用到在招投标、法律文书、合同等企业文档中进行场景化智能文档处理以及各种文档格式的转换,比如PDF转Word/Excel、图片转Word/Excel/PDF等多种场景,因而文档智能的适用场景还是很广泛的,那么下面我带大家来体验一把牛批的文档识别和智能转换...

文档智能基础操作

文档智能控制台地址:https://docmind.console.aliyun.com/doc-overview,没有开通文档智能服务的同学需要先开通一下文档智能服务

image.png

这里有一点需要注意的就是文档智能服务不是一个服务,是分为【文档理解】和【文档格式转换】两个服务分别开启,这样更方便企业根据需要开通自己需要的服务,精细化成本管理,节约成本。

文档理解

这里我先开通了文档理解服务,然后体验一下文档理解的功能。

文档智能解析

文档智能解析是进行通用文档解析,从文档中提取出逻辑层级结构、文本内容、表格内容、Key-Value键值字段、样式信息等。基于对文档的内容信息、版面信息和逻辑信息的分析理解,以结构化数据的形态输出抽取结果,下面看一下效果

image.png

这里可以看到识别前和识别后的文字准确度以及文档格式都在,非常适合我们日常工作中识别格式化文档的期待。

这里我们在对比一下OCR识别的效果如图

image.png

识别的内容没有问题,只是文档的格式就丢失了,相对于对文档格式要求较高的需求就显得略显不足了。

表格智能解析

表格智能解析是进行通用表格解析,从表格中提取出表格样式、表格内容、文本KV、表格KV等。基于对表格的内容信息、版面信息和逻辑信息的分析理解,以结构化数据的形态输出抽取结果,下面看一下效果

image.png

可以看到表格智能解析返回的表格结构和截图的完全一致,只是表格智能解析只会解析截图中的表格,而对于表格之外的文字并没有解析,这可能会是一点缺憾,毕竟不管是电子文档还是扫描文件,文档内容都不一定会是单一的文字或者表格,而会是混搭的。

下面再看一下OCR解析的效果

image.png

这里可以看到OCR表格识别不但识别出了表格内容,也识别出了表格外的内容,但是唯一的一点还是没有文档格式,只是单纯的文字识别。

文档抽取

文档抽取是进行文档关键信息抽取,对各种类型的文档和表格中的关键信息进行智能化抽取,返回Key-Value内容。既包括文本段落中的KV字段,也包括表格中的KV字段,下面看一下效果图

image.png

可以看到文档抽取是以key-value的方式对文档中的文本内容以及表格内容都进行了抽取,格式明了,方便解析 。在体验了文档理解的内容后下面我们再看一下文档格式转换的内容,毕竟经常也是会遇到的。

文档格式转换

PDF转Word

下面我们直接看一下效果图

image.png

这里我的pdf文档转换前一共是7页,但是转换后只有4页,并且其中的文字格式以及文字大小都发生了变化,

image.png

个人推测应该是因为pdf中后面几页内容不是文字,而是图片,因此在pdf转word的过程中丢失了。另外就是有的pdf文件可以正常打开,但是在上传的时候却会提示说文件损坏

image.png

不知道是什么原因,下面再看看图片转word

图片转Word

看一下效果图

image.png

我们来看一下图片内容是否转换成功

image.png

可以看到图片转word可以说很成功,内容完全在,只是文字颜色和字体大小有点不是很满意。

PDF转Excel

下面再看一下pdf转excel,看一下效果

image.png

转换后的效果如图

image.png

这里需要说明一点就是pdf转Excel,首先需要pdf的内容是表格格式的,这样转换出来的效果才会是图中的效果,虽然也是发生结构错行,但是大体可以识别,如果pdf的内容不是表格格式的,那转换出来的东西基本没有参考价值。

图片转Excel

看一下图片转excel的效果

image.png

下面看一下转换成excel后的效果

image.png

整体内容都有了,并且也是excel格式的,算是比较成功的。

PDF转图片

看下效果图

image.png

转换成图片后

image.png

整体pdf转图片完全没有任何问题,转换之后的图片格式内容完全正确。

文档智能总结及感受

在使用文档智能过程中,对于文档理解的功能来说,个人觉得可以完全适用于当前公司所涉及到的相关的文档识别功能,较于文字识别OCR技术来说,可以说是OCR技术的进一步升级,除了文字识别,文档智能还综合运用自然语言处理、图像处理、电子文档解析、文档预训练模型等多种技术,处理非固定版式且规则样式变化的多种格式文档,而文字识别只能处理固定版式的图片。这就是技术的一大升级进步。

当然适用过程中也遇到一些小问题:

表格智能解析在使用过程中,对于非表格的内容直接选择丢弃,这个可能会不利于当前功能的推广,毕竟文档的解析,除了格式,内容也很重要,并且内容也会很混杂,除了包含文本内容,还会包含表格,因此解析应考虑到整体文本内容及表格的全部格式。

pdf转word的过程中,有的pdf可以正常打开,但是却无法上传完成转换,而对于pdf中的图片内容,转换成word之后图片内容会丢失,希望后面也能充分考虑的文档内容的丰富性进行优化。

pdf转excel的过程中,前提是pdf内的内容是excel,转换完成之后的excel格式才不会相差很大,如果pdf内容不是excel,那么转换之后的结果就没有参考价值了。

整体对于文档智能Document Mind服务使用感受还是不错的,毕竟日常工作中也会用到各种各样的格式转换功能,过去都是通过格式工厂的工具转换,以后就多了一个选择,并且不用下载软件很方便,但是希望后续对文档格式转换类型可以更丰富一下,在目前支持的文档格式的转换都增加成互转模式,这样功能就会更加强大,总之还是感谢阿里云提供这么好的产品,后续期待更好的完善和推广,感谢!

相关文章
|
12天前
|
API 数据安全/隐私保护 UED
文档智能(Document Intelligence)与检索增强生成(Retrieval-Augmented Generation, RAG)
文档智能(Document Intelligence)与检索增强生成(Retrieval-Augmented Generation, RAG)
32 1
|
1月前
|
存储 人工智能 自然语言处理
文档智能(Document Mind)服务体验测评
一文带你详细了解文档智能(Document Mind)
96 1
文档智能(Document Mind)服务体验测评
|
2月前
|
存储 自然语言处理 文字识别
文档智能(Document Mind)评测报告
评测主题:文档解析(大模型版)能力最佳实践测评 & 服务体验评测
|
2月前
|
自然语言处理 文字识别 数据可视化
文档智能(Document Mind)评测
文档智能(Document Mind)评测
57 6
|
2月前
|
自然语言处理 文字识别 数据可视化
文档智能(Document Mind)评测
文档智能(Document Mind)评测
47 3
|
达摩院 文字识别 算法
|
5天前
|
人工智能 JSON API
阿里云文档智能 & RAG解决方案:提升AI大模型业务理解与应用
阿里云推出的文档智能 & RAG解决方案,旨在通过先进的文档解析技术和检索增强生成(RAG)方法,显著提升人工智能大模型在业务场景中的应用效果。该方案通过文档智能(Document Mind)技术将非结构化文档内容转换为结构化数据,提取文档的层级树、样式和版面信息,并输出为Markdown和Json格式,为RAG提供语义分块策略。这一过程不仅解决了文档内容解析错误和切块丢失语义信息的问题,还优化了输出LLM友好的Markdown信息。方案的优势在于其多格式支持能力,能够处理包括Office文档、PDF、Html、图片在内的主流文件类型,返回文档的样式、版面信息和层级树结构。
35 2
|
19天前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG 让AI大模型更懂业务 —— 阿里云LLM知识库解决方案评测
随着数字化转型的深入,企业对文档管理和知识提取的需求日益增长。阿里云推出的文档智能 & RAG(Retrieval-Augmented Generation)解决方案,通过高效的内容清洗、向量化处理、精准的问答召回和灵活的Prompt设计,帮助企业构建强大的LLM知识库,显著提升企业级文档管理的效率和准确性。
|
22天前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
《文档智能 & RAG让AI大模型更懂业务》解决方案基于文档智能技术和检索增强生成(RAG)方法,通过结构化企业内部文档并结合实时检索,显著提升了大模型对业务内容的理解能力。方案在金融、法律、医疗等行业的应用表现出色,但在大规模文档管理和个性化定制方面仍有改进空间。部署文档详细但需增加更多排错指导。
|
3天前
|
人工智能 JSON 自然语言处理
基于文档智能&RAG搭建更懂业务的AI大模型
本文介绍了一种结合文档智能和检索增强生成(RAG)技术,构建强大LLM知识库的方法。通过清洗文档内容、向量化处理和特定Prompt,提供足够的上下文信息,实现对企业级文档的智能问答。文档智能(Document Mind)能够高效解析多种文档格式,确保语义的连贯性和准确性。整个部署过程简单快捷,适合处理复杂的企业文档,提升信息提取和利用效率。