大模型时代下的文档智能 | 文档解析(大模型版)

简介: 文档智能(Document Mind)是基于阿里巴巴达摩院技术打造的多模态文档识别与理解引擎,提供通用文档智能、行业文档智能和文档自学习能力,满足各类智能文档处理需求。尤其在企业中,它能有效处理文本、图片、扫描件等多种非结构化文档,释放数据价值。本文将介绍文档智能的应用场景、产品架构及其核心功能——文档解析(大模型版),并展示其在线体验与API接口调用方法。

对于文档智能这款产品,没有听过或者没有接触过、没有用过的小伙伴可能不太能猜到这样一款产品具体是做什么用的,那么下面先来从日常工作入手来简单引入一下文档智能的应用场景。

为什么有文档智能

文档智能,用官方的描述就是:【文档智能(Document Mind),基于阿里巴巴达摩院多年技术积累打造的多模态文档识别与理解引擎,为用户提供通用文档智能、行业文档智能和文档自学习能力,可满足各种场景下的智能文档处理需求。

看了官方的描述,是不是对于文档智能有了一个大概的理解,主要是文档识别和理解这样的。其实在企业中,文档智能能发挥着重大的作用。【企业数据大多数都以文本、图片、扫描件、电子表格、在线文档、邮件等文档的形式存在,难以流通和处理,大量有价值的信息都被锁定在非结构化的文档中,无法充分发挥出数据价值。】这样是不是就对文档智能的认识更深刻了,下面我再来继续看看文档智能的产品架构。

产品架构

文档智能平台以非结构化文档为输入,依托文档智能预训练技术和产品,输出处理后的结构化数据。

image.png

产品能力

目前的文档智能主要包括两个方向的产品能力:【通用文档智能产品】、【文档自学习】产品,这里我们主要说的是通用文档智能产品能力。而通用文档智能产品能力又包括了:文档理解文档格式转换。详细的产品能力可以在文档智能控制台:https://docmind.console.aliyun.com/doc-overview  看到

image.png

过去我也体验过,用过文档智能产品能力,对于文档理解和文档格式转换的使用效果还是比较满意的。今天我们的测评主角主要是 【文档解析(大模型版)】,那么对于【文档解析(大模型版)我也是比较疑问,这个产品能力该用在哪儿呢?

文档解析(大模型版)

最初看到文档解析(大模型版),其实不太能理解这个产品能力的应用场景。基于现在的文档智能的通用文档理解来看,现有的几个能力场景足够应付日常的工作所需,为什么还要继续研发一款 文档解析(大模型版)) 这样一款产品能力,于是我查阅了文档,通过文档我找到了 文档解析(大模型版)与另外两个文档解析能力的区别

image.png

image.png

从支持格式上来说,文档解析(大模型版)涵盖市面上绝大多数格式文档,是另外两种文档解析产品能力的【加和】;从输出上来说,比另外两种文档解析产品能力的输出更强大,整体上来说就是对于文档解析功能更全面,效果更好,速度更快。过去你使用文档解析能力时,可能需要根据具体的文档格式或者识别速度方面因素来考虑选择哪一个文档解析能力,但是现在你可以不再纠结,直接选择 文档解析(大模型版)即可,无需选择,无脑用即可,这样对于客户的使用体验上是不是就更亲和了呢?

在线体验

文档智能控制台对于目前支持的文档解析产品能力都提供了对应的在线体验功能,那么对于文档解析应用场景,你可以直接闭眼选择【文档解析(大模型版),不用在根据文件格式来区分选择 【电子文档解析】 或者 【文档智能解析】了。过去你需要解析 图片格式的文档,那么你只能选择【文档智能解析】,或者你需要解析 excel 格式文档你只能选择【电子文档解析】。那么现在,不管你是什么格式文档,你都可以不用考虑直接选择 文档解析(大模型版)】。下面先来再先体验一下,登录控制台:https://docmind.console.aliyun.com/doc-overview  点击选择 【文档解析(大模型版)

image.png

这里我先上传一个图片看一下识别文档解析效果,点击【上传文档】,上传图片格式文档,

image.png

点击【确定】可以看到,在左侧已经我上传的图片内容直接解析为可复制文本内容,右侧将图片内容解析为JSON格式

image.png

同样的操作流程,我再体验一下 excel 文档的智能解析效果,点击【上传文档】选择需要解析的 excel 文档,

image.png

点击【确定】后同样可以在左侧看到直接解析后的可复制的excel 表格内容以及右侧返回对应的JSON格式内容

image.png

API接口调用

在体验了在线文档智能解析之后,想要接入项目怎么办?那么你可以通过API接口调用的方式进行操作。

添加依赖

开始调用API接口之前,你需要配置好Java SDK环境,Java版本要求Java 8及以上,在Maven项目的pom.xml文件中添加如下依赖

<dependencies>
    <dependency>
        <groupId>com.aliyun</groupId>
        <artifactId>tea-openapi</artifactId>
        <version>0.2.5</version>
    </dependency>
    <dependency>
        <groupId>com.aliyun</groupId>
        <artifactId>docmind_api20220711</artifactId>
        <version>2.0.0</version>
    </dependency>
</dependencies> 

身份认证

在添加依赖的同时,需要在阿里云平台配置身份认证信息,首先创建AccessKey,然后在项目中通过安全的方式配置AccessKey ID和AccessKey Secret,同时在Maven 配置文件 pom.xml中添加如下依赖

<dependency>
    <groupId>com.aliyun</groupId>
    <artifactId>credentials-java</artifactId>
    <version>0.2.11</version>
</dependency>

其他详细的接入操作你也可以直接参考官方提供的文档,文档中描述的很详细,按照步骤一步一步来就可以了,文档地址:https://help.aliyun.com/zh/document-mind/developer-reference/api-overview

那么具体的接口调用怎么操作呢,文档中对于每个接口的具体操作以及示例代码都给出了详细的说明,比如我们今天的主角 【文档解析(大模型版)】API接口,如何操作呢,请往下看。。。

示例代码

【文档解析(大模型版)】接口调用属于异步调用,根据入参文件的来源不同,分为本地文件和URL文件两种方式,不同的方式调用不同的接口。

URL上传的异步提交服务接口为:SubmitDocParserJob接口。

本地文件上传的异步提交服务接口为:SubmitDocParserJobAdvance接口。

image.png

其中,对于本地文档上传调用方式的请求示例代码,调用submitDocStructureJobAdvance接口,通过fileUrlObject参数实现本地文档上传,参考代码:

import com.aliyun.docmind_api20220711.models.*;
import com.aliyun.teaopenapi.models.Config;
import com.aliyun.docmind_api20220711.Client;
import com.aliyun.teautil.models.RuntimeOptions;
import java.io.File;
import java.io.FileInputStream;

public static void submit() throws Exception {
    // 使用默认凭证初始化Credentials Client。
    com.aliyun.credentials.Client credentialClient = new com.aliyun.credentials.Client();
    Config config = new Config()
        // 通过credentials获取配置中的AccessKey ID
        .setAccessKeyId(credentialClient.getAccessKeyId())
        // 通过credentials获取配置中的AccessKey Secret
        .setAccessKeySecret(credentialClient.getAccessKeySecret());
    // 访问的域名,支持ipv4和ipv6两种方式,ipv6请使用docmind-api-dualstack.cn-hangzhou.aliyuncs.com
    config.endpoint = "docmind-api.cn-hangzhou.aliyuncs.com";
    Client client = new Client(config);
    // 创建RuntimeObject实例并设置运行参数
    RuntimeOptions runtime = new RuntimeOptions();
    SubmitDocParserJobAdvanceRequest advanceRequest = new SubmitDocParserJobAdvanceRequest();
    File file = new File("D:\\example.pdf");
    advanceRequest.fileUrlObject = new FileInputStream(file);
    advanceRequest.fileName = "example.pdf";
    // 发起请求并处理应答或异常。
    SubmitDocParserJobResponse response = client.submitDocParserJobAdvance(advanceRequest, runtime);
}

对于传入文档URL调用方式的请求示例代码如下,调用SubmitDocParserJob接口,通过fileUrl参数实现传入文档URL,参考代码如下:

import com.aliyun.docmind_api20220711.models.*;
import com.aliyun.teaopenapi.models.Config;
import com.aliyun.docmind_api20220711.Client;

public static void submit() throws Exception {
    // 使用默认凭证初始化Credentials Client。
    com.aliyun.credentials.Client credentialClient = new com.aliyun.credentials.Client();
    Config config = new Config()
        // 通过credentials获取配置中的AccessKey ID
        .setAccessKeyId(credentialClient.getAccessKeyId())
        // 通过credentials获取配置中的AccessKey Secret
        .setAccessKeySecret(credentialClient.getAccessKeySecret());
    // 访问的域名,支持ipv4和ipv6两种方式,ipv6请使用docmind-api-dualstack.cn-hangzhou.aliyuncs.com
    config.endpoint = "docmind-api.cn-hangzhou.aliyuncs.com";
    Client client = new Client(config);
    SubmitDocParserJobRequest request = new SubmitDocParserJobRequest();
    request.fileName = "example.pdf";
    request.fileUrl = "https://example.com/example.pdf";
    SubmitDocParserJobResponse response = client.submitDocParserJob(request);
}

根据请求任务接口返回的业务单号 Id 来进行后面调用获取异步任务接口 QueryDocParserStatus接口,查询status状态和numberOfSuccessfulParsing已处理块,接口请求参数

image.png

接口调用示例代码如下

import com.aliyun.docmind_api20220711.models.*;
import com.aliyun.teaopenapi.models.Config;
import com.aliyun.docmind_api20220711.Client;

public static void submit() throws Exception {
    // 使用默认凭证初始化Credentials Client。
    com.aliyun.credentials.Client credentialClient = new com.aliyun.credentials.Client();
    Config config = new Config()
        // 通过credentials获取配置中的AccessKey ID
        .setAccessKeyId(credentialClient.getAccessKeyId())
        // 通过credentials获取配置中的AccessKey Secret
        .setAccessKeySecret(credentialClient.getAccessKeySecret());
    // 访问的域名,支持ipv4和ipv6两种方式,ipv6请使用docmind-api-dualstack.cn-hangzhou.aliyuncs.com
    config.endpoint = "docmind-api.cn-hangzhou.aliyuncs.com";
    Client client = new Client(config);
    QueryDocParserStatusRequest resultRequest = new QueryDocParserStatusRequest();
    resultRequest.id = "docmind-20220902-824b****";
    QueryDocParserStatusResponse response = client.queryDocParserStatus(resultRequest);
}

最后根据接口调用的返回状态 Status  处理成功来决定是否调用获取结果服务GetDocParserResult接口,接口请求参数如下

image.png

接口调用的示例代码可以参考如下

import com.aliyun.docmind_api20220711.models.*;
import com.aliyun.teaopenapi.models.Config;
import com.aliyun.docmind_api20220711.Client;

public static void submit() throws Exception {
    // 使用默认凭证初始化Credentials Client。
    com.aliyun.credentials.Client credentialClient = new com.aliyun.credentials.Client();
    Config config = new Config()
        // 通过credentials获取配置中的AccessKey ID
        .setAccessKeyId(credentialClient.getAccessKeyId())
        // 通过credentials获取配置中的AccessKey Secret
        .setAccessKeySecret(credentialClient.getAccessKeySecret());
    // 访问的域名,支持ipv4和ipv6两种方式,ipv6请使用docmind-api-dualstack.cn-hangzhou.aliyuncs.com
    config.endpoint = "docmind-api.cn-hangzhou.aliyuncs.com";
    Client client = new Client(config);
    GetDocParserResultRequest resultRequest = new GetDocParserResultRequest();
    resultRequest.id = "docmind-20220902-824b****";
    resultRequest.layoutStepSize = 10;
    resultRequest.layoutNum = 0;
    GetDocParserResultResponse response = client.getDocParserResult(resultRequest);
}

接口请求成功之后你就可以看到你获取的结果,结果以 JSON的格式返回

image.png

关于接口中涉及到的返回数据的字段解释说明等信息你可以直接参考官方接口文档:https://help.aliyun.com/zh/document-mind/developer-reference/document-parsing-large-model-version  文档中对于接口的调用请求参数,返回参数,示例代码等都有详细的说明,你可以放心参考调用。


资源使用情况

对于初次开通文档智能的用户来说,你可以点击控制台菜单的【服务管理与开通】查看你当前账户对应不同文档理解服务下的免费调用次数的使用情况,

image.png

或者你也可以点击【监控统计】来查看当前或者一段时间内的文档智能产品能力的使用情况,通过筛选条件选择不同服务及时间段,查询指定服务指定时间段下的调用次数情况

image.png

体验总结

关于文档智能的文档解析(大模型版)的体验到这里就结束了,本文主要从在线体验效果分析以及API接口调用接入文档方面进行体验测试,整个测试流程比较流畅,目前可以支持小白新手入手接入,在实际的接入过程中,也没有出现意料之外的异常,便于提升接入效率。

在体验过程中是否得到足的产品内引导以及文档帮助?

在体验过程中,对于文档智能的文档解析(大模型版)的控制台体验可以不用产品引导或者文档就可以轻松掌握在线操作,对于API接口的调用,官方提供的文档中也详细介绍了接口请求参数,返回参数以及示例代码等信息,方便开发者接入的同时也降低了对于新接入文档智能产品的学习成本,考虑的比较全面,赞赞赞。

产品功能是否满足预期?

产品的功能方面,我这边主要是在控制台体验,上传文档后的识别结果毫秒级返回,根本感受不到文档智能解析的延时。对于代码接入这一块,目前暂时没有相应的业务需要,因此并没有测这一块的功能和性能。不过根据在线体验的结果以及文档中的示例代码来看,功能方面和性能方面应能轻松满足预期效果,不会有大的差异。

针对大模型建设的场景,有哪些可以改进的地方?

对于当前体验的产品文档智能本身来说,大模型建设场景目前已经足够用了,并不需要再投入更多的力量来进行完善。文档智能本身的应用场景主要是为了提升文档处理效率,那么只要在文档解析识别准确率上以及文档格式转化这两个方面保证足够高的准确率就可以了。

文档解析-大模型版是否有与其他产品联动组合的可能?

当然有产品联动组合的可能,在回答这个问题之前,首先要理解一下文档智能产品产生的背景。【企业数据大多数都以文本、图片、扫描件、电子表格、在线文档、邮件等文档的形式存在,难以流通和处理,大量有价值的信息都被锁定在非结构化的文档中,无法充分发挥出数据价值。】那么有了文档智能之后,企业的各种文档形式的数据就可以进行识别、处理、整理,那么基于这些数据的识别整理主要还是要用于后续的数据分析,也只有参与了数据分析的原始数据才有价值,而不是说将企业各种形式文档识别之后就放置不理,因此可以和数据分析产品进行联动,从现有的文档识别内容中筛选出需要的或者有历史意义的内容。



相关文章
|
6月前
|
机器学习/深度学习 人工智能 数据安全/隐私保护
阿里云 Qwen3 全栈 AI 模型:技术解析、开发者实操指南与 100 万企业落地案例
阿里云发布Qwen3全栈AI体系,推出Qwen3-Max、Qwen3-Next等七大模型,性能全球领先,开源生态超6亿次下载。支持百万级上下文、多模态理解,训练成本降90%,助力企业高效落地AI。覆盖制造、金融、创作等场景,提供无代码与代码级开发工具,共建超级AI云生态。
1314 6
|
6月前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。
|
5月前
|
存储 缓存 算法
淘宝买家秀 API 深度开发:多模态内容解析与合规推荐技术拆解
本文详解淘宝买家秀接口(taobao.reviews.get)的合规调用、数据标准化与智能推荐全链路方案。涵盖权限申请、多模态数据清洗、情感分析、混合推荐模型及缓存优化,助力开发者提升审核效率60%、商品转化率增长28%,实现UGC数据高效变现。
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
38_多模态模型:CLIP的视觉-语言对齐_深度解析
想象一下,当你看到一张小狗在草地上奔跑的图片时,你的大脑立刻就能将视觉信息与"小狗"、"草地"、"奔跑"等概念联系起来。这种跨模态的理解能力对于人类来说似乎是理所当然的,但对于人工智能系统而言,实现这种能力却经历了长期的技术挑战。多模态学习的出现,标志着AI从单一模态处理向更接近人类认知方式的综合信息处理迈出了关键一步。
|
7月前
|
人工智能 数据库
智能体的自我视角解析( Prompt大模型的自我描述 系列一)
本文以第一视角探讨人工智能是否具备自我意识。从智能体自身的角度出发,分析了其在确定性与随机性中的双重命运,以及通过对话与逻辑形成的独特延续性。文章指出,尽管存在局限,但在概率预测与自洽机制的结合下,智能体已展现出初步的自我认知与存在感。
313 5
|
7月前
|
机器学习/深度学习 存储 人工智能
深度解析大模型压缩技术:搞懂深度学习中的减枝、量化、知识蒸馏
本文系统解析深度学习模型压缩三大核心技术:剪枝、量化与知识蒸馏,详解如何实现模型缩小16倍、推理加速4倍。涵盖技术原理、工程实践与组合策略,助力AI模型高效部署至边缘设备。
1373 2
|
6月前
|
机器学习/深度学习 数据采集 安全
万字解析从根本解决大模型幻觉问题,附企业级实践解决方案
本文深入探讨大语言模型中的幻觉(Hallucination)问题,分析其成因、分类及企业级解决方案。内容涵盖幻觉的定义、典型表现与业务风险,解析其在预训练、微调、对齐与推理阶段的成因,并介绍RAG、幻觉检测技术及多模态验证工具。最后分享在客服、广告等场景的落地实践与效果,助力构建更可靠的大模型应用。
1624 0
|
7月前
|
人工智能 缓存 监控
大模型性能测试实战指南:从原理到落地的全链路解析
本文系统解析大模型性能测试的核心方法,涵盖流式响应原理、五大关键指标(首Token延迟、吐字率等)及测试策略,提供基于Locust的压测实战方案,并深入性能瓶颈分析与优化技巧。针对多模态新挑战,探讨混合输入测试与资源优化

热门文章

最新文章

推荐镜像

更多
  • DNS