【LLM落地应用实战】LLM + TextIn文档解析技术实测

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介: 文档解析技术是从这些海量且复杂的数据中高效准确地提取有价值信息的关键。它从输入文档图像开始,经过图像处理、版面分析、内容识别和语义理解等流程,最终输出结构化电子文档或语义信息。通过文档解析技术,我们能够深入理解文档的结构、内容和主题,使得信息更易于检索、分析和利用。

赋予机器类人的多模态信息解析能力是实现通用人工智能的一大基石。

一、现有大模型文档解析的挑战

1.1、文档解析技术流程

随着信息化和数字化的飞速发展,我们每天都面临着包括财务报表、商业合同、技术报告等海量的文档数据。从研究价值的角度来看,这些文档不仅蕴含了各行业处理内外部事务的详尽细节和深厚的知识积累,更汇聚了丰富的行业相关实体和数字信息。而在形式上,这些文档则呈现出多元化的复杂性,如双栏排版、手写字体、印章标记、有线表格与无线表格等元素的交织,使得文档解析和信息提取成为一项极具挑战和价值的任务。

文档解析技术是从这些海量且复杂的数据中高效准确地提取有价值信息的关键。它从输入文档图像开始,经过图像处理版面分析内容识别语义理解等流程,最终输出结构化电子文档或语义信息。通过文档解析技术,我们能够深入理解文档的结构、内容和主题,使得信息更易于检索、分析和利用。其中:

  • 图像处理:将文档从原始形式转换为可处理的数字数据,包括去除文档中的噪声和失真、图像矫正、文本抽取以及框线去除等。
  • 版面分析:确定文档中各个元素的位置、大小和关系,如文本、图片、表格等。包括物理版面分析(页面分割,包括区域分割与分类、文本检测/定位、文本行分割)和逻辑版面分析(区域语义分类、阅读顺序)。
  • 内容识别:识别文档中的具体内容,如文字、表格、图表等,将文档中的文字转换为计算机可处理的文本,以及表格和图像的识别,进而进行进一步的分析和处理。
  • 语义理解:理解文档的语义信息,即文档中所表达的意义和内容,包括理解文档中的语言结构、语义关系和逻辑连接,提取出特定的信息元素,并识别文档中不同部分之间的关联和逻辑关系。

1.2、LLM + 文档解析技术挑战

现如今,以ChatGPT为代表的先进大语言模型(LLM)已经能够胜任复杂的自然语言处理任务。将LLM与文档解析技术相结合,不仅能够显著提升文档解析的准确性和效率,还能挖掘出更广阔的应用场景,降低文档理解的门槛,从而有力推动自然语言处理领域的蓬勃发展。

尽管当前国内外的大模型纷纷加入了文档解析功能,然而,在对照文档解析的四个关键步骤(图像处理、版面分析、内容识别、语义理解)时,这些大模型并未展现出无懈可击的解决能力。

它们在实际应用中仍然面临着一定的挑战和限制,下面我们使用LLM对文档解析中的一些经典问题进行分析:

图像处理难题——图像倾斜矫正

 下面,我们尝试将一段具有倾斜角度的文档图片输入到LLM中,如下图所示,由于文档图像存在显著的倾斜度,LLM在自动进行图像倾斜矫正时遇到了困难,导致了内容解析的失败。这一挑战凸显了当前LLM在图像预处理和矫正方面仍面临一定的困难。

版面分析难题——逻辑结构识别

在下图所示的示例中,我们尝试将一篇具有无线有线混排的表格文档输入给LLM中,并就其中的“AdaBoost需要使用到的特征”进行提问,可以发现,在使用大模型自带的解析时,找到的信息与原始文档相悖,这一错误信息无疑给用户带来严重的误导。

内容识别难题——公式识别解析

数学公式,作为文本中独特的元素,通常融合了文字和符号,呈现出复杂的二维结构关系。在识别这些公式时,不仅需要对构成其基础的文字和符号进行精确识别,还需深入分析这些元素之间的二维结构,准确描述它们之间的关系。

在如下图示的案例中,我们将一篇包含中等难度公式的文档输入到LLM中,希望它能协助总结节点定位误差的公式。尽管LLM输出了相应的公式,但仔细观察后不难发现,该公式明显缺少一个关键的根号,产生一定的误导。这一疏忽表明,LLM在结构化符号和图形识别方面仍有待提高,在处理数学公式这类具有严格结构和逻辑的文本元素时,其准确性和完整性仍需进一步加强。

语义理解难题——阅读顺序推断

语义理解阶段的核心任务是识别并理解文档中不同部分之间的内在关联和逻辑关系。在原始文档中,“把握跨境支付数据取得与流量数据价值定位的主动权”这一关键论点与第⑦篇《大力增强支付产业国际竞争力》之间存在明确的对应关系。

而当我们将此文档输入到LLM系统时,它未能按照人类的思维逻辑来正确解析和展示文档内容。相反,其错误地编造了一篇文献作为回应,这凸显了当前LLM在语义理解,尤其是阅读顺序与逻辑关联推断方面的不足。

二、TextIn文档解析实测流程

针对以上痛点,合合信息凭借其强大的研发实力,成功自研出TextIn文档解析技术。该技术深度融合了文字识别、计算机图形图像技术以及智能图像处理引擎,使得纸质文档或图片中的文字信息能够迅速、精准地转化为计算机易于处理的文本格式。目前,TextIn平台已经开放了通用文档解析的试用权限和API调试接口,任何开发者都可以注册账号并开通使用。

2.1、网页在线调用效果

首先进入TextIn官网:https://www.textin.com/console/recognition/robot_struct?service=pdf_to_markdown

选择1千页的套餐进行试用。

点击开通试用,然后进入工作台,找到已开通机器人-公有云API-通用文档解析-在线使用。

进入网页后,上传一份检索报告的扫描件,可以看到,TextIn通用文档解析能够精准地识别扫描件中的表格元素。不论是简单的单行表格还是复杂的跨页表格,它都能准确地捕捉并创建出结构清晰、布局合理的电子表格,还能将单元格的内容一一对应解析,确保数据项都被准确无误地提取。

不仅如此,它还能够将解析结果导出为Markdown或JSON格式。Markdown格式的输出具有直观性和编辑便捷性,特别适用于解析结果的查看、修改及后续处理。而JSON格式在数据交换中具有相当的通用性和易用性,它能够与主流数据处理软件或平台无缝对接,确保数据的流畅交换和共享。通过这两种格式的输出选项,我们可以将解析结果直接应用于数据分析和处理,并且能够轻松实现与其他系统的数据交换和集成。

2.2、本地API调试效果实测

除了在线调用,TextIn通用文档解析还提供了API调试与示例代码,首先点击API集成,进入API文档。

API文档给出了请求头、URL参数、请求体说明、响应体说明和错误码说明,包括必要的认证信息、内容类型、清晰的示例和说明、字段的含义和格式。

这里我使用JS设计一个简单的demo,其中onload事件处理函数用于获取读取到的文件数据(ArrayBuffer),XMLHttpRequest对象向服务器发送数据后,onreadystatechange事件处理函数检查请求的readyState属性并对返回内容进行解析,主要核心代码如下:

<!DOCTYPE html>
<html lang="zh-CN">
<head>
  <meta charset="UTF-8">
  <title>文档解析演示</title>
</head>
<body>
  <div class="container">
    <h2>上传文件</h2>
    <div class="file-upload">
      <input type="file" id="fileInput">
      <label for="fileInput">选择文件</label>
    </div>
  </div>
  <script>
    document.querySelector('#fileInput').addEventListener('change', function (e) {
      var file = e.target.files[0];
      var reader = new FileReader();
      reader.readAsArrayBuffer(file);
      reader.onload = function (e) {
        var fileData = this.result;
        var xhr = new XMLHttpRequest();
        var appId = '4956***********************f0';
        var secretCode = '10be2*********************c18';
        var url = 'https://api.textin.com/ai/service/v1/pdf_to_markdown';
        xhr.open('POST', url);
        xhr.setRequestHeader('x-ti-app-id', appId);
        xhr.setRequestHeader('x-ti-secret-code', secretCode);
        console.log("loading")
        xhr.onreadystatechange = function () {
          if (xhr.readyState === 4) {
            var response = xhr.response;
            var obj = {};
            try {
              obj = JSON.parse(response);
            } catch (e) {
              console.error('Error parsing JSON response:', e);
            }
            console.log("success")
            console.log(obj.result)
            if (obj.result && obj.result.item_list && obj.result.item_list.length > 0) {
              console.log(obj.result.item_list);
            }
          }
        };
        xhr.send(fileData);
      };
    });
  </script>
</body>
</html>

实际使用时,只需要点击选择文件,然后上传需要解析的PDF或图片,在右侧就会打印出对应的解析结果。

2.3、初步实践——基于TextIn文档解析 + Kimi的智能文档解析助手

文档解析技术以其精湛的技能,致力于将多样化格式的文档转化为计算机易于理解和操作的文本格式。而强大的大型语言模型则以其卓越的能力,能够深入理解和把握不同文本格式的上下文脉络,精准捕捉文本中蕴含的深层语义,从而生成更加贴合用户需求的下游任务输出。

那么,我不禁思考:是否有可能将TextIn文档解析API与LLM的语言理解能力巧妙结合,打造出一个高效且强大的文档处理流程?话不多说,让我们立即付诸实践。

首先,我们调用TextIn文档解析API,将原本难以直接使用的文档(如PDF和图片格式)转化为计算机易于理解的信息,选择输出Markdown或JSON格式的文档内容,为后续的数据分析和处理提供清晰、结构化的数据支持。

接下来,我们将TextIn API生成的Markdown数据或JSON数据作为输入传递给LLM,本次实践选用了moonshot的Kimi。通过这一步骤,我们为Kimi提供了丰富的结构化数据,使其能够深入分析文档内容,并为后续处理提供更为全面和准确的上下文支持。

最后利用LLM的能力,对输入的JSON数据进行处理,根据特定的业务场景和用户需求,我们可以让LLM执行一系列高级任务,如生成摘要、提取关键信息、分类总结等。

以下图的乡村旅游热度季节变化规律为例,我们可以将包含乡村旅游数据的JSON文件输入给LLM。LLM会利用其深度学习和自然语言处理的能力,分析这些数据,识别出乡村旅游热度的季节性趋势和变化规律,基于这些分析,生成一份详尽的分析报告,包含乡村旅游热度的季节分析、未来趋势预测以及相应的建议或策略,从而为乡村旅游的决策者提供有价值的参考,帮助规划和管理乡村旅游资源,提升游客的满意度和体验。

通过以上体验,可以看到,TextIn文档解析API以其卓越的性能为我们提供了强大的文档解析工具,而Kimi智能文档助手则以其对文本深层语义的精准捕捉和理解能力,进一步提升了文档内容的下游任务处理水平,结合两者,不仅打破了传统文档处理的局限,还可以实现对文档更深层次的理解和处理,并且能够应对各种类型文档处理需求。

想象一下,当你面对一堆繁杂的PDF文件、图片或扫描件时,你不再需要逐页翻阅、手动输入或依赖低效的OCR工具,而是可以借助TextIn文档解析 + LLM将其迅速转化为结构化的文本数据,进而提取关键信息、生成摘要、分类归档,甚至进行更复杂的文本挖掘和数据分析。

如果你对智能图像处理、文字表格识别、文档内容提取感兴趣,那么我强烈推荐你前往TextIn的官方网站进行亲身体验。让TextIn成为你文档处理的得力助手,让智能化、高效化的文档解析成为你工作的新常态吧!


相关文章
|
22天前
|
存储 缓存 算法
HashMap深度解析:从原理到实战
HashMap,作为Java集合框架中的一个核心组件,以其高效的键值对存储和检索机制,在软件开发中扮演着举足轻重的角色。作为一名资深的AI工程师,深入理解HashMap的原理、历史、业务场景以及实战应用,对于提升数据处理和算法实现的效率至关重要。本文将通过手绘结构图、流程图,结合Java代码示例,全方位解析HashMap,帮助读者从理论到实践全面掌握这一关键技术。
69 13
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
100 10
|
6天前
|
自然语言处理 文字识别 数据处理
多模态文件信息抽取:技术解析与实践评测!
在大数据和人工智能时代,企业和开发者面临的挑战是如何高效处理多模态数据(文本、图像、音频、视频)以快速提取有价值信息。传统方法效率低下,难以满足现代需求。本文将深度评测阿里云的多模态文件信息抽取解决方案,涵盖部署、应用、功能与性能,揭示其在复杂数据处理中的潜力。通过自然语言处理(NLP)、计算机视觉(CV)、语音识别(ASR)等技术,该方案助力企业挖掘多模态数据的价值,提升数据利用效率。
22 4
多模态文件信息抽取:技术解析与实践评测!
|
18天前
|
物联网 调度 vr&ar
鸿蒙HarmonyOS应用开发 |鸿蒙技术分享HarmonyOS Next 深度解析:分布式能力与跨设备协作实战
鸿蒙技术分享:HarmonyOS Next 深度解析 随着万物互联时代的到来,华为发布的 HarmonyOS Next 在技术架构和生态体验上实现了重大升级。本文从技术架构、生态优势和开发实践三方面深入探讨其特点,并通过跨设备笔记应用实战案例,展示其强大的分布式能力和多设备协作功能。核心亮点包括新一代微内核架构、统一开发语言 ArkTS 和多模态交互支持。开发者可借助 DevEco Studio 4.0 快速上手,体验高效、灵活的开发过程。 239个字符
193 13
鸿蒙HarmonyOS应用开发 |鸿蒙技术分享HarmonyOS Next 深度解析:分布式能力与跨设备协作实战
|
17天前
|
自然语言处理 搜索推荐 数据安全/隐私保护
鸿蒙登录页面好看的样式设计-HarmonyOS应用开发实战与ArkTS代码解析【HarmonyOS 5.0(Next)】
鸿蒙登录页面设计展示了 HarmonyOS 5.0(Next)的未来美学理念,结合科技与艺术,为用户带来视觉盛宴。该页面使用 ArkTS 开发,支持个性化定制和无缝智能设备连接。代码解析涵盖了声明式 UI、状态管理、事件处理及路由导航等关键概念,帮助开发者快速上手 HarmonyOS 应用开发。通过这段代码,开发者可以了解如何构建交互式界面并实现跨设备协同工作,推动智能生态的发展。
125 10
鸿蒙登录页面好看的样式设计-HarmonyOS应用开发实战与ArkTS代码解析【HarmonyOS 5.0(Next)】
|
2天前
|
数据采集 XML API
深入解析BeautifulSoup:从sohu.com视频页面提取关键信息的实战技巧
深入解析BeautifulSoup:从sohu.com视频页面提取关键信息的实战技巧
|
9天前
|
域名解析 负载均衡 安全
DNS技术标准趋势和安全研究
本文探讨了互联网域名基础设施的结构性安全风险,由清华大学段教授团队多年研究总结。文章指出,DNS系统的安全性不仅受代码实现影响,更源于其设计、实现、运营及治理中的固有缺陷。主要风险包括协议设计缺陷(如明文传输)、生态演进隐患(如单点故障增加)和薄弱的信任关系(如威胁情报被操纵)。团队通过多项研究揭示了这些深层次问题,并呼吁构建更加可信的DNS基础设施,以保障全球互联网的安全稳定运行。
|
9天前
|
缓存 网络协议 安全
融合DNS技术产品和生态
本文介绍了阿里云在互联网基础资源领域的最新进展和解决方案,重点围绕共筑韧性寻址、赋能新质生产展开。随着应用规模的增长,基础服务的韧性变得尤为重要。阿里云作为互联网资源的践行者,致力于推动互联网基础资源技术研究和自主创新,打造更韧性的寻址基础服务。文章还详细介绍了浙江省IPv6创新实验室的成立背景与工作进展,以及阿里云在IPv6规模化部署、DNS产品能力升级等方面的成果。此外,阿里云通过端云融合场景下的企业级DNS服务,帮助企业构建稳定安全的DNS系统,确保企业在数字世界中的稳定运行。最后,文章强调了全链路极致高可用的企业DNS解决方案,为全球互联网基础资源的创新提供了中国标准和数字化解决方案。
|
6天前
|
存储 缓存 人工智能
深度解析CPFS 在 LLM 场景下的高性能存储技术
本文深入探讨了CPFS在大语言模型(LLM)训练中的端到端性能优化策略,涵盖计算端缓存加速、智能网卡加速、数据并行访问及数据流优化等方面。重点分析了大模型对存储系统的挑战,包括计算规模扩大、算力多样性及数据集增长带来的压力。通过分布式P2P读缓存、IO加速、高性能存算通路技术以及智能数据管理等手段,显著提升了存储系统的吞吐量和响应速度,有效提高了GPU利用率,降低了延迟,从而加速了大模型的训练进程。总结了CPFS在AI训练场景中的创新与优化实践,为未来大模型发展提供了有力支持。
|
9天前
|
缓存 边缘计算 网络协议
深入解析CDN技术:加速互联网内容分发的幕后英雄
内容分发网络(CDN)是现代互联网架构的重要组成部分,通过全球分布的服务器节点,加速网站、应用和多媒体内容的传递。它不仅提升了访问速度和用户体验,还减轻了源站服务器的负担。CDN的核心技术包括缓存机制、动态加速、流媒体加速和安全防护,广泛应用于静态资源、动态内容、视频直播及大文件下载等场景,具有低延迟、高带宽、稳定性强等优势,有效降低成本并保障安全。
42 3

热门文章

最新文章

推荐镜像

更多