多模态产品在智能文档处理应用的展望------以TextIn模型为例

简介: **第十四届VALSE大会在重庆举行,合合信息智能创新事业部研发总监常扬分享了“文档解析与向量化技术”,重点介绍TextIn技术。TextIn解决现有文档解析挑战,如表格解析难题,建立包含数据基建、算法、应用和接入四层架构的文档解析Pipeline。关键技术包括版面分析和文档树引擎,能准确识别文档结构和阅读顺序。TextIn在C-MTEB榜单排名第一,显示其在文本向量化领域的优势,适用于长文档处理和多行业应用,有望推动AI技术进步和产业升级。**



前言

第十四届视觉与学习青年学者研讨会(VALSE 2024)于5月5日-7日在山城重庆渝北区悦来国际会议中心举办。大会聚焦计算机视觉、模式识别、多媒体和机器学习等领域的国际前沿和热点方向。大会中,合合信息智能创新事业部研发总监常扬做了"文档解析与向量化技术加速多模态大模型训练与应用"专题汇报,主要讲解TextIn文档解析技术和高精度文本向量化模型的技术特征。下面为大家分享一下这次报告的主要内容。


发展现状


目前已有的文档解析技术依然面临诸多挑战。例如表格(特别是无线表)无法解析或结果错乱的问题,无法按照阅读顺序解析的问题,或是无法解析扫描版或图片版文档,又或是文档的编码出错误。这一问题严重影响到了大语言模型的训练与输出。因此我们需要文档解析技术能够阅读顺序还原准确、元素识别准确,尤其是表格、段落、公式、标题、识别速度快、支持论文等多种排版文档。


   通常的做法是建立一个独立的文档解析Pipeline,判断文档类型并进行预处理。它主要分为三个部分:


  • 第一个部分将不同类型的文档解析为基础文档表征。


  • 第二个部分将基础文档表征进行处理,如版面分析、跨页合并、节点关系处理,将多元异构不同格式文档输出为可理解的顺序文档。


  • 最后一个部分,将结果输出为markdown。

image.png




    建立文档解析Pipeline的难点在于版面检测。文档元素可能存在遮盖重叠,元素本身形式五花八门,同时文档的版式众多,特别是多栏文档,阅读顺序本就不一样,在插入表格后,情况会变得更为复杂。此外表格造成的困难也是巨大的,无线表格和合并表格使内容难以定位。另外公式的使用也会为识别工作带来挑战。


TextIn 文档解析技术


针对上述问题,合合信息发布了TextIn 相关模型。它采用了四层技术架构:底层是围绕数据相关的基建层;上方的算法层将文档拆分为单页的同时,对每个独立的元素进行解析检测和图像文字的识别;得到文档基础表征后,会进入到应用层,进行文档类型判断,表征整合以及版面的还原,最终还原为一个正常阅读顺序的文本,并通过接入层分发至其他应用。


image.png



    这其中包括两部分核心技术。第一部分是版面分析算法框架。它能够选取合适的流程,将电子档或扫描档解析为独立的元素,再整合成为遵循大模型可理解的阅读顺序的输出。


image.png



第二部分是文档树引擎。通过目录树准确地识别主标题、子标题、子段落、表格标题。


image.png



归功于这两样核心技术,TextIn在双栏、非对称双栏、含表格双栏、无线表格、合并表格层级目录文档的解析上都有出色表现。


image.png

image.png

其他模型

TextIn模型

 

 




文本向量化


除了文本解析技术,TextIn在文本向量化领域也尤为突出。近日,TextIn acge\_text\_embedding 文本向量化模型在 C-MTEB榜单排名第一。同时TextIn模型在多个方面都展现出了明显的优势。相比于传统的预训练或微调垂直领域模型,TextIn模型不仅支持通用分类模型的构建,还能提升长文档信息抽取的精度。此外,该模型的应用成本相对较低,使得大模型能够在多个行业中快速创造价值,推动科技创新和产业升级。在文档问答或知识库问答应用领域都有较强的发展前景。


image.png



展望


合合信息的研究成果为各行业提供了实用的解决方案。合合信息开发出了高效、准确的图像处理算法和工具,为各种应用场景提供了优化的解决方案。这些成果广泛应用于金融、制造业、医疗等领域,极大地提升了效率和精度,并为各行业的发展带来了实际效益。希望合合信息能够持续进行深入的研究探索和技术创新,不断取得更多突破,推动人工智能技术的应用和智能产业的发展。


合合信息


上海合合信息科技股份有限公司致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。它开发的深受全球用户喜爱的C端产品全球累计用户下载超23亿,累计月活约 1.3亿。其中名片全能王和扫描全能王免费版在App Store排行榜上名列前茅。本次合合信息提供了TextIn的专题网站和讨论交流群,感兴趣的小伙伴不要错过!



目录
相关文章
|
5月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
1003 109
|
4月前
|
机器学习/深度学习 人工智能 边缘计算
大模型在医疗领域的应用
🌟蒋星熠Jaxonic,AI开发者,深耕医疗大模型领域。见证代码如何重塑医疗:从影像分析到智能诊断,从药物研发到临床决策。分享技术实践与行业洞察,探索AI赋能健康的时代变革。
大模型在医疗领域的应用
|
4月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
5月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
471 2
|
5月前
|
人工智能 自然语言处理 搜索推荐
携多项成果亮相云栖大会,探索大模型在云通信中的创新应用与全球实践
2025云栖大会云通信分论坛聚焦大模型与云通信融合,阿里云发布智能联络中心2.0与Chat App AI助理,携手伙伴推动通信智能化升级。
480 1
|
4月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
419 120
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
840 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
5月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
1124 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型

热门文章

最新文章