通义智文:文档应用赋能千行百业

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
视觉智能开放平台,分割抠图1万点
NLP 自学习平台,3个模型定制额度 1个月
简介: 通义智文是阿里巴巴推出的大规模文档处理技术体系,旨在提升生产力效率。最初作为阅读工具发布,现已发展为涵盖文档解析、理解、生成等多方面的技术平台。通义智文支持超长文档处理、多模态文本解析,并在法律、教育等领域提供专业服务。其创新算法如VGT版面分析和Layout-LM多模态模型,显著提升了文档处理精度。应用场景包括PPT创作、故事绘本生成及法律文书审查等,赋能千行百业。

在大模型的应用领域里,生产力的效率的提升是最重要的场景之一,而在效率提升的过程当中,文档又是最大的一个载体。在平时的学习和工作中,每天都会接触和处理大量的文档,所以本次分享的主题是通义智文,文档赋能千行百业。在去年的云栖大会上,第一次发布了通义智文,当时还是阅读工具,相信很多朋友都用过通义智文做论文的阅读。


经过这一年时间的持续迭代和发展,今天的通义智文已经不局限在一个阅读的工具,而是发展成为了一整个文档大模型的技术体系,我们希望用这个体系能赋能更广泛的应用场景。比如说面向c端的应用和用户,我们在通义APP和通义的效率工具上接入了通义智文的能力做了一个全面的提升。我们可以在一系列的文件应用场景上给用户提供服务,包括面向图书、论文、听书、网页和PPT的理解和生成。同时我们也在探索面向低端客户的一系列的行业和场景,包括我们在一个超长文档大模型Qwen-long上,我们可以去支持通用文档的多文档和长文档的一些应用。


在通义法睿法律领域的大模型应用上,我们可以支持更加专业的法律文书,包括合同和裁判文书以及在通义享密这个智能客服领域上大模型应用上,我们可以支持企业内部大量知识的文档和政策的文档。我们也在继续的探索更多的文章的应用场景,我们希望有文档这样的技术来赋能千行百业。为了支持广泛的文章的应用场景,我们也积累了一套文档处理的技术,包括文档的总结、摘要、纠错、问答、改写、润色、阅读和多文档的处理,同时我们也在用户的一个场景最广泛、价值比较大、更有挑战的三个方向在持续的做攻克,包括文档深度的理解,深度的创作以及文档结构化的抽取。那在下一层是我们的文档的一些基础技术,包括我们基于Qwen-long的大模型可以提供一系列包括超长文本的处理、多模态文本的处理以及我们的文档解析技术能力也是非常重要的基础。能够在文档当中去面向文字、公式、版面、层级数两个结构和图表进行理解。

 

一、智能文档解析技术

1.文档解析技术的目标和挑战

第一先展开我们的智能文档技术解析方向。因为这也是在文章技术里面最重要的一个基础。文档解析技术目的就是把各种非结构化的文档能够去转化为mark down大模型能够去理解的形式。在这个图上可以看到我们面临的文档会是非常的多样化和复杂的,比如说在这个论文和研报的这些文档里面,它不仅有文字,还会有大量的数学的公式和图表。在图书和说明书上它是一种图文混合的形式,以及在PPT还有网页里有非常复杂的一些排版和版式。这些文档它的内容,版面的层级和阅读的顺序以及他们的样式都是不一样的,而且这些文章他们都有一个共同的挑战——多页的长文档。理论上需要支持最是一页,最长可能是无限长度的文档的处理,这个是文档解析技术面临的一些主要的挑战。


2.文档解析算法创新

为了应对挑战,在文档解析的算法上也做了一系列的创新,比如说在表格结构的识别上面提出了一种新的方法,可以对表格单元格的结合逻辑坐标的回归和空间位置的预测,来提高表格结构识别的一个精度。在版面分析上提出了VGT方法,通过引入transformer的推理和预训练能够提升版面分析整体的效果;在层级结构的识别上面,将几何关系引入到预训练中来提高关系抽取的一个效果,这项技术也应用到了IDP层级结构的解析的任务当中。为了做更好的信息抽取提出了一个多模态的文档大模型layout-lm,通过将复杂的版式信息引入到大模型来提升大模型对文档理解的整体精度,也应用到了IDT信息抽取的任务当中。


3. 文档解析(大模型版)产品

在技术的创新之上,也把文档解析大部分产品做升级,提出了文档解析大模型版的产品,它之所以叫大模型版,一方面文档写入之后可以成为大模型RAG的一个输入,同时解析的一个结果也可以成为大模型预训练的一个高质量的来源。现在大模型版跟过去相比已经能够支持更多的文章类型,能够支持十种以上的格式,在输入端支持最长1万页的输入,在输出端支持流式的输出。那也就意味着当面临一个超长文档的时候,可以边解析边输出边应用。技术能力方面,在文字、公式、表格和版面层级上面在持续的精进,以及最近的文档转发评测上相对一些业界的友商也能够处于一个相对比较领先的成绩。文档解析大模型已经在阿里云上上线,如果有解析需求可以来在阿里云上接入服务。

 

二、Qwen-Long极致性价比长文本大模型

1.Qwen-Long极致性价比长文本大模型

把文档解析的能力再结合千问大模型能力就得到了Qwen-Long极致性价比的长文本的大模型。首先在Qwen-Long上可以支持超长文档的输入,现在在Qwen-Long上支持1.5万页和1000千万字的长文档的输入,那么它和IDP文章解析进行相结合之后,能够去解释各种各样的不同的格式,包括word,PDF,txt等等,以及我们能够理解文档当中的一些复杂的多模态的元素,包括文档中的柱状图,折线图,饼图等等不同的这种图表的类型。


单个文档其实是不会有这么长的,所以真正复杂的长文档是在多文档的一个场景,现在我们在Qwen-Long上已经最多支持到100个文档同时的上传和处理。当打开了多文档的支持后,用户的场景和需求变得更加的复杂,包括对技术的挑战也变得更加的难一点,比如要去面对这种多文档指代的问题,会上传一堆文档,参考a,理解b来改写c等等一系列的问题。包括可能会面临复杂的一些文档的逻辑推理用户在上传一堆文档之后,他可能会要求去分析在某一个维度上面它的一个变化的趋势以及我们现在的可以支持复杂的文档创作以及仿写参考过去的文档进行文档的创作。


2. Qwen-Long典型应用场景

Qwen-Long现在在百炼上提供了API,可以在百炼上去接入Qwen-Long的服务,它是一个通用的API,不限定用户在一个什么样的场景来使用,来介绍有用户比较多储存好的场景。第一个场景是海量文档和文章内容的处理,文本的挖掘、在文本中去做这种信息的提取一直是NLP领域一个最重要的任务,今天我们可以通过Qwen-Long比较快速和方便的实现。在这个例子当中呢,面对一批技术的文档我们需要去批量的抽取出这些文档当中的一些标签,比如说技术的领域、文章的质量、编程的语言和相关的产品,就能够做后续的一些处理。


当我们能够处理长文本之后,我们也能够去分析长文本当中存在的一些对话的记录,因为对话中往往蕴含着更高的一些商业的价值,比如说对一些客服的对话记录,对一些线下的接待的录音,对于社交im的对话等等一些长的文档的记录。现在Qwen-Long可以一次处理几个小时的电话录音转出来的文字,其实在这个例子当中是一个用户购车的咨询对话的记录,我们在这个当中可以用Qwen-Long快速的分析出这个客户在对话当中所提到的一些姓名、性别、购买的意向的程度、购车的一个预算和预约试驾的这个时间,会带来一个更好商业的价值。


第三更加复杂一点,就是对多格式多文档的对比分析和总结,比如用户可以上传一堆不同格式的文档,还有PDF,txt包括Word,然后我们可以在Qwen-Long上一次性总结出不同格式文档的内容的摘要。当然我们也可以对文档进行分析,比如说在一些HR的场景下可以上传,对于简历上传一个职位的描述,要求分析出哪些潜力是符合这个职位描述的,这也是在Qwen-Long上比较擅长的一个场景。那第四个呢是高质量的文档的创作,虽然本身是生成是大模型的一个最天然的任务,过去好像也并没有特别好用的写作的能力,比如如果让大模型写一个周报,大概率不能写成我想要的样子,但如果我上传一些过去几周的周报并且给予这一周的工作进展内容以及数据,就更有可能写出贴合要求的内容,所以高质量的文档的创作一定是基于比较强的文档的理解和分析的能力,创作和理解其实是一体的。


(1)应用场景:PPT创作

在讲到创作,介绍一下最近推出的新的场景——AI的PPT的生成和创作。大家可能都会有这样的一个体感,平时我们都要写很多的PPT,有idea通过idea搜集到一些内容和素材是简单的,但把这些内容归纳成PPT需要的形式,并且填到PPT的模版里面再要去做格式、美工和美化和配图的话,那就非常复杂和耗时了,所以PPT的创作就能够帮助解决这样的问题。那现在我们可以输入一句话来生成一个PPT,但更有亮点的一个能力是我们可以上传一个长文档,包括一个音视频来生成PPT


比如我们可以上传一个论文的PDF,还可以上传一个上课的视频直接转化成PPT。我们生成的PPT由于会参考过去结构内容,会比较言之有物,内容的相关度会比较好。同时我们也接入了通义万相的文生图的能力来使得我们的PPT的配图有更加好的视觉效果,符合整体的风格。AI PPT的创作能力在通义一个网站上,欢迎大家多体验和给我们多一些的反馈。


(2)应用场景:故事绘本生成

PPT是文档的一个形式,有更复杂的形式是故事的绘本。也尝试去做故事绘本的创作和生成,比如现在做公益应用叫做追星星的AI,也是国内首个面向孤独症儿童的绘本生成。我们希望做到面向这些孤独症的儿童只要给予一个简单的主题,给一个主角和故事的年龄段,就能够提升成一个完整的故事。它的背后会使用到第一是Qwen-Long,第二Modelscope Agent,通过Agent方式,对内容进行拆解对场景进行配乐、配图、配文本、讲解和音效。


看一下右边这个视频的一个效果,它输入的主题是第一次坐火车。可以看到我们输入的是一句话的主题,然后拆解成了多个场景,每个场景会有配图、配文、配音乐、配解说和配音效。尤其是在音效的部分我们看到描述火车开过的时候,会有火车铁轨的声音,在餐车的时候,会有刀叉和盘子的声音。随着我们通义万相的文生视频的能力逐渐的成熟,未来我们也可以把每个场景的单词图片换成一个视频的镜头,就可以通过agent的方式产生一个更长篇的更有吸引力的故事的短剧。这个项目也获得了十大科技无障碍行动创新的奖项。欢迎大家在ModelScope社区上体验它的效果。以上是在通用的场景里面的一些尝试。

 

三、通义法睿-法律领域文档大模型应用

在第三部分介绍一下文档应用在专业领域法律领域的一些技术和场景和我们的一些尝试。面向法院法官、律所的律师以及企业的一些法务推出了一个产品叫通义法睿希望为我们的客户群体提升他们每天工作的效率。法律的文本相比于通用的文本来说它会有更大的一些挑战,比如说他的专业性会更强,比如我们在法律的领域会看到一些专业的术语像好意同乘、好意施惠,这些词汇背后会蕴含非常复杂的法律的逻辑,并且对判案的结果带来一些影响,所以我们需要对专业的术语进行一个理解。


同时的一些法律上的解读可能也会跟我们的平时的一些想象不太一样,比如说法律上对于情商的理解和我们日常对情商的理解差异会比较大。法律结构上情商会更加的严重,以及在不同的法律、不同的地区以及不同的时间可能法律上也会有不同的要求。同时从文档的角度来讲,法律的文档也会有一个更加典型的挑战就是长文档和多文档,比如说像法律的裁决书长度就会到3000字以上,而且当我们要去深入的去理解一个案件的时候,每一个案件可能会关联到的卷宗的材料会多达70多份,这是在法律的文档上面比较特殊的一些专业性的挑战。


1.通义法睿-合同审查

通义法律上尝试了几个场景,第一个场景是合同的审查,因为我们的企业客户可能每天都会接触大量的合同,这些合同需要去做风险的审查,过去我们可能都需要把专业的律师和专业的法务的人员来做一个审查,可能一份合同就需要半天到一天审查的时间,成本非常高,现在我们有了通义法律的、AI衍生的合同审查之后,我们可以在一分多钟的时间内给出审查的结果,包括风险修改的一些建议,大大的节省了时间。


和过去传统的智能合同的审查不同的是,通义法睿合同的审查它能够对当前的这份合同进行实时的分析,对于当前这份合同给出不同审查范围的一些建议,审查清单的一些建议,能够更加高效的给出审查的结果。同时我们也支持自定义的审查的规则,企业可以根据自身的业务喜好配置自定义的审查方式,更加贴合企业本身的业务。通过合同审查,我们将会帮助合同相关的工作人员大大的提高工作效率。


2.通义法睿-法律检索

第二个场景是通义法睿的法律检索。尤其是罪案的检索,是法院的法官和律师在日常的工作中会接触到的最重要的工作场景之一。法院的法官需要通过罪案的检索,去避免同案不同判,这是法律判决的一致性。律师也需要通过罪案的检索来预判案件可能得走向。但是在罪案的检索中可能和传统的检索不太一样,它不仅仅是需要去做语义的检索,同时需要更多考虑法律上的一些专业性。所以我们在法律检索场景下面做了深入的检索优化。包括制定了法律相关的召回的模块和排序的模块,通过我们在法律业务上的长期积累,我们现在能最大程度的理解客户输入的意图,理解多达1亿多的裁判文书,做最好的召回和匹配。这是我们在法律检索上的工作。


3.通义法睿-多文档阅读

第三个场景是多文档的阅读。无论是法官、律师还是企业的法务,当我们要去深入的理解一个案件的时候,可能需要去来回翻阅70多份文档。这个过程非常耗时,为了能够提升阅读和阅卷的效率,我们提出了法律方向多文档阅读的工具。通过多文档的导入,单文档的导读来实现案情脉络的一个梳理和跨文档实时证据的还原,在这个例子看到当我们在阅读起诉状的时候,他可能提到了借款的合同,那么在过去可能需要十几步才能找到合同,现在通过要点的发现,定位,通过一步就可以找到这个合同,大大提升了法律工作人员在阅卷时候的工作效率。以上是通义法睿在法律方向的文档应用的一些场景。


4.通义法睿:未来展望

未来还会继续在以下的一些有价值技术方向的继续的探索。第一是高效的长文本的输出。一旦说到长文本long text大家想到的都是对于长文本的一个输入和理解,下一步我们可能会更加关注在长文本输出的方向上面,因为只有更长的输出的才能在文档的一些复杂的逻辑推理包括文档更长篇的创作上奠定更好的一个基础。第二是端到端多模态的文档理解,减少中间的过程和错误的传递,能够提供一个性能和效果俱佳的多模态文档理解的能力。第三是在深度的文档创作的能力,因为好的创作是基于好的理解,所以我们未来会进一步加深对于文档的结构、对文档的风格和内容的理解在深入的理解之上提供更加通用和广泛的创作能力。希望和大家共同去探索更多的文档领域的应用。

相关文章
|
2月前
|
自然语言处理 API C++
阿里通义推出SmartVscode插件,自然语言控制VS Code,轻松开发应用,核心技术开源!
SmartVscode插件深度解析:自然语言控制VS Code的革命性工具及其开源框架App-Controller
|
2月前
|
机器学习/深度学习 人工智能 物联网
通义灵码在人工智能与机器学习领域的应用
通义灵码不仅在物联网领域表现出色,还在人工智能、机器学习、金融、医疗和教育等领域展现出广泛应用前景。本文探讨了其在这些领域的具体应用,如模型训练、风险评估、医疗影像诊断等,并总结了其提高开发效率、降低门槛、促进合作和推动创新的优势。
通义灵码在人工智能与机器学习领域的应用
|
2月前
|
NoSQL 安全 测试技术
Redis游戏积分排行榜项目中通义灵码的应用实战
Redis游戏积分排行榜项目中通义灵码的应用实战
78 4
|
3月前
|
存储 算法 C语言
通义灵码在考研C语言和数据结构中的应用实践 1-5
通义灵码在考研C语言和数据结构中的应用实践,体验通义灵码的强大思路。《趣学C语言和数据结构100例》精选了五个经典问题及其解决方案,包括求最大公约数和最小公倍数、统计字符类型、求特殊数列和、计算阶乘和双阶乘、以及求斐波那契数列的前20项和。通过这些实例,帮助读者掌握C语言的基本语法和常用算法,提升编程能力。
101 4
|
5天前
|
API 开发者
通义灵码 API 开发文档自动生成场景DEMO
通义灵码API开发文档自动生成场景DEMO展示了通过自定义指令,大模型能快速根据类代码生成Markdown格式的API文档。文档详细描述API的入参、出参,并可生成测试代码等示例,帮助开发者快速创建美观的API文档。
|
27天前
|
人工智能 前端开发 Java
Spring AI Alibaba + 通义千问,开发AI应用如此简单!!!
本文介绍了如何使用Spring AI Alibaba开发一个简单的AI对话应用。通过引入`spring-ai-alibaba-starter`依赖和配置API密钥,结合Spring Boot项目,只需几行代码即可实现与AI模型的交互。具体步骤包括创建Spring Boot项目、编写Controller处理对话请求以及前端页面展示对话内容。此外,文章还介绍了如何通过添加对话记忆功能,使AI能够理解上下文并进行连贯对话。最后,总结了Spring AI为Java开发者带来的便利,简化了AI应用的开发流程。
334 0
|
1月前
|
机器学习/深度学习 自然语言处理 算法
通义灵码在金融与教育领域的应用
通义灵码在金融与教育领域的应用展现了其强大潜力。在金融行业,它通过优化风险评估、智能投顾及交易算法,提升业务效率与安全性;在教育领域,则通过个性化学习方案、智能化教学资源生成及编程教育辅助,革新教学方式,满足多样化需求,为行业注入新活力。
|
1月前
|
缓存 API 开发工具
Qwen-coder方向-如果从0开始应用通义千问开源大模型
从0开始接触,带您全面了解Qwen2.5语言模型家族,包括其核心功能、微调方法以及具体应用场景。我们将通过一系列精心准备的应用demo和使用指南,帮助您掌握如何充分利用Qwen2.5的强大能力
304 8
|
2月前
|
传感器 存储 人工智能
通义灵码在跨领域应用拓展之物联网篇
在数字化时代,通义灵码作为一款强大的人工智能代码生成工具,正在物联网领域展现巨大潜力。本文将探讨其在设备端和云端的应用,包括传感器数据采集、设备控制、数据存储与管理、远程设备管理等方面,展示其提高开发效率、降低门槛及增强系统稳定性的优势。
通义灵码在跨领域应用拓展之物联网篇
|
1月前
|
机器学习/深度学习 数据采集 存储
通义千问 Qwen 在智能文本分析中的应用实践
本文探讨了通义千问Qwen在智能文本分析的应用,涵盖文本分类、情感分析及关键信息提取,通过具体案例和代码实现,展示了Qwen的强大语言理解能力,为开发者和研究人员提供了实用参考。