UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型

简介: UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型


文档 AI(Document Artificial Intelligence)领域研究包括文档内容提取,分析和理解。近日,微软 Cognitive Services Research 和 UNC Chapel Hill 提出了文档 AI 的基石模型 “Universal Document Processing (UDOP)”。该模型统一了图像、文本和格式模态,并以生成模型的方式整合了各类文档理解和文档生成任务。

UDOP 利用文本内容和文档图像之间的空间相关性,提出用统一的表征方法来建模图像、文本和格式模态。UDOP 在大规模未标记文档语料库和多样化标记数据上进行预训练,学习生成文档图像的文本和布局模态。UDOP 在文档 AI 领域首次实现了高质量的文档图像生成和定制化的内容编辑。UDOP 在 8 个文档 AI 任务上刷新了记录,在 “DUE Benchmark” 上排名第一。

机器之心最新一期线上分享邀请到了微软 Azure 的高级研究员杨子弋及其学生唐子能,为大家分享他们近期工作 UDOP。


分享主题:UDOP:统一视觉、语言、格式、任务的通用文档处理模型

分享嘉宾:

唐子能,UNC Chapel Hill 数学专业大四本科生。师从 Mohit Bansal 教授。他曾在 2022 年于微软 Azure 实习,导师为杨子弋博士。他曾获得获得 2023 年度 CRA Outstanding Undergraduate Researcher Award。

杨子弋,微软 Azure Cognitive Services Research 高级研究员,博士毕业于斯坦福大学,师从 Eric Darve 教授。研究方向为多模态理解和生成,及自然语言处理。

分享摘要:UDOP 是文档人工智能领域的基石模型。我们将介绍 UDOP 的模型结构与大规模生成式预训练方法,以及 UDOP 如何统一文本,图像,格式模态和各类任务。UDOP 在各类文档理解任务上大幅度刷新了记录。我们也将展示 UDOP 作为第一个有文档图像生成与编辑能力的模型的视觉生成效果。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/udop

2)论文链接:

https://arxiv.org/abs/2212.02623

3)代码仓库:

https://github.com/microsoft/i-Code/tree/main/i-Code-Doc

相关文章
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
Documind:开源 AI 文档处理工具,将 PDF 转换为图像提取结构化数据
Documind 是一款利用 AI 技术从 PDF 中提取结构化数据的先进文档处理工具,支持灵活的本地或云端部署。
47 8
Documind:开源 AI 文档处理工具,将 PDF 转换为图像提取结构化数据
可控细节的长文档摘要,探索开源LLM工具与实践
本文通过将文档分为几部分来解决这个问题,然后分段生成摘要。在对大语言模型进行多次查询后,可以重建完整的摘要。通过控制文本块的数量及其大小,我们最终可以控制输出中的细节级别。
|
2月前
|
弹性计算 自然语言处理 数据可视化
|
6月前
|
机器学习/深度学习 存储 人工智能
人工智能平台PAI产品使用合集之如何通过通用文本标记解决方案文档与PAI机器学习平台一起使用
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
3月前
|
XML 数据可视化 Java
文本对比工具,绕不开这个6款!
文本对比工具,绕不开这个6款!
641 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
预训练驱动的统一文本表示-GTE魔搭社区最佳实践
文本表示是自然语言处理(NLP)领域的核心问题, 其在很多NLP、信息检索的下游任务中发挥着非常重要的作用。
|
JSON 前端开发 数据可视化
SolidUI AI生成可视化,0.1.0版本模块划分以及源码讲解
SolidUI AI生成可视化,0.1.0版本模块划分以及源码讲解
109 0
|
机器学习/深度学习 自然语言处理 达摩院
如何用一套语音识别系统实现多语种混合自由说?
语音识别技术,也被称为自动语音识别 (Automatic Speech Recognition,ASR),其目标是将语音转成文字。
389 0
|
机器学习/深度学习 数据采集 人工智能
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
240 0
|
机器学习/深度学习 人工智能 编解码
中科大团队新作 | 通用形变文档图像矫正框架(附在线体验DEMO)
中科大团队新作 | 通用形变文档图像矫正框架(附在线体验DEMO)
1466 0
下一篇
无影云桌面