LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: LongDocURL 是由中科院与淘天集团联合推出的多模态长文档理解基准数据集,涵盖 2,325 个问答对,支持复杂文档的理解、推理和定位任务。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持长文档理解、数值推理、跨元素定位等多样化任务。
  2. 技术:基于多模态文档理解技术,结合文本、图像和表格等多种模式。
  3. 应用:适用于金融、法律、医疗、智能制造等多个领域。

正文(附运行示例)

LongDocURL 是什么

公众号: 蚝油菜花 - LongDocURL

LongDocURL 是由中国科学院自动化研究所和阿里巴巴淘宝天猫集团联合发布的多模态长文档理解基准数据集。该数据集专注于评估模型在处理长文档、复杂元素和多样化任务中的理解、推理和定位能力。

数据集包含 2,325 个问答对,覆盖超过 33,000 页文档,涉及 20 个子任务,旨在推动文档理解技术的发展。LongDocURL 不仅支持文本理解,还涵盖了图像、表格等多种模态,能够全面评估模型在多模态环境下的表现。

LongDocURL 的主要功能

  • 长文档理解:评估 AI 模型对复杂文本内容的理解能力,包括提取核心信息、识别关键段落和细节,以及分析文档结构如标题、图表说明等。
  • 数值推理:考察 AI 模型处理数据和进行精确计算的能力,特别是理解和处理包含大量数值信息的文档,如财务报告和科研文献中的数据。
  • 跨元素定位:评估模型在长文档中定位和关联不同类型元素(如文本、表格、图表)的能力,这对于理解和推理任务至关重要。
  • 多样化任务:数据集细分为 20 个子任务,覆盖理解、推理和定位三大任务,基于不同的任务类型和证据来源。
  • 多类型文档支持:涵盖研究报告、用户手册、书籍等多种类型的文档,平均每份文档长达 85.6 页,提供丰富的应用场景。

LongDocURL 的技术原理

  • 多模态文档理解:LongDocURL 旨在评估模型在处理包含文本、图像和表格等多种模式的长文档时的能力。这涉及到将文档的不同元素(如文本、图像)整合到一个共享的多模态嵌入空间中,以便模型能够理解和推理这些元素之间的关系。
  • 页面检索与问答生成:LongDocURL 使用多模态检索模型(如 ColPali)来检索与查询最相关的页面,并使用多模态语言模型(如 Qwen2-VL)对检索到的页面图像和查询进行视觉问答,生成最终答案。
  • 半自动化构建流程:LongDocURL 通过一个半自动化的流程来构建数据集,包括文档提取与过滤、问答生成、自动化验证和人工验证四个模块。这个流程能够高效地从大量文档中生成高质量的问答对,并确保内容的质量。

如何运行 LongDocURL

1. 下载并提取 PDF 文件

首先,从 Hugging Face 下载 PDF 文件和问答对文件(.jsonl),然后使用 PyMuPDF 提取 PDF 文件为 PNG 和 JSON 文件。

bash utils/run_extract_ccpdf.sh

提取后的文件结构如下:

├── 4000
│   └── 4000001.png
└── 4001
    ├── 4001001.png
    └── 4001002.png

2. 配置 API 密钥和其他参数

更新 config/api_config.json 文件中的 api_key,用于从详细响应中提取简短答案。同时,更新 data/LongDocURL.jsonl 文件,该文件可从 Hugging Face 下载。

3. 评估 API 模型

运行以下命令评估 API 模型:

bash scripts/eval_api_models.sh

4. 计算指标

计算最终的广义准确率:

bash scripts/calculate_metrics.sh

如果需要更细粒度的评估,可以运行:

bash scripts/calculate_metrics_fine_grained.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
人工智能 文字识别 自然语言处理
【2023 CSIG垂直领域大模型】大模型时代,如何完成IDP智能文档处理领域的OCR大一统?
2023年12月28-31日,由中国图象图形学学会主办的第十九届CSIG青年科学家会议在中国广州隆重召开,会议吸引了学术界和企业界专家与青年学者,会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域,共同探讨图象图形学领域的前沿问题,分享最新的研究成果和创新观点,在垂直领域大模型专场,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士为我们带来了《文档图像大模型的思考与探索》主题报告。
|
人工智能 文字识别 算法
大模型时代来临,智能文档处理该走向何方?(下)
大模型时代来临,智能文档处理该走向何方?
|
机器学习/深度学习 人工智能 测试技术
大模型时代来临,智能文档处理该走向何方?(上)
大模型时代来临,智能文档处理该走向何方?
|
文字识别 自然语言处理 算法
CVPR 2022 | 关注文本阅读顺序,蚂蚁集团、上海交通大学提出多模态文档理解模型XYLayoutLM
CVPR 2022 | 关注文本阅读顺序,蚂蚁集团、上海交通大学提出多模态文档理解模型XYLayoutLM
283 0
|
机器学习/深度学习 人工智能 自然语言处理
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
197 0
|
机器学习/深度学习 自然语言处理 文字识别
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾(1)
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
371 0
|
2月前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
121 3
|
2月前
|
人工智能 JSON API
阿里云文档智能 & RAG解决方案:提升AI大模型业务理解与应用
阿里云推出的文档智能 & RAG解决方案,旨在通过先进的文档解析技术和检索增强生成(RAG)方法,显著提升人工智能大模型在业务场景中的应用效果。该方案通过文档智能(Document Mind)技术将非结构化文档内容转换为结构化数据,提取文档的层级树、样式和版面信息,并输出为Markdown和Json格式,为RAG提供语义分块策略。这一过程不仅解决了文档内容解析错误和切块丢失语义信息的问题,还优化了输出LLM友好的Markdown信息。方案的优势在于其多格式支持能力,能够处理包括Office文档、PDF、Html、图片在内的主流文件类型,返回文档的样式、版面信息和层级树结构。
145 2
|
3月前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG 让AI大模型更懂业务 —— 阿里云LLM知识库解决方案评测
随着数字化转型的深入,企业对文档管理和知识提取的需求日益增长。阿里云推出的文档智能 & RAG(Retrieval-Augmented Generation)解决方案,通过高效的内容清洗、向量化处理、精准的问答召回和灵活的Prompt设计,帮助企业构建强大的LLM知识库,显著提升企业级文档管理的效率和准确性。
|
3月前
|
数据采集 人工智能 自然语言处理
文档智能 & RAG让AI大模型更懂业务
《文档智能 & RAG让AI大模型更懂业务》解决方案基于文档智能技术和检索增强生成(RAG)方法,通过结构化企业内部文档并结合实时检索,显著提升了大模型对业务内容的理解能力。方案在金融、法律、医疗等行业的应用表现出色,但在大规模文档管理和个性化定制方面仍有改进空间。部署文档详细但需增加更多排错指导。

热门文章

最新文章