LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: LongDocURL 是由中科院与淘天集团联合推出的多模态长文档理解基准数据集,涵盖 2,325 个问答对,支持复杂文档的理解、推理和定位任务。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持长文档理解、数值推理、跨元素定位等多样化任务。
  2. 技术:基于多模态文档理解技术,结合文本、图像和表格等多种模式。
  3. 应用:适用于金融、法律、医疗、智能制造等多个领域。

正文(附运行示例)

LongDocURL 是什么

公众号: 蚝油菜花 - LongDocURL

LongDocURL 是由中国科学院自动化研究所和阿里巴巴淘宝天猫集团联合发布的多模态长文档理解基准数据集。该数据集专注于评估模型在处理长文档、复杂元素和多样化任务中的理解、推理和定位能力。

数据集包含 2,325 个问答对,覆盖超过 33,000 页文档,涉及 20 个子任务,旨在推动文档理解技术的发展。LongDocURL 不仅支持文本理解,还涵盖了图像、表格等多种模态,能够全面评估模型在多模态环境下的表现。

LongDocURL 的主要功能

  • 长文档理解:评估 AI 模型对复杂文本内容的理解能力,包括提取核心信息、识别关键段落和细节,以及分析文档结构如标题、图表说明等。
  • 数值推理:考察 AI 模型处理数据和进行精确计算的能力,特别是理解和处理包含大量数值信息的文档,如财务报告和科研文献中的数据。
  • 跨元素定位:评估模型在长文档中定位和关联不同类型元素(如文本、表格、图表)的能力,这对于理解和推理任务至关重要。
  • 多样化任务:数据集细分为 20 个子任务,覆盖理解、推理和定位三大任务,基于不同的任务类型和证据来源。
  • 多类型文档支持:涵盖研究报告、用户手册、书籍等多种类型的文档,平均每份文档长达 85.6 页,提供丰富的应用场景。

LongDocURL 的技术原理

  • 多模态文档理解:LongDocURL 旨在评估模型在处理包含文本、图像和表格等多种模式的长文档时的能力。这涉及到将文档的不同元素(如文本、图像)整合到一个共享的多模态嵌入空间中,以便模型能够理解和推理这些元素之间的关系。
  • 页面检索与问答生成:LongDocURL 使用多模态检索模型(如 ColPali)来检索与查询最相关的页面,并使用多模态语言模型(如 Qwen2-VL)对检索到的页面图像和查询进行视觉问答,生成最终答案。
  • 半自动化构建流程:LongDocURL 通过一个半自动化的流程来构建数据集,包括文档提取与过滤、问答生成、自动化验证和人工验证四个模块。这个流程能够高效地从大量文档中生成高质量的问答对,并确保内容的质量。

如何运行 LongDocURL

1. 下载并提取 PDF 文件

首先,从 Hugging Face 下载 PDF 文件和问答对文件(.jsonl),然后使用 PyMuPDF 提取 PDF 文件为 PNG 和 JSON 文件。

bash utils/run_extract_ccpdf.sh

提取后的文件结构如下:

├── 4000
│   └── 4000001.png
└── 4001
    ├── 4001001.png
    └── 4001002.png

2. 配置 API 密钥和其他参数

更新 config/api_config.json 文件中的 api_key,用于从详细响应中提取简短答案。同时,更新 data/LongDocURL.jsonl 文件,该文件可从 Hugging Face 下载。

3. 评估 API 模型

运行以下命令评估 API 模型:

bash scripts/eval_api_models.sh

4. 计算指标

计算最终的广义准确率:

bash scripts/calculate_metrics.sh

如果需要更细粒度的评估,可以运行:

bash scripts/calculate_metrics_fine_grained.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
482 4
|
1月前
|
机器学习/深度学习 缓存 监控
大模型推理优化技术:KV缓存机制详解
本文深入探讨了大语言模型推理过程中的关键技术——KV缓存(Key-Value Cache)机制。通过对Transformer自注意力机制的分析,阐述了KV缓存的工作原理、实现方式及其对推理性能的显著优化效果。文章包含具体的代码实现和性能对比数据,为开发者理解和应用这一关键技术提供实践指导。
838 8
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
270 2
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1418 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
1月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
263 120
|
1月前
|
机器学习/深度学习 缓存 自然语言处理
【万字长文】大模型训练推理和性能优化算法总结和实践
我们是阿里云公共云 AI 汽车行业大模型技术团队,致力于通过专业的全栈 AI 技术推动 AI 的落地应用。
1340 38
【万字长文】大模型训练推理和性能优化算法总结和实践
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
567 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
2月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
757 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型

热门文章

最新文章