LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: LongDocURL 是由中科院与淘天集团联合推出的多模态长文档理解基准数据集,涵盖 2,325 个问答对,支持复杂文档的理解、推理和定位任务。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持长文档理解、数值推理、跨元素定位等多样化任务。
  2. 技术:基于多模态文档理解技术,结合文本、图像和表格等多种模式。
  3. 应用:适用于金融、法律、医疗、智能制造等多个领域。

正文(附运行示例)

LongDocURL 是什么

公众号: 蚝油菜花 - LongDocURL

LongDocURL 是由中国科学院自动化研究所和阿里巴巴淘宝天猫集团联合发布的多模态长文档理解基准数据集。该数据集专注于评估模型在处理长文档、复杂元素和多样化任务中的理解、推理和定位能力。

数据集包含 2,325 个问答对,覆盖超过 33,000 页文档,涉及 20 个子任务,旨在推动文档理解技术的发展。LongDocURL 不仅支持文本理解,还涵盖了图像、表格等多种模态,能够全面评估模型在多模态环境下的表现。

LongDocURL 的主要功能

  • 长文档理解:评估 AI 模型对复杂文本内容的理解能力,包括提取核心信息、识别关键段落和细节,以及分析文档结构如标题、图表说明等。
  • 数值推理:考察 AI 模型处理数据和进行精确计算的能力,特别是理解和处理包含大量数值信息的文档,如财务报告和科研文献中的数据。
  • 跨元素定位:评估模型在长文档中定位和关联不同类型元素(如文本、表格、图表)的能力,这对于理解和推理任务至关重要。
  • 多样化任务:数据集细分为 20 个子任务,覆盖理解、推理和定位三大任务,基于不同的任务类型和证据来源。
  • 多类型文档支持:涵盖研究报告、用户手册、书籍等多种类型的文档,平均每份文档长达 85.6 页,提供丰富的应用场景。

LongDocURL 的技术原理

  • 多模态文档理解:LongDocURL 旨在评估模型在处理包含文本、图像和表格等多种模式的长文档时的能力。这涉及到将文档的不同元素(如文本、图像)整合到一个共享的多模态嵌入空间中,以便模型能够理解和推理这些元素之间的关系。
  • 页面检索与问答生成:LongDocURL 使用多模态检索模型(如 ColPali)来检索与查询最相关的页面,并使用多模态语言模型(如 Qwen2-VL)对检索到的页面图像和查询进行视觉问答,生成最终答案。
  • 半自动化构建流程:LongDocURL 通过一个半自动化的流程来构建数据集,包括文档提取与过滤、问答生成、自动化验证和人工验证四个模块。这个流程能够高效地从大量文档中生成高质量的问答对,并确保内容的质量。

如何运行 LongDocURL

1. 下载并提取 PDF 文件

首先,从 Hugging Face 下载 PDF 文件和问答对文件(.jsonl),然后使用 PyMuPDF 提取 PDF 文件为 PNG 和 JSON 文件。

bash utils/run_extract_ccpdf.sh

提取后的文件结构如下:

├── 4000
│   └── 4000001.png
└── 4001
    ├── 4001001.png
    └── 4001002.png

2. 配置 API 密钥和其他参数

更新 config/api_config.json 文件中的 api_key,用于从详细响应中提取简短答案。同时,更新 data/LongDocURL.jsonl 文件,该文件可从 Hugging Face 下载。

3. 评估 API 模型

运行以下命令评估 API 模型:

bash scripts/eval_api_models.sh

4. 计算指标

计算最终的广义准确率:

bash scripts/calculate_metrics.sh

如果需要更细粒度的评估,可以运行:

bash scripts/calculate_metrics_fine_grained.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
4天前
|
人工智能 弹性计算 API
再不玩通义 VACE 模型你就过时了!一个模型搞定所有视频任务
介绍通义的开源模型在 ecs 或 acs 场景如何一键部署和使用,如何解决不同视频生成场景的问题。
|
2天前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
|
8天前
|
数据采集 编解码 人工智能
Gemma 3n正式版开源:谷歌全新端侧多模态大模型,2GB 内存就能跑,重点提升编码和推理能力!
6月底,Google正式开源发布了全新端侧多模态大模型 Gemma 3n!相较此前的预览版,最新的 Gemma 3n 完整版进一步提升性能表现,支持在 2GB 内存的硬件上本地运行,重点提升了编码和推理方面的能力。
84 1
|
11天前
|
人工智能 自然语言处理 vr&ar
通义首个音频生成模型 ThinkSound 开源,你的专业音效师
通义实验室推出首个音频生成模型ThinkSound,突破传统视频到音频生成技术局限,首次将思维链(CoT)应用于音频生成领域,实现高保真、强同步的空间音频生成。基于自研AudioCoT数据集,结合多模态大语言模型与统一音频生成模型,支持交互式编辑,显著提升音画匹配度与时序一致性。代码已开源,助力游戏、VR、AR等场景创新应用。
347 3
|
15天前
|
人工智能 自然语言处理 物联网
Jina Embeddings V4: 为搜索而生,多模态多语言向量模型
近日,Jina AI 正式发布 jina-embeddings-v4,一款全新的多模态向量模型,参数规模达到 38 亿,并首次实现了对文本与图像的同步处理。
82 2
|
15天前
|
机器学习/深度学习 存储 并行计算
大模型推理显存优化系列(3):FlowMLA——面向高吞吐的DP MLA零冗余显存优化
本文将介绍蚂蚁集团ASystem团队在推理显存优化上的新工作FlowMLA
|
27天前
|
缓存 自然语言处理 监控
基于通义大模型的智能客服系统构建实战:从模型微调到API部署
本文详细解析了基于通义大模型的智能客服系统构建全流程,涵盖数据准备、模型微调、性能优化及API部署等关键环节。通过实战案例与代码演示,展示了如何针对客服场景优化训练数据、高效微调大模型、解决部署中的延迟与并发问题,以及构建完整的API服务与监控体系。文章还探讨了性能优化进阶技术,如模型量化压缩和缓存策略,并提供了安全与合规实践建议。最终总结显示,微调后模型意图识别准确率提升14.3%,QPS从12.3提升至86.7,延迟降低74%。
270 14

热门文章

最新文章