❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 功能:支持长文档理解、数值推理、跨元素定位等多样化任务。
- 技术:基于多模态文档理解技术,结合文本、图像和表格等多种模式。
- 应用:适用于金融、法律、医疗、智能制造等多个领域。
正文(附运行示例)
LongDocURL 是什么
LongDocURL 是由中国科学院自动化研究所和阿里巴巴淘宝天猫集团联合发布的多模态长文档理解基准数据集。该数据集专注于评估模型在处理长文档、复杂元素和多样化任务中的理解、推理和定位能力。
数据集包含 2,325 个问答对,覆盖超过 33,000 页文档,涉及 20 个子任务,旨在推动文档理解技术的发展。LongDocURL 不仅支持文本理解,还涵盖了图像、表格等多种模态,能够全面评估模型在多模态环境下的表现。
LongDocURL 的主要功能
- 长文档理解:评估 AI 模型对复杂文本内容的理解能力,包括提取核心信息、识别关键段落和细节,以及分析文档结构如标题、图表说明等。
- 数值推理:考察 AI 模型处理数据和进行精确计算的能力,特别是理解和处理包含大量数值信息的文档,如财务报告和科研文献中的数据。
- 跨元素定位:评估模型在长文档中定位和关联不同类型元素(如文本、表格、图表)的能力,这对于理解和推理任务至关重要。
- 多样化任务:数据集细分为 20 个子任务,覆盖理解、推理和定位三大任务,基于不同的任务类型和证据来源。
- 多类型文档支持:涵盖研究报告、用户手册、书籍等多种类型的文档,平均每份文档长达 85.6 页,提供丰富的应用场景。
LongDocURL 的技术原理
- 多模态文档理解:LongDocURL 旨在评估模型在处理包含文本、图像和表格等多种模式的长文档时的能力。这涉及到将文档的不同元素(如文本、图像)整合到一个共享的多模态嵌入空间中,以便模型能够理解和推理这些元素之间的关系。
- 页面检索与问答生成:LongDocURL 使用多模态检索模型(如 ColPali)来检索与查询最相关的页面,并使用多模态语言模型(如 Qwen2-VL)对检索到的页面图像和查询进行视觉问答,生成最终答案。
- 半自动化构建流程:LongDocURL 通过一个半自动化的流程来构建数据集,包括文档提取与过滤、问答生成、自动化验证和人工验证四个模块。这个流程能够高效地从大量文档中生成高质量的问答对,并确保内容的质量。
如何运行 LongDocURL
1. 下载并提取 PDF 文件
首先,从 Hugging Face 下载 PDF 文件和问答对文件(.jsonl),然后使用 PyMuPDF 提取 PDF 文件为 PNG 和 JSON 文件。
bash utils/run_extract_ccpdf.sh
提取后的文件结构如下:
├── 4000
│ └── 4000001.png
└── 4001
├── 4001001.png
└── 4001002.png
2. 配置 API 密钥和其他参数
更新 config/api_config.json
文件中的 api_key
,用于从详细响应中提取简短答案。同时,更新 data/LongDocURL.jsonl
文件,该文件可从 Hugging Face 下载。
3. 评估 API 模型
运行以下命令评估 API 模型:
bash scripts/eval_api_models.sh
4. 计算指标
计算最终的广义准确率:
bash scripts/calculate_metrics.sh
如果需要更细粒度的评估,可以运行:
bash scripts/calculate_metrics_fine_grained.sh
资源
- 项目官网:https://longdocurl.github.io/
- GitHub 仓库:https://github.com/dengc2023/LongDocURL
- arXiv 技术论文:https://arxiv.org/pdf/2412.18424
- 数据集下载:https://huggingface.co/datasets/dengchao/LongDocURL/
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦