FlagEvalMM:智源开源的多模态模型评测框架

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: FlagEvalMM 是由北京智源人工智能研究院开源的多模态模型评测框架,旨在全面评估处理文本、图像、视频等多种模态的模型。该框架支持多种任务和指标,采用评测与模型推理解耦的设计,提升评测效率,便于快速适配新任务和模型。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多模态支持:支持评估多种类型的多模态模型,包括视觉问答、图像检索、文本到图像生成等。
  2. 全面基准测试:支持新的和常用的基准测试和评估指标,全面衡量模型性能。
  3. 灵活架构:采用评测与模型推理解耦的设计,提升框架的灵活性和可维护性。

正文(附运行示例)

FlagEvalMM 是什么

公众号: 蚝油菜花 - FlagEvalMM

FlagEvalMM 是北京智源人工智能研究院开源的多模态模型评测框架,能够全面评估处理文本、图像、视频等多种模态的模型。该框架支持多种任务和指标,旨在提升评测效率,便于快速适配新任务和模型。

FlagEvalMM 采用评测与模型推理解耦的设计,统一视觉语言模型、文生图、文生视频和图文检索等多种模型的评测流程,减少重复代码,提高代码的复用性。

FlagEvalMM 的主要功能

  • 多模态模型支持:支持评估多种类型的多模态模型,包括视觉问答(VQA)、图像检索、文本到图像生成等。
  • 全面的基准测试和指标:支持新的和常用的基准测试和评估指标,全面衡量模型性能。
  • 模型库集成:提供模型库(model_zoo),支持多种流行多模态模型的推理,如QWenVL和LLaVA,并与基于API的模型如GPT、Claude、HuanYuan等集成。
  • 多后端支持:支持多种后端引擎进行推理,如VLLM、SGLang等,适应不同的模型和需求。

FlagEvalMM 的技术原理

  • 评测与模型推理解耦:FlagEvalMM 将评测逻辑与模型推理逻辑分离,让评测框架独立于模型更新,提高框架的灵活性和可维护性。
  • 统一的评测架构:基于统一的架构处理不同类型的多模态模型评测,减少重复代码,提高代码的复用性。
  • 插件化设计:框架采用插件化设计,支持用户添加新的插件扩展支持的模型、任务和评估指标。
  • 后端引擎适配:框架支持多种后端引擎,基于适配层处理不同后端引擎的接口差异,让用户在不同的引擎之间无缝切换。

如何运行 FlagEvalMM

基本安装

git clone https://github.com/flageval-baai/FlagEvalMM.git
cd FlagEvalMM
pip install -e .

可选依赖

FlagEvalMM 支持多种后端引擎进行推理。安装你计划使用的引擎:

VLLM 后端

pip install vllm==0.6.3.post1

SGLang 后端

pip install --upgrade pip
pip install "sglang[all]"
pip install flashinfer -i https://flashinfer.ai/whl/cu121/torch2.4/

使用示例

FlagEvalMM 支持一键评估:

flagevalmm --tasks tasks/mmmu/mmmu_val.py \
        --exec model_zoo/vlm/http_api/model_adapter.py \
        --model llava-hf/llava-onevision-qwen2-7b-ov-chat-hf \
        --num-workers 8 \
        --output-dir ./results/llava-onevision-qwen2-7b-ov-chat-hf \
        --backend vllm \
        --extra-args "--limit-mm-per-prompt image=10 --max-model-len 32768"

配置文件示例

创建一个名为 qwen2_vl_72b_instruct.json 的配置文件:

{
   
    "model_name": "Qwen/Qwen2-VL-72B-Instruct",
    "api_key": "EMPTY",
    "output_dir": "./results/Qwen2-VL-72B-Instruct",
    "min_image_hw": 28,
    "num_workers": 8,
    "backend": "vllm",
    "extra_args": "--limit-mm-per-prompt image=18 --tensor-parallel-size 4 --max-model-len 32768 --trust-remote-code --mm-processor-kwargs '{\"max_dynamic_patch\":4}'"
}

简化评估命令:

flagevalmm --tasks tasks/mmmu_pro/mmmu_pro_standard_test.py tasks/ocrbench/ocrbench_test.py \
        --exec model_zoo/vlm/http_api/model_adapter.py \
        --cfg qwen2_vl_72b_instruct.json

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
7月前
|
自然语言处理 物联网 Swift
零一万物开源Yi-VL多模态大模型,魔搭社区推理&微调最佳实践来啦!
近期,零一万物Yi系列模型家族发布了其多模态大模型系列,Yi Vision Language(Yi-VL)多模态语言大模型正式面向全球开源。
|
1月前
|
编解码 人工智能 自然语言处理
迈向多语言医疗大模型:大规模预训练语料、开源模型与全面基准测试
【10月更文挑战第23天】Oryx 是一种新型多模态架构,能够灵活处理各种分辨率的图像和视频数据,无需标准化。其核心创新包括任意分辨率编码和动态压缩器模块,适用于从微小图标到长时间视频的多种应用场景。Oryx 在长上下文检索和空间感知数据方面表现出色,并且已开源,为多模态研究提供了强大工具。然而,选择合适的分辨率和压缩率仍需谨慎,以平衡处理效率和识别精度。论文地址:https://www.nature.com/articles/s41467-024-52417-z
46 2
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】LLM主流开源大模型介绍
【AI大模型】LLM主流开源大模型介绍
统一多模态模型来了!智源发布多模态世界模型Emu3!
2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。
|
2月前
|
计算机视觉
Deepseek开源多模态LLM模型框架Janus,魔搭社区最佳实践
deepseek近期推出了简单、统一且灵活的多模态框架Janus,它能够统一处理多模态理解和生成任务。让我们一起来了解一下吧。
|
3月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
83 10
|
4月前
|
人工智能 自然语言处理 API
AI大模型 智能AI开源模型与大模型接口整理(8个开源模型+7个大模型接口)
AI大模型 智能AI开源模型与大模型接口整理(8个开源模型+7个大模型接口)
452 5
|
6月前
|
人工智能 JSON 自然语言处理
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
GLM-4-9B是智谱AI推出的新一代预训练模型GLM-4系列的开源版本,它在多个数据集上的测试中表现出高绩效,包括语义理解、数学问题解决、推理和代码理解等方面。GLM-4-9B模型有四个变体:基础版GLM-4-9B(8K)、对话版GLM-4-9B-Chat(128K)、超长上下文版GLM-4-9B-Chat-1M(1M)和多模态版GLM-4V-9B-Chat(8K)。用户可以通过魔搭社区提供的链接体验这些模型,包括在CPU上运行的版本和支持vLLM推理的版本。
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
|
7月前
|
机器学习/深度学习 物联网 数据处理
社区供稿 | 封神榜团队提出首个引入视觉细化器的多模态大模型Ziya-Visual-Lyrics,多个任务SOTA
封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块,推出了多模态大模型Ziya-Visual-Lyrics。
|
7月前
|
编解码 人工智能 物联网
CogVLM2: 智谱开源新一代多模态大模型!
智谱·AI推出了新一代 CogVLM2 系列模型,并开源了使用 Meta-Llama-3-8B-Instruct 构建的两个模型。 与上一代CogVLM开源模型相比,CogVLM2系列开源模型有了很多改进...

热门文章

最新文章