ParGo:字节与中山大学联合推出的多模态大模型连接器,高效对齐视觉与语言模态

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: ParGo 是字节与中山大学联合推出的多模态大模型连接器,通过全局与局部视角联合,提升视觉与语言模态的对齐效果,支持高效连接、细节感知与自监督学习。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:ParGo 通过全局与局部视角联合,高效连接视觉与语言模态,提升多模态大语言模型的效果。
  2. 技术:采用 Partial-Global Perception Block 和 Cascaded Partial Perception Block 模块,结合自监督学习策略,增强模型对上下文的理解。
  3. 应用:适用于视觉问答、图像字幕生成、跨模态检索等任务,显著提升细节感知能力。

正文(附运行示例)

ParGo 是什么

ParGo

ParGo 是字节团队与中山大学合作推出的多模态大语言模型连接器,旨在提升视觉和语言模态在多模态大语言模型(MLLMs)中的对齐效果。通过结合局部 token 和全局 token,使用精心设计的注意力掩码分别提取局部和全局信息,在控制 token 数量的同时增强了局部区域之间的关系建模。

ParGo 充分考虑了图像的细节与全局视角,克服了传统方法中忽视细节的问题。其核心在于通过 Partial-Global Perception Block(PGP)和 Cascaded Partial Perception Block(CPP)两个关键模块,将视觉特征映射为 Partial token 和 Global token,分别提取图像的局部和全局信息。

ParGo 的主要功能

  • 高效连接视觉与语言模态:通过全局与局部视角联合,ParGo 实现了视觉特征和大语言模型(LLM)的高效连接,克服了传统方法对显著区域的过度聚焦问题。
  • 提升多模态大语言模型效果:在多个 MLLM 基准测试中表现出色,特别是在强调细节感知能力的任务中,显著优于其他投影器。
  • 自监督学习增强上下文理解:通过预测遮挡部分的内容,增强模型对上下文的理解能力,减少了对大规模标注数据的依赖。

ParGo 的技术原理

  • 全局+局部视角联合:ParGo 采用两种类型的可学习 token,基于 attention 机制,同时从局部和全局视角将视觉特征映射到大语言模型(LLM)中。
  • Partial-Global Perception Block (PGP):将视觉编码器的特征映射为 Partial token 和 Global token,分别提取图像的局部和全局信息。
  • Cascaded Partial Perception Block (CPP):通过带有特殊设计掩码的自注意力机制,逐步扩展 Partial token 的感知范围。
  • 自监督学习策略:在训练阶段引入自监督学习策略,通过预测遮挡部分的内容来增强模型对上下文的理解能力。

如何运行 ParGo

1. 环境配置

首先,克隆 ParGo 仓库并创建虚拟环境:

cd ParGo
conda create -n ParGo_env python=3.10 -y
conda activate ParGo_env
pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118
pip install -r ./requirements.txt

2. 下载模型

需要提前下载 LLM(internlm2-7b)和视觉编码器(eva-clip-l-14-336)。

3. 评估 MME 基准

将基准数据放置在 benchmarks 目录下,数据结构如下:

├── benchmarks
│   ├── MMEBenmark
│       └── images
│       └── Data_json

然后生成响应并计算分数:

python3 eval/eval_mme_finetuning.py --config ./configs/MMEBench_interLM2-7B.json
python3 eval/calculation_mme.py --results_dir ./output/internlm2-MME

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
3天前
|
人工智能 Rust PyTorch
Hibiki:实时语音翻译模型打破语言交流障碍!支持将语音实时翻译成其他语言的语音或文本
Hibiki 是由 Kyutai Labs 开发的实时语音翻译模型,能够将一种语言的语音实时翻译成另一种语言的语音或文本,支持高保真度和低延迟。
73 18
Hibiki:实时语音翻译模型打破语言交流障碍!支持将语音实时翻译成其他语言的语音或文本
|
6天前
|
存储 人工智能 缓存
DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架
DiffSplat 是由北京大学和字节跳动联合推出的一个高效 3D 生成框架,能够在 1-2 秒内从文本提示或单视图图像生成高质量的 3D 高斯点阵,并确保多视图下的一致性。
101 19
DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架
|
12天前
|
人工智能 测试技术
VARGPT:将视觉理解与生成统一在一个模型中,北大推出支持混合模态输入与输出的多模态统一模型
VARGPT是北京大学推出的多模态大语言模型,专注于视觉理解和生成任务,支持混合模态输入和高质量图像生成。
88 22
|
2月前
|
机器学习/深度学习 人工智能 文字识别
POINTS 1.5:腾讯微信开源的多模态大模型,超越了业界其他的开源视觉语言模型,具备强大的视觉和语言处理能力
POINTS 1.5是腾讯微信推出的多模态大模型,基于LLaVA架构,具备强大的视觉和语言处理能力。它在复杂场景的OCR、推理能力、关键信息提取等方面表现出色,是全球10B以下开源模型中的佼佼者。
203 58
POINTS 1.5:腾讯微信开源的多模态大模型,超越了业界其他的开源视觉语言模型,具备强大的视觉和语言处理能力
|
2月前
|
人工智能 算法 物联网
Lyra:SmartMore 联合香港多所高校推出的多模态大型语言模型,专注于提升语音、视觉和语言模态的交互能力
Lyra是由香港中文大学、SmartMore和香港科技大学联合推出的高效多模态大型语言模型,专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型和多模态LoRA模块,减少训练成本和数据需求,支持多种模态理解和推理任务。
136 33
Lyra:SmartMore 联合香港多所高校推出的多模态大型语言模型,专注于提升语音、视觉和语言模态的交互能力
|
2月前
|
人工智能 数据处理 语音技术
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
LatentLM是由微软研究院和清华大学联合推出的多模态生成模型,能够统一处理离散和连续数据,具备高性能图像生成、多模态大型语言模型集成等功能,展现出卓越的多模态任务处理能力。
108 29
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
|
1月前
|
人工智能
TITAN:哈佛医学院推出多模态全切片病理基础模型,支持病理报告生成、跨模态检索
TITAN 是哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能够在无需微调或临床标签的情况下提取通用切片表示,生成病理报告。
78 8
TITAN:哈佛医学院推出多模态全切片病理基础模型,支持病理报告生成、跨模态检索
|
3月前
|
人工智能 测试技术 计算机视觉
LongLLaVA:香港中文大学推出的多模态上下文混合架构大语言模型
LongLLaVA是由香港中文大学推出的多模态大型语言模型,采用混合架构,结合Mamba和Transformer模块,旨在高效处理大量图像数据。该模型能够在单个A100 80GB GPU上处理多达1000张图像,通过2D池化技术压缩图像token,显著降低计算成本,同时保留关键的空间关系信息。LongLLaVA在视频理解、高分辨率图像分析和多模态代理等应用场景中展现出卓越的性能。
64 5
LongLLaVA:香港中文大学推出的多模态上下文混合架构大语言模型
|
自然语言处理 测试技术 vr&ar
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
288 0
统一多模态模型来了!智源发布多模态世界模型Emu3!
2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。

热门文章

最新文章