字节Seed开源统一多模态理解和生成模型 BAGEL!

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 近期,字节跳动Seed推出了 BAGEL—— 一个开源的多模态理解和生成础模型,具有70亿个激活参数(总共140亿个),并在大规模交错多模态数据上进行训练。

01.前言

image.gif 编辑

近期,字节跳动Seed推出了 BAGEL—— 一个开源的多模态理解和生成础模型,具有70亿个激活参数(总共140亿个),并在大规模交错多模态数据上进行训练。BAGEL 在标准多模态理解排行榜上超越了当前顶级的开源VLMs,如Qwen2.5-VL和InternVL-2.5,并且提供了与强大的专业生成器如SD3竞争的文本到图像质量。

 

此外,BAGEL 在经典的图像编辑场景中展示了比领先的开源模型更好的定性结果。更重要的是,它扩展到了自由形式的视觉操作、多视图合成和世界导航,这些能力构成了超出以往图像编辑模型范围的“世界建模”任务。

image.gif 编辑

Github:

https://github.com/bytedance-seed/BAGEL

模型:

https://www.modelscope.cn/models/ByteDance-Seed/BAGEL-7B-MoT

论文:

https://arxiv.org/abs/2505.14683

02.方法

BAGEL 采用了一种混合变压器专家(MoT)架构,以最大化模型从丰富多样的多模态信息中学习的能力。遵循同样的容量最大化原则,它利用两个独立的编码器来捕捉图像的像素级和语义级特征。整个框架遵循下一个令牌组预测范式,其中模型被训练为将下一组语言或视觉令牌作为压缩目标进行预测。

BAGEL 通过在数万亿交织的多模态令牌上进行预训练、继续训练和监督微调,扩展了 MoT 的能力,这些令牌涵盖了语言、图像、视频和网络数据。它在标准的理解和生成基准测试中超越了开放模型,并展示了先进的上下文多模态能力,如自由形式的图像编辑、未来帧预测、3D 操作、世界导航和序列推理。

image.gif 编辑

03.涌现特性

image.gif 编辑

 

随着研究团队在BAGEL预训练中引入更多多模态标记,观察到模型在理解、生成和编辑任务上呈现持续性能提升。不同能力在不同训练阶段涌现:多模态理解与生成能力早期显现,基础编辑能力随后出现,而复杂的智能编辑能力则后期形成。这种阶段性进展表明存在涌现模式——高级多模态推理能力建立在完善的基础技能之上。

消融研究表明,结合 VAE 和 ViT 特征显著提高了智能编辑,强调了视觉-语义上下文在实现复杂多模态推理中的重要性,并进一步支持其在高级能力出现中的作用。

04.基准测试

1. 视觉理解

模型

MME ↑

MMBench ↑

MMMU ↑

MM-Vet ↑

MathVista ↑

Janus-Pro-7B

-

79.2

41.0

50.0

Qwen2.5-VL-7B

2347

83.5

58.6

67.1

68.2

BAGEL

2388

85.0

55.3

67.2

73.1

 

2. 文本到图像生成 · GenEval

模型

总体 ↑

FLUX-1-dev

0.82

SD3-Medium

0.74

Janus-Pro-7B

0.80

BAGEL

0.88

 

3. 图像编辑

模型

GEdit-Bench-EN (SC) ↑

GEdit-Bench-EN (PQ) ↑

GEdit-Bench-EN (O) ↑

IntelligentBench ↑

Step1X-Edit

7.09

6.76

6.70

14.9

Gemini-2-exp.

6.73

6.61

6.32

57.6

BAGEL

7.36

6.83

6.52

44.0

BAGEL+CoT

55.3

05.模型使用

1. 下载代码仓库,并安装依赖

git clone https://github.com/bytedance-seed/BAGEL.git
cd BAGEL
pip install -r requirements.txt

image.gif

2. 下载模型

modelscope download ByteDance-Seed/BAGEL-7B-MoT --local_dir ./models/BAGEL-7B-MoT/

image.gif

3. 开启WebUI

pip install gradio
python app.py

image.gif

显存占用:

image.gif 编辑

点击阅读原文,即可跳转模型~

https://modelscope.cn/models/ByteDance-Seed/BAGEL-7B-MoT

目录
相关文章
|
20天前
|
机器学习/深度学习 自然语言处理 算法框架/工具
实战 | Qwen2.5-VL模型目标检测(Grounding)任务领域微调教程
在目标检测领域,众多神经网络模型早已凭借其卓越的性能,实现了精准的目标检测与目标分割效果。然而,随着多模态模型的崛起,其在图像分析方面展现出的非凡能力,为该领域带来了新的机遇。多模态模型不仅能够深入理解图像内容,还能将这种理解转化为文本形式输出,极大地拓展了其应用场景。
1363 74
|
19天前
|
人工智能 数据挖掘 API
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充
141 21
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充
|
9天前
|
机器学习/深度学习 编解码 缓存
通义万相首尾帧图模型一键生成特效视频!
本文介绍了阿里通义发布的Wan2.1系列模型及其首尾帧生视频功能。该模型采用先进的DiT架构,通过高效的VAE模型降低运算成本,同时利用Full Attention机制确保生成视频的时间与空间一致性。模型训练分为三个阶段,逐步优化首尾帧生成能力及细节复刻效果。此外,文章展示了具体案例,并详细说明了训练和推理优化方法。目前,该模型已开源。
|
9天前
|
机器学习/深度学习 编解码 文字识别
小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!
今天,小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。
135 9
|
20天前
|
人工智能 数据可视化 物联网
Reasoning模型蒸馏实践:用大模型提升小模型能力
DeepSeek-R1的爆火让更多开发者注意到模型蒸馏技术——这种让小模型也能"开小灶"习得大模型知识精华的秘诀。今天我们就用Qwen2.5-1.5B小模型(相当于AI界的初中生)来进行实践!
112 5
|
19天前
|
人工智能 小程序 计算机视觉
AI不只有大模型,小模型也蕴含着大生产力
近年来,AI大模型蓬勃发展,从ChatGPT掀起全球热潮,到国内“百模大战”爆发,再到DeepSeek打破算力壁垒,AI技术不断刷新认知。然而,在大模型备受关注的同时,许多小而精的细分模型却被忽视。这些轻量级模型无需依赖强大算力,可运行于手机、手持设备等边缘终端,广泛应用于物体识别、条码扫描、人体骨骼检测等领域。例如,通过人体识别模型衍生出的运动与姿态识别能力,已在AI体育、康复训练、线上赛事等场景中展现出巨大潜力,大幅提升了相关领域的效率与应用范围。本文将带您深入了解这些高效的小模型及其实际价值。
|
1月前
|
人工智能 负载均衡 数据可视化
10分钟上手全球开源模型冠军 Qwen3
阿里通义千问Qwen3在最新全球AI基准测试中智能水平位列全球前五,开源第一,且成本优势显著,推理成本仅为DeepSeek-R1的1/3、Claude 3.7的1/20。Qwen3支持119种语言,具备强大的代码和数学能力,同时提供思考与非思考两种模式无缝切换,适合复杂与简单任务。通过阿里云百炼平台,用户可在10分钟内快速搭建Qwen3模型服务,结合Cherry Studio客户端实现便捷交互。本文详细介绍了Qwen3的部署、体验及工具调用能力,帮助用户轻松上手。
638 78
|
1月前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
158 17

热门文章

最新文章