社区供稿 | 封神榜团队提出首个引入视觉细化器的多模态大模型Ziya-Visual-Lyrics,多个任务SOTA

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块,推出了多模态大模型Ziya-Visual-Lyrics。

多模态大模型在输入输出上涵盖了图像、音频、视频等模态,让大模型超越了大语言模型的范畴,为大模型赋予了更强大的功能。如最近引起广泛关注的GPT4V、Gemini等,就让人们看到了多模态大模型的更多价值和可能性在此背景下,业界对多模态大模型的研究不断深入,多模态大模型相关技术也随之不断发展突破。


封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块,推出了多模态大模型Ziya-Visual-Lyrics。评测结果显示,Ziya-Visual-Lyrics在跟开源多模态大模型的对比中取得多个零样本任务SOTA,模型效果亮眼


欢迎大家点击下方链接下载,也可通过魔搭创空间、HuggingfaceSpace体验我们的模型,与我们分享你的使用感受!


论文链接

https://arxiv.org/abs/2312.05278

 

模型下载链接

ModelScope

Huggingface

ModelScope:

https://modelscope.cn/models/Fengshenbang/Ziya-Visual-Lyrics-14B/summary


Huggingface:

https://huggingface.co/IDEA-CCNL/Ziya-Visual-Lyrics-14B


模型体验链接

ModelScope

Huggingface

ModelScope:

https://modelscope.cn/studios/Fengshenbang/Ziya-Visual-Lyrics

Huggingface:

https://huggingface.co/spaces/IDEA-CCNL/Ziya-Visual-Lyrics


多模态大模型的局限


主流的多模态大模型(MLLM),如LLaVA、BLIP2和Shikra只采用CLIP模型中的ViT作为图像编码器,缺乏细粒度的视觉对象识别阻碍了模型对图像细节的理解,导致模型出现视觉幻觉和事实错误,比如针对图片中对象的颜色、计数、详细描述、动作识别、定位等问答的准确性有待提高。


封神榜大模型团队在研究中高度关注了细粒度问题并首次引入视觉细化器,推出了多模态大模型Ziya-Visual-Lyrics,为前多模态大模型存在的以上局限提出了具有创新性和借鉴性的解决方案。


 

Ziya-Visual-Lyrics的亮点所在


提出细粒度两阶段视觉语言训练框架

我们提出了一个细粒度的两阶段视觉语言训练框架——Lyrics,通过视觉语言对齐范式来促使模型能够处理语义感知的视觉对象。

引入视觉细化器与MQ-Former

Ziya-Visual-Lyrics 引入了视觉细化器来提取局部视觉特征和具化的空间表征,该视觉细化器由图像标记、目标检测和语义分割模块组成。同时,我们提出了多尺度Querying Transformer (MQ-Former) 结构来对齐视觉和语言特征。


在不同视觉语言任务上(包括Image Captioning, Visual Question Answering, Referring Expression Comprehension 以及多模态评测排行榜)进行的广泛评测结果表明:Lyrics模型效果优秀,在多个评测上都有着极具竞争力的表现。

 


模型架构


图像编码器

在图像编码器方面,我们沿用了CLIP中采用的ViT-L/14来抽取图像的全局特征。 


视觉细化器

采用三个视觉模块抽取图像的局部特征,包括:

(1)  图像标记模块:

RAM模型,从图片中提取所有潜在的视觉对象的标签,记为

(2)  目标检测模块:

Grounded DINO模型,根据图片和标签提取置信度高于阈值的检测框坐标,记为

(3)  语义分割模块:

SAM模型,根据图片和检测框获取视觉目标的语义掩码特征


MQ-Former

(1)   图像Transformer:

我们创建了一组固定数量的可学习Visual Queries和Grounding Queries,它们分别通过两个独立的交叉注意层与图像编码器和视觉细化器交互以输出压缩的视觉特征。

(2)   文本Transformer:

将图像的空间表征设计为以下格式,并和图片的描述拼接后作为文本输入。

(3)   MQ-Former内部共享self-attention层参数

 


一阶段训练:视觉语言表征对齐


由于引入了视觉细化器,一阶段通过四个训练目标进行对齐。

输出表示:在视觉Transformer端中,将输出的Visual Queries表征和Grounding Queries表征经过Pooling层后得到的Hv Hg 拼接成HI在文本Transformer端中,将[BOS] 和[CLS] 对应的输出表征Hsp Hic 拼接成HT


Image-Text Contrastive Learning (ITC):

视觉和文本特征互相Mask以防止信息泄露,通过鼓励积极的图像-文本对的相似表征,来区分具有与消极的图像-文本对以对齐多尺度的视觉和文本表示。

Image-Text Matching (ITM):

分别捕获视觉和文本之间的粗粒度和细粒度语义对齐,使用区域化双向自注意力机制,局部视觉特征和空间表征/全局视觉特征和图像描述互相可视。Hv Hg 经过具有softmax的分类层做二分类任务。

Image-Grounded Caption Generating (ICG):

仅基于视觉信号生成图片描述,旨在让模型学习将抽象的视觉特征转换为具体的图像描述。采用跨模态的因果注意力机制,并替换[CLS] 为[DEC] 来象征语言建模任务。

Masked Spatial Predicting (MSP):

通过细粒度多模态对齐学习语义感知的视觉对象,使用Mask掩盖并预测空间表征的每一项完整视觉对象。采用跨模态的双向注意力机制,并替换[BOS] 为[MLM] 。


二阶段训练:指令微调


在指令微调阶段,我们将MQ-Former输出的Queries表征通过一个可训练的线性映射层后作为LLM的输入,并启用LoRA训练LLM,以适应多种多模态场景下的输入和输出。

 

数据

预训练数据

我们从开源数据集中收集了26亿图文对,并进行了数据处理,最终得到了5亿高质量的图文对用于进行一阶段的预训练。



指令微调数据

Lyrics二阶段的微调数据为开源数据集中所收集的7类任务数据24个数据集



实验结果


Ziya-Visual-Lyrics在Image Captioning、Visual Question Answering、Text-Oriented VQA、Referring Expression Comprehension (REC)等大部分任务上都取得了SOTA的效果,同时我们在LLaVA, MME和POPE排行榜测评也取得了SOTA的效果。




Case展示



(1)   视觉细化器提供的局部视觉特征和空间信息有效地促进了细粒度的视觉语言对齐,从而提高了模型捕获和响应面向指令的视觉对象的能力,并具备对文字的识别和分析能力


(2)   在预训练阶段促进文本化空间信息与视觉对象之间的语义对齐,能够提供良好的视觉基础,这有助于提升模型快速适应各个场景下的视觉-语言任务


(3)   在相同体量的情况下,BLIP2、InstructBLIP和Shikra由于缺乏细粒度的视觉信号,无法准确捕获指令中涉及的视觉对象的详细信息。Lyrics在视觉细化器的支持下,在经过两阶段训练后能够有效地感知图片中视觉对象的数量、颜色、方位等细节信息。如在样例1中,Lyrics能够识别在图片中有四个滑雪者处于休息状态,并在指向性对话的功能中,能够指出指定空间坐标下的滑雪者脸色红润且穿着暗红色棉衣和黑色长裤。


(4)   此外,Lyrics很好地将视觉信号融入到LLM的常识理解和逻辑推理能力,这使得模型能够应对图像中的符号象征和代码推理,同时对知名的地点、人物、符号有着很强的识别能力。


通过引入视觉细化器,并进行两阶段的训练,Ziya-Visual-Lyrics对视觉对象的感知识别能力得到了提高。在未来,封神榜大模型团队将继续多模态领域的研究,我们也将持续为社区提供先进的多模态训练技术,分享先进经验,共同推进多模态领域的发展。


创空间链接:

https://modelscope.cn/studios/Fengshenbang/Ziya-Visual-Lyrics/summary

相关实践学习
消息队列RocketMQ版:基础消息收发功能体验
本实验场景介绍消息队列RocketMQ版的基础消息收发功能,涵盖实例创建、Topic、Group资源创建以及消息收发体验等基础功能模块。
消息队列 MNS 入门课程
1、消息队列MNS简介 本节课介绍消息队列的MNS的基础概念 2、消息队列MNS特性 本节课介绍消息队列的MNS的主要特性 3、MNS的最佳实践及场景应用 本节课介绍消息队列的MNS的最佳实践及场景应用案例 4、手把手系列:消息队列MNS实操讲 本节课介绍消息队列的MNS的实际操作演示 5、动手实验:基于MNS,0基础轻松构建 Web Client 本节课带您一起基于MNS,0基础轻松构建 Web Client
相关文章
|
5月前
|
机器学习/深度学习 自然语言处理 测试技术
社区供稿 | RWKV-6-World 14B正式开源发布,迄今最强的稠密纯RNN大语言模型
2024年7月19日,RWKV 开源基金会宣布正式向全球开源 RWKV-6-World 14B 模型。
|
6月前
|
人工智能 API 计算机视觉
吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务
【6月更文挑战第27天】吴恩达团队提出多模态模型新方法—多样本上下文学习,允许模型无需微调即可快速适应新任务。通过扩大上下文窗口至2000个示例,模型性能在图像分类等任务上显著提升,同时研究了批处理优化以减少计算成本。尽管面临计算开销和数据需求的挑战,但该方法为AI的高效泛化开辟了新途径。[论文链接:https://arxiv.org/abs/2405.09798]
105 5
统一多模态模型来了!智源发布多模态世界模型Emu3!
2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。
|
3月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
73 7
|
3月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
81 10
|
7月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
99 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
7月前
|
编解码 人工智能 自然语言处理
贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合!
【4月更文挑战第15天】贾佳亚团队推出Mini-Gemini模型,旨在缩小与GPT-4和Gemini的性能差距。该模型采用双视觉编码器处理高分辨率图像,提升视觉对话和推理准确性。搭配高质量数据集,增强图像理解和推理能力。Mini-Gemini在零样本基准测试中表现出色,尤其在高分辨率图像处理上。不过,模型在复杂视觉推理和计数能力上仍有改进空间。
40 1
贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合!
|
7月前
|
人工智能 自然语言处理 测试技术
多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源
【4月更文挑战第24天】华中科技大学团队推出PSALM模型,革新多模态图像分割,实现语义、实例及交互式分割任务统一处理,提升效率。模型在多项基准测试中表现优异,支持零样本学习,适用于开放词汇分割等任务。代码开源促进研究,但面临复杂场景处理和计算资源优化的挑战。[链接](https://arxiv.org/abs/2403.14598)
222 2
|
7月前
|
数据可视化 物联网 测试技术
零一万物Yi-1.5系列模型发布并开源!34B/9B/6B 多尺寸魔搭社区推理微调最佳实践教程来啦!
Yi-1.5是Yi的升级版本。 它使用 500B tokens的高质量语料库在 Yi 上持续进行预训练,并在 3M 个多样化的微调样本上进行微调。
|
7月前
|
机器学习/深度学习 自然语言处理 安全
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
676 0

热门文章

最新文章