社区供稿 | 封神榜团队提出首个引入视觉细化器的多模态大模型Ziya-Visual-Lyrics,多个任务SOTA

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块,推出了多模态大模型Ziya-Visual-Lyrics。

多模态大模型在输入输出上涵盖了图像、音频、视频等模态,让大模型超越了大语言模型的范畴,为大模型赋予了更强大的功能。如最近引起广泛关注的GPT4V、Gemini等,就让人们看到了多模态大模型的更多价值和可能性在此背景下,业界对多模态大模型的研究不断深入,多模态大模型相关技术也随之不断发展突破。


封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块,推出了多模态大模型Ziya-Visual-Lyrics。评测结果显示,Ziya-Visual-Lyrics在跟开源多模态大模型的对比中取得多个零样本任务SOTA,模型效果亮眼


欢迎大家点击下方链接下载,也可通过魔搭创空间、HuggingfaceSpace体验我们的模型,与我们分享你的使用感受!


论文链接

https://arxiv.org/abs/2312.05278

 

模型下载链接

ModelScope

Huggingface

ModelScope:

https://modelscope.cn/models/Fengshenbang/Ziya-Visual-Lyrics-14B/summary


Huggingface:

https://huggingface.co/IDEA-CCNL/Ziya-Visual-Lyrics-14B


模型体验链接

ModelScope

Huggingface

ModelScope:

https://modelscope.cn/studios/Fengshenbang/Ziya-Visual-Lyrics

Huggingface:

https://huggingface.co/spaces/IDEA-CCNL/Ziya-Visual-Lyrics


多模态大模型的局限


主流的多模态大模型(MLLM),如LLaVA、BLIP2和Shikra只采用CLIP模型中的ViT作为图像编码器,缺乏细粒度的视觉对象识别阻碍了模型对图像细节的理解,导致模型出现视觉幻觉和事实错误,比如针对图片中对象的颜色、计数、详细描述、动作识别、定位等问答的准确性有待提高。


封神榜大模型团队在研究中高度关注了细粒度问题并首次引入视觉细化器,推出了多模态大模型Ziya-Visual-Lyrics,为前多模态大模型存在的以上局限提出了具有创新性和借鉴性的解决方案。


 

Ziya-Visual-Lyrics的亮点所在


提出细粒度两阶段视觉语言训练框架

我们提出了一个细粒度的两阶段视觉语言训练框架——Lyrics,通过视觉语言对齐范式来促使模型能够处理语义感知的视觉对象。

引入视觉细化器与MQ-Former

Ziya-Visual-Lyrics 引入了视觉细化器来提取局部视觉特征和具化的空间表征,该视觉细化器由图像标记、目标检测和语义分割模块组成。同时,我们提出了多尺度Querying Transformer (MQ-Former) 结构来对齐视觉和语言特征。


在不同视觉语言任务上(包括Image Captioning, Visual Question Answering, Referring Expression Comprehension 以及多模态评测排行榜)进行的广泛评测结果表明:Lyrics模型效果优秀,在多个评测上都有着极具竞争力的表现。

 


模型架构


图像编码器

在图像编码器方面,我们沿用了CLIP中采用的ViT-L/14来抽取图像的全局特征。 


视觉细化器

采用三个视觉模块抽取图像的局部特征,包括:

(1)  图像标记模块:

RAM模型,从图片中提取所有潜在的视觉对象的标签,记为

(2)  目标检测模块:

Grounded DINO模型,根据图片和标签提取置信度高于阈值的检测框坐标,记为

(3)  语义分割模块:

SAM模型,根据图片和检测框获取视觉目标的语义掩码特征


MQ-Former

(1)   图像Transformer:

我们创建了一组固定数量的可学习Visual Queries和Grounding Queries,它们分别通过两个独立的交叉注意层与图像编码器和视觉细化器交互以输出压缩的视觉特征。

(2)   文本Transformer:

将图像的空间表征设计为以下格式,并和图片的描述拼接后作为文本输入。

(3)   MQ-Former内部共享self-attention层参数

 


一阶段训练:视觉语言表征对齐


由于引入了视觉细化器,一阶段通过四个训练目标进行对齐。

输出表示:在视觉Transformer端中,将输出的Visual Queries表征和Grounding Queries表征经过Pooling层后得到的Hv Hg 拼接成HI在文本Transformer端中,将[BOS] 和[CLS] 对应的输出表征Hsp Hic 拼接成HT


Image-Text Contrastive Learning (ITC):

视觉和文本特征互相Mask以防止信息泄露,通过鼓励积极的图像-文本对的相似表征,来区分具有与消极的图像-文本对以对齐多尺度的视觉和文本表示。

Image-Text Matching (ITM):

分别捕获视觉和文本之间的粗粒度和细粒度语义对齐,使用区域化双向自注意力机制,局部视觉特征和空间表征/全局视觉特征和图像描述互相可视。Hv Hg 经过具有softmax的分类层做二分类任务。

Image-Grounded Caption Generating (ICG):

仅基于视觉信号生成图片描述,旨在让模型学习将抽象的视觉特征转换为具体的图像描述。采用跨模态的因果注意力机制,并替换[CLS] 为[DEC] 来象征语言建模任务。

Masked Spatial Predicting (MSP):

通过细粒度多模态对齐学习语义感知的视觉对象,使用Mask掩盖并预测空间表征的每一项完整视觉对象。采用跨模态的双向注意力机制,并替换[BOS] 为[MLM] 。


二阶段训练:指令微调


在指令微调阶段,我们将MQ-Former输出的Queries表征通过一个可训练的线性映射层后作为LLM的输入,并启用LoRA训练LLM,以适应多种多模态场景下的输入和输出。

 

数据

预训练数据

我们从开源数据集中收集了26亿图文对,并进行了数据处理,最终得到了5亿高质量的图文对用于进行一阶段的预训练。



指令微调数据

Lyrics二阶段的微调数据为开源数据集中所收集的7类任务数据24个数据集



实验结果


Ziya-Visual-Lyrics在Image Captioning、Visual Question Answering、Text-Oriented VQA、Referring Expression Comprehension (REC)等大部分任务上都取得了SOTA的效果,同时我们在LLaVA, MME和POPE排行榜测评也取得了SOTA的效果。




Case展示



(1)   视觉细化器提供的局部视觉特征和空间信息有效地促进了细粒度的视觉语言对齐,从而提高了模型捕获和响应面向指令的视觉对象的能力,并具备对文字的识别和分析能力


(2)   在预训练阶段促进文本化空间信息与视觉对象之间的语义对齐,能够提供良好的视觉基础,这有助于提升模型快速适应各个场景下的视觉-语言任务


(3)   在相同体量的情况下,BLIP2、InstructBLIP和Shikra由于缺乏细粒度的视觉信号,无法准确捕获指令中涉及的视觉对象的详细信息。Lyrics在视觉细化器的支持下,在经过两阶段训练后能够有效地感知图片中视觉对象的数量、颜色、方位等细节信息。如在样例1中,Lyrics能够识别在图片中有四个滑雪者处于休息状态,并在指向性对话的功能中,能够指出指定空间坐标下的滑雪者脸色红润且穿着暗红色棉衣和黑色长裤。


(4)   此外,Lyrics很好地将视觉信号融入到LLM的常识理解和逻辑推理能力,这使得模型能够应对图像中的符号象征和代码推理,同时对知名的地点、人物、符号有着很强的识别能力。


通过引入视觉细化器,并进行两阶段的训练,Ziya-Visual-Lyrics对视觉对象的感知识别能力得到了提高。在未来,封神榜大模型团队将继续多模态领域的研究,我们也将持续为社区提供先进的多模态训练技术,分享先进经验,共同推进多模态领域的发展。


创空间链接:

https://modelscope.cn/studios/Fengshenbang/Ziya-Visual-Lyrics/summary

相关实践学习
RocketMQ一站式入门使用
从源码编译、部署broker、部署namesrv,使用java客户端首发消息等一站式入门RocketMQ。
消息队列 MNS 入门课程
1、消息队列MNS简介 本节课介绍消息队列的MNS的基础概念 2、消息队列MNS特性 本节课介绍消息队列的MNS的主要特性 3、MNS的最佳实践及场景应用 本节课介绍消息队列的MNS的最佳实践及场景应用案例 4、手把手系列:消息队列MNS实操讲 本节课介绍消息队列的MNS的实际操作演示 5、动手实验:基于MNS,0基础轻松构建 Web Client 本节课带您一起基于MNS,0基础轻松构建 Web Client
相关文章
|
3天前
|
人工智能 自然语言处理 测试技术
多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源
【4月更文挑战第24天】华中科技大学团队推出PSALM模型,革新多模态图像分割,实现语义、实例及交互式分割任务统一处理,提升效率。模型在多项基准测试中表现优异,支持零样本学习,适用于开放词汇分割等任务。代码开源促进研究,但面临复杂场景处理和计算资源优化的挑战。[链接](https://arxiv.org/abs/2403.14598)
8 2
|
6天前
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
12 0
|
11天前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
20 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
4月前
|
机器学习/深度学习 自然语言处理 安全
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
279 0
|
4月前
|
机器学习/深度学习 存储 人工智能
极智AI | 谈谈模型量化组织方式
本文主要聊一下深度学习模型量化组织方式。
125 0
|
8月前
|
自然语言处理 文字识别 计算机视觉
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
135 0
|
9月前
|
机器学习/深度学习 存储 编解码
【OpenVI—论文解读系列】ICCV | 开源融合不确定度的自监督MVS框架
论文链接:Digging into Uncertainty inSelf-supervised Multi-view Stereo 多视图立体视觉作为计算机视觉领域的一项基本的任务,利用同一场景在不同视角下的多张图片来重构3D的信息。自监督多视角立体视觉(MVS)近年来取得了显著的进展。然而,以往的方法缺乏对自监督MVS中pretext任务提供的监督信号进行有效性的全面解释。本文首次提出在自监督MVS中估计认知不确定性(epistemic uncertainty)。
234 5
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态
剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态
111 0
|
11月前
|
机器学习/深度学习 达摩院 数据建模
ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2
ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2
156 0
|
11月前
|
机器学习/深度学习 存储 人工智能
阿里巴巴提出USI 让AI炼丹自动化了,训练任何Backbone无需超参配置,实现大一统!
阿里巴巴提出USI 让AI炼丹自动化了,训练任何Backbone无需超参配置,实现大一统!
252 0