社区供稿 | 封神榜团队提出首个引入视觉细化器的多模态大模型Ziya-Visual-Lyrics,多个任务SOTA

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块,推出了多模态大模型Ziya-Visual-Lyrics。

多模态大模型在输入输出上涵盖了图像、音频、视频等模态,让大模型超越了大语言模型的范畴,为大模型赋予了更强大的功能。如最近引起广泛关注的GPT4V、Gemini等,就让人们看到了多模态大模型的更多价值和可能性在此背景下,业界对多模态大模型的研究不断深入,多模态大模型相关技术也随之不断发展突破。


封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块,推出了多模态大模型Ziya-Visual-Lyrics。评测结果显示,Ziya-Visual-Lyrics在跟开源多模态大模型的对比中取得多个零样本任务SOTA,模型效果亮眼


欢迎大家点击下方链接下载,也可通过魔搭创空间、HuggingfaceSpace体验我们的模型,与我们分享你的使用感受!


论文链接

https://arxiv.org/abs/2312.05278

 

模型下载链接

ModelScope

Huggingface

ModelScope:

https://modelscope.cn/models/Fengshenbang/Ziya-Visual-Lyrics-14B/summary


Huggingface:

https://huggingface.co/IDEA-CCNL/Ziya-Visual-Lyrics-14B


模型体验链接

ModelScope

Huggingface

ModelScope:

https://modelscope.cn/studios/Fengshenbang/Ziya-Visual-Lyrics

Huggingface:

https://huggingface.co/spaces/IDEA-CCNL/Ziya-Visual-Lyrics


多模态大模型的局限


主流的多模态大模型(MLLM),如LLaVA、BLIP2和Shikra只采用CLIP模型中的ViT作为图像编码器,缺乏细粒度的视觉对象识别阻碍了模型对图像细节的理解,导致模型出现视觉幻觉和事实错误,比如针对图片中对象的颜色、计数、详细描述、动作识别、定位等问答的准确性有待提高。


封神榜大模型团队在研究中高度关注了细粒度问题并首次引入视觉细化器,推出了多模态大模型Ziya-Visual-Lyrics,为前多模态大模型存在的以上局限提出了具有创新性和借鉴性的解决方案。


 

Ziya-Visual-Lyrics的亮点所在


提出细粒度两阶段视觉语言训练框架

我们提出了一个细粒度的两阶段视觉语言训练框架——Lyrics,通过视觉语言对齐范式来促使模型能够处理语义感知的视觉对象。

引入视觉细化器与MQ-Former

Ziya-Visual-Lyrics 引入了视觉细化器来提取局部视觉特征和具化的空间表征,该视觉细化器由图像标记、目标检测和语义分割模块组成。同时,我们提出了多尺度Querying Transformer (MQ-Former) 结构来对齐视觉和语言特征。


在不同视觉语言任务上(包括Image Captioning, Visual Question Answering, Referring Expression Comprehension 以及多模态评测排行榜)进行的广泛评测结果表明:Lyrics模型效果优秀,在多个评测上都有着极具竞争力的表现。

 


模型架构


图像编码器

在图像编码器方面,我们沿用了CLIP中采用的ViT-L/14来抽取图像的全局特征。 


视觉细化器

采用三个视觉模块抽取图像的局部特征,包括:

(1)  图像标记模块:

RAM模型,从图片中提取所有潜在的视觉对象的标签,记为

(2)  目标检测模块:

Grounded DINO模型,根据图片和标签提取置信度高于阈值的检测框坐标,记为

(3)  语义分割模块:

SAM模型,根据图片和检测框获取视觉目标的语义掩码特征


MQ-Former

(1)   图像Transformer:

我们创建了一组固定数量的可学习Visual Queries和Grounding Queries,它们分别通过两个独立的交叉注意层与图像编码器和视觉细化器交互以输出压缩的视觉特征。

(2)   文本Transformer:

将图像的空间表征设计为以下格式,并和图片的描述拼接后作为文本输入。

(3)   MQ-Former内部共享self-attention层参数

 


一阶段训练:视觉语言表征对齐


由于引入了视觉细化器,一阶段通过四个训练目标进行对齐。

输出表示:在视觉Transformer端中,将输出的Visual Queries表征和Grounding Queries表征经过Pooling层后得到的Hv Hg 拼接成HI在文本Transformer端中,将[BOS] 和[CLS] 对应的输出表征Hsp Hic 拼接成HT


Image-Text Contrastive Learning (ITC):

视觉和文本特征互相Mask以防止信息泄露,通过鼓励积极的图像-文本对的相似表征,来区分具有与消极的图像-文本对以对齐多尺度的视觉和文本表示。

Image-Text Matching (ITM):

分别捕获视觉和文本之间的粗粒度和细粒度语义对齐,使用区域化双向自注意力机制,局部视觉特征和空间表征/全局视觉特征和图像描述互相可视。Hv Hg 经过具有softmax的分类层做二分类任务。

Image-Grounded Caption Generating (ICG):

仅基于视觉信号生成图片描述,旨在让模型学习将抽象的视觉特征转换为具体的图像描述。采用跨模态的因果注意力机制,并替换[CLS] 为[DEC] 来象征语言建模任务。

Masked Spatial Predicting (MSP):

通过细粒度多模态对齐学习语义感知的视觉对象,使用Mask掩盖并预测空间表征的每一项完整视觉对象。采用跨模态的双向注意力机制,并替换[BOS] 为[MLM] 。


二阶段训练:指令微调


在指令微调阶段,我们将MQ-Former输出的Queries表征通过一个可训练的线性映射层后作为LLM的输入,并启用LoRA训练LLM,以适应多种多模态场景下的输入和输出。

 

数据

预训练数据

我们从开源数据集中收集了26亿图文对,并进行了数据处理,最终得到了5亿高质量的图文对用于进行一阶段的预训练。



指令微调数据

Lyrics二阶段的微调数据为开源数据集中所收集的7类任务数据24个数据集



实验结果


Ziya-Visual-Lyrics在Image Captioning、Visual Question Answering、Text-Oriented VQA、Referring Expression Comprehension (REC)等大部分任务上都取得了SOTA的效果,同时我们在LLaVA, MME和POPE排行榜测评也取得了SOTA的效果。




Case展示



(1)   视觉细化器提供的局部视觉特征和空间信息有效地促进了细粒度的视觉语言对齐,从而提高了模型捕获和响应面向指令的视觉对象的能力,并具备对文字的识别和分析能力


(2)   在预训练阶段促进文本化空间信息与视觉对象之间的语义对齐,能够提供良好的视觉基础,这有助于提升模型快速适应各个场景下的视觉-语言任务


(3)   在相同体量的情况下,BLIP2、InstructBLIP和Shikra由于缺乏细粒度的视觉信号,无法准确捕获指令中涉及的视觉对象的详细信息。Lyrics在视觉细化器的支持下,在经过两阶段训练后能够有效地感知图片中视觉对象的数量、颜色、方位等细节信息。如在样例1中,Lyrics能够识别在图片中有四个滑雪者处于休息状态,并在指向性对话的功能中,能够指出指定空间坐标下的滑雪者脸色红润且穿着暗红色棉衣和黑色长裤。


(4)   此外,Lyrics很好地将视觉信号融入到LLM的常识理解和逻辑推理能力,这使得模型能够应对图像中的符号象征和代码推理,同时对知名的地点、人物、符号有着很强的识别能力。


通过引入视觉细化器,并进行两阶段的训练,Ziya-Visual-Lyrics对视觉对象的感知识别能力得到了提高。在未来,封神榜大模型团队将继续多模态领域的研究,我们也将持续为社区提供先进的多模态训练技术,分享先进经验,共同推进多模态领域的发展。


创空间链接:

https://modelscope.cn/studios/Fengshenbang/Ziya-Visual-Lyrics/summary

相关实践学习
快速体验阿里云云消息队列RocketMQ版
本实验将带您快速体验使用云消息队列RocketMQ版Serverless系列实例进行获取接入点、创建Topic、创建订阅组、收发消息、查看消息轨迹和仪表盘。
消息队列 MNS 入门课程
1、消息队列MNS简介 本节课介绍消息队列的MNS的基础概念 2、消息队列MNS特性 本节课介绍消息队列的MNS的主要特性 3、MNS的最佳实践及场景应用 本节课介绍消息队列的MNS的最佳实践及场景应用案例 4、手把手系列:消息队列MNS实操讲 本节课介绍消息队列的MNS的实际操作演示 5、动手实验:基于MNS,0基础轻松构建 Web Client 本节课带您一起基于MNS,0基础轻松构建 Web Client
相关文章
|
1月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1137 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
24天前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
279 121
|
24天前
|
数据采集 人工智能 搜索推荐
智能新纪元:多模态大模型如何重塑人机交互
智能新纪元:多模态大模型如何重塑人机交互
190 113
|
24天前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
234 114
|
24天前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
212 117
|
3月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
441 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
443 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型

热门文章

最新文章