国内外多模态大模型对比
国内
LLaMA-Adapter V2
香港中文大学
双语输出
输入
•图像
•语音
•文本
•视频
• 3D 点云
起源:LLaMA-Adapter
•在线性层上进行偏差调整
•提出了一种简单的早期融合策略。旨在阻止输入视觉提示与自适应提示直接相互作用,产生负面影响
•利用字幕、检测和 OCR ( Optical Character Recognition,光学字符识别)等专家系统来增强视觉指令遵循能力。
VisualGLM-6B
清华大学
输入
•图形
•中英文
训练模型
•BLIP2-Qformer
•Qformer:轻量级Transformer
62亿个参数
基模型:ChatGLM
•产生
• KEG 实验室
•智谱 AI
•VisualGLM-6B基于 ChatGLM4处改进
•1、重新调整归一化和残差连接的顺序,可以有效地防止数字错误
•2、仅使用单一的线性层来输出令牌预测。
•3、用 GeLU 激活函数取代了 ReLU 函数。
•4、ChatGLM-6B 在 GLM 框架下,专门针对中文问答和对话进行了优化
mPLUG-Owl
阿里巴巴达摩研究院
2023年5月
架构
•视觉基础模块(采用开源的VTL-L)
•视觉抽象模块
•预训练的语言模型(LLaMA-7B)
支持输入
•图片
•英文
•视频
基模型: LLaMA
国外
Visual ChatGPT
微软亚洲研究院
2023 年 3 月9 日
在文本和图像之与 ChatGPT并执行更复杂的视觉命令
基模型: ChatGPT
22个视觉模型的知识
InstructBLIP
BLIP 模型的研究团队
MiniGPT-4
开放源代码的聊天机器人
组成
•1、带有预训练的 VT 和 QFormer 视觉编码器
•2、单独的线性层。
•3、 Vicuna LLM。
多模态大模型评测数据集
国内评测数据集
OwlEval
•基于mPLUG-Owl模型发布
• 包含
•50 张图片
•82 个回题
•功能
•故事生成
•广告生成
•代码生成
MME
•开发
•腾讯优图实验室
•厦门大学
国外评测数据集
COCO:Common Objects in Context
•微软
•检测任务
• Object Detection ( 主要用于目标检测 )
•DenscPosc(主要用于姿态密度检测 )
•Key points( 主要用于关键点检测)
•Stuff(主要用于其他物品检测,处理草、墙、天等 )
•Panoptic ( 王要用于场景分割)
•Captions(主要用于字幕标注)
VQA(Visual Question Answer,视觉问答 )
•图像的开放式问题
•265 016张图片。
•结构
•265 016张图片
•每张图片至少有 3 个问题(平均 5.4个每个问题)
•每个问题
•有 10 个基本事实答案
•有 3 个合理(但可能不正确)的答案
多模态大模型的评测标准
国内评测标准
OwIEva
•人工标注
•A=“正确且令人满意"
•B=“有一些不完美,但可以接受”
•C-“理解了指令但是回复内容存在明显错误”
•D=“完全不相关或者不正确的回复内容”
MME
•二分类的“是”或“否”
•精度 (Accuracy)
•精度+ (Accuracy+)
国外评测标准
CoCo
•采用
•mAP (mean Average Precision.平为精度的平均值)
•AP (Average Precision,平均精度)
目标检测领域
•lOU(用交并比 Intersection Over Union)
•第一种方法是将 IOU以0.5到0.95设置0.05的间隔,分别计算出 mAP,最后平均数
•第二种方法是根据IOU分别为0.5和0.75的阀值来计算特定的平均精度
•还在对不同尺寸物体的多个 mAP,它们分别表示小物体、中等物体和大物体
•平均召回率Average Recall,AR)也是一种常见的度量方式。
VQA 数据集
• PLCC (Pearson Linear Correlation Coefficient,皮尔逊线性相关系数 )
•SROCC(Spearman Rank Order Correlation Coefficient,斯皮尔曼秩相关系数)
•KROCC( Kendall Rank Order Correlation Coefficient,肯德尔秩相关系数)
•RMSE( Root Mean Square Error,均方根误差 )
多模态大模型对比
感知能力评测
排名
•1 BLIP-2 1293.84
•2 InstructBLIP 1212.82
•3 LLMAAdapter-V2 972.67
•4 mPLUG-Owl 967.35
•5 LaVIN 963.61
粗粒度识别任务
•判断(Existence )
•计数( Count)
•位置判断( Position)
•颜色识别 (Color)
细粒度识别任务
•海报识别 (Poster)
•名人识别(Celebrity)
•场景识别(Scene )
•地标识别(Landmark)
•艺术品识别(Artwork)