多模态大模型技术原理及实战(5)

简介: 国内外多模态大模型对比

国内外多模态大模型对比

国内

LLaMA-Adapter V2

香港中文大学

双语输出

输入

•图像

•语音

•文本

•视频

• 3D 点云

起源:LLaMA-Adapter  

•在线性层上进行偏差调整

•提出了一种简单的早期融合策略。旨在阻止输入视觉提示与自适应提示直接相互作用,产生负面影响

•利用字幕、检测和 OCR ( Optical Character Recognition,光学字符识别)等专家系统来增强视觉指令遵循能力。

VisualGLM-6B

清华大学

输入

•图形

•中英文

训练模型

•BLIP2-Qformer

•Qformer:轻量级Transformer

62亿个参数

基模型:ChatGLM

•产生

• KEG 实验室

•智谱 AI

•VisualGLM-6B基于 ChatGLM4处改进

•1、重新调整归一化和残差连接的顺序,可以有效地防止数字错误

•2、仅使用单一的线性层来输出令牌预测。

•3、用 GeLU 激活函数取代了 ReLU 函数。

•4、ChatGLM-6B 在 GLM 框架下,专门针对中文问答和对话进行了优化

mPLUG-Owl

阿里巴巴达摩研究院

2023年5月

架构

•视觉基础模块(采用开源的VTL-L)

•视觉抽象模块

•预训练的语言模型(LLaMA-7B)

支持输入

•图片

•英文

•视频

基模型: LLaMA

国外

Visual ChatGPT

微软亚洲研究院

2023 年 3 月9 日

在文本和图像之与 ChatGPT并执行更复杂的视觉命令

基模型: ChatGPT

22个视觉模型的知识

InstructBLIP

BLIP 模型的研究团队

MiniGPT-4

开放源代码的聊天机器人

组成

•1、带有预训练的 VT 和 QFormer 视觉编码器

•2、单独的线性层。

•3、 Vicuna LLM

多模态大模型评测数据集

国内评测数据集

OwlEval

•基于mPLUG-Owl模型发布

• 包含

•50 张图片

•82 个回题

•功能

•故事生成

•广告生成

•代码生成

MME

•开发

•腾讯优图实验室

•厦门大学

国外评测数据集

COCO:Common Objects in Context

•微软

•检测任务

• Object Detection ( 主要用于目标检测 )

•DenscPosc(主要用于姿态密度检测 )

•Key points( 主要用于关键点检测)

•Stuff(主要用于其他物品检测,处理草、墙、天等 )

•Panoptic ( 王要用于场景分割)

•Captions(主要用于字幕标注)

VQA(Visual Question Answer,视觉问答 )

•图像的开放式问题

•265 016张图片。

•结构

•265 016张图片

•每张图片至少有 3 个问题(平均 5.4个每个问题)

•每个问题

•有 10 个基本事实答案

•有 3 个合理(但可能不正确)的答案

多模态大模型的评测标准

国内评测标准

OwIEva

•人工标注

•A=“正确且令人满意"

•B=“有一些不完美,但可以接受”

•C-“理解了指令但是回复内容存在明显错误”

•D=“完全不相关或者不正确的回复内容”

MME

•二分类的“是”或“否”

•精度 (Accuracy)

•精度+ (Accuracy+)

国外评测标准

CoCo

•采用

•mAP (mean Average Precision.平为精度的平均值)

•AP (Average Precision,平均精度)

目标检测领域

•lOU(用交并比 Intersection Over Union)

•第一种方法是将 IOU以0.5到0.95设置0.05的间隔,分别计算出 mAP,最后平均数

•第二种方法是根据IOU分别为0.5和0.75的阀值来计算特定的平均精度

•还在对不同尺寸物体的多个 mAP,它们分别表示小物体、中等物体和大物体

•平均召回率Average Recall,AR)也是一种常见的度量方式。

VQA 数据集

• PLCC (Pearson Linear Correlation Coefficient,皮尔逊线性相关系数 )

•SROCC(Spearman Rank Order Correlation Coefficient,斯皮尔曼秩相关系数)

•KROCC( Kendall Rank Order Correlation Coefficient,肯德尔秩相关系数)

•RMSE( Root Mean Square Error,均方根误差 )

多模态大模型对比

感知能力评测

排名

•1 BLIP-2 1293.84

•2 InstructBLIP 1212.82

•3 LLMAAdapter-V2 972.67

•4 mPLUG-Owl 967.35

•5 LaVIN 963.61

粗粒度识别任务

•判断(Existence )

•计数( Count)

•位置判断( Position)

•颜色识别 (Color)

细粒度识别任务

•海报识别 (Poster)

•名人识别(Celebrity)

•场景识别(Scene )

•地标识别(Landmark)

•艺术品识别(Artwork)

认知能力评测

即识推理 (Commonsense Reasoning)。

数值计算( Numerical Calculation )

文本翻译(Text Translation)

代码推理(Code Reasoning)

目录
相关文章
|
6月前
|
存储 自然语言处理 算法
【学习大模型】RAG基础
RAG(Retrieval-Augmented Generation)技术是为了解决大模型中的幻觉问题、实时交互、数据安全和知识动态性挑战。它结合了搜索和大模型的提示功能,使模型能基于检索到的信息生成更准确的回答。RAG通过向量数据库和向量检索,将文本转化为向量表示,然后进行相似度计算和检索,以提供上下文相关的信息。
658 1
|
1月前
|
机器学习/深度学习 自然语言处理 机器人
深度剖析模型微调与RAG技术的完美融合:从理论到实践,带你全面了解如何利用RAG提升特定领域任务性能并附带代码示例
【10月更文挑战第2天】随着深度学习的发展,预训练模型因通用表示能力和高效性备受关注。模型微调通过在已训练模型基础上进行再训练,使其适应特定任务或数据集,提升性能。RAG(Retrieval-Augmented Generation)结合检索与生成技术,在生成响应前检索相关信息,特别适用于需要背景知识的任务。本文通过构建医学问答机器人的示例,展示如何初始化RAG模型并利用实际数据集进行微调,从而提升生成答案的准确性和可信度。
91 4
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
多模态大模型技术原理与实战(3)
ChatGPT引爆了以AIGC(人工智能生成内容)为代表的第四范式 AI的市场,并成为 AI市场的热点
108 3
多模态大模型技术原理与实战(3)
|
1月前
|
机器学习/深度学习 自然语言处理 数据挖掘
从理论到实践:详解GraphRAG框架下的多模态内容理解与生成
【10月更文挑战第10天】随着多媒体内容的爆炸性增长,如何有效地理解和生成跨模态的数据(如图像、文本和视频)变得越来越重要。近年来,图神经网络(GNNs)因其在处理非结构化数据方面的强大能力而受到广泛关注。在此背景下,Graph Retrieval-Augmented Generation (GraphRAG) 框架作为一种新的方法,通过结合图检索和生成模型来提升多模态内容的理解与生成效果。本文将深入探讨GraphRAG的基本原理、核心组件以及实际应用,并通过代码示例展示其在多媒体内容处理中的潜力。
123 0
|
2月前
|
机器学习/深度学习 自然语言处理 并行计算
多模态大模型技术原理与实战(2)
大模型被广泛应用有以下几个前提:效果好、效率高、成本可控,目前,大模型在这几个方面还不够理想。
108 5
|
2月前
|
机器学习/深度学习 编解码 自然语言处理
多模态大模型技术原理与实战(4)
本文介绍了多模态大模型的核心技术,包括数据集标注、数据表征、文本生成图像/语音/视频的方法、语音生成技术、视频生成模型以及跨模态融合技术。重点讨论了不同模型如GAN、VAE、Transformer和扩散模型的应用,并介绍了高效训练方法如Prefix Tuning、LORA等。此外,还详细描述了GPT-4的核心技术,如Transformer架构及其衍生物。
75 5
|
2月前
|
物联网 PyTorch 算法框架/工具
多模态大模型技术原理及实战(6)
中小型公司大模型构建之路如何选择
47 4
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
多模态大模型技术原理与实战学习笔记(1)
多模态大模型技术原理与实战学习笔记
82 4
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】AudioLM音频生成模型概述及应用场景,项目实践及案例分析
AudioLM(Audio Language Model)是一种基于深度学习的音频生成模型,它使用自回归或变分自回归的方法来生成连续的音频信号。这类模型通常建立在Transformer架构或者类似的序列到序列(Seq2Seq)框架上,通过学习大量音频数据中的统计规律,能够生成具有高保真度和创造性的音频片段。AudioLM模型不仅能够合成音乐、语音,还能生成自然界的声音、环境噪声等,其应用广泛,涵盖了娱乐、教育、辅助技术、内容创作等多个领域。
95 1
|
3月前
|
机器学习/深度学习 自然语言处理 自动驾驶
【深度学习】深度学习的详细解析:涵盖定义、技术原理及应用场景
深度学习(Deep Learning)是机器学习(Machine Learning)的一个重要分支,它通过使用多层的神经网络来模拟人脑的学习过程,从而实现对数据的分析和理解。以下是关于深度学习的详细解析
202 2