多模态大模型技术原理及实战(5)

简介: 国内外多模态大模型对比

国内外多模态大模型对比

国内

LLaMA-Adapter V2

香港中文大学

双语输出

输入

•图像

•语音

•文本

•视频

• 3D 点云

起源:LLaMA-Adapter  

•在线性层上进行偏差调整

•提出了一种简单的早期融合策略。旨在阻止输入视觉提示与自适应提示直接相互作用,产生负面影响

•利用字幕、检测和 OCR ( Optical Character Recognition,光学字符识别)等专家系统来增强视觉指令遵循能力。

VisualGLM-6B

清华大学

输入

•图形

•中英文

训练模型

•BLIP2-Qformer

•Qformer:轻量级Transformer

62亿个参数

基模型:ChatGLM

•产生

• KEG 实验室

•智谱 AI

•VisualGLM-6B基于 ChatGLM4处改进

•1、重新调整归一化和残差连接的顺序,可以有效地防止数字错误

•2、仅使用单一的线性层来输出令牌预测。

•3、用 GeLU 激活函数取代了 ReLU 函数。

•4、ChatGLM-6B 在 GLM 框架下,专门针对中文问答和对话进行了优化

mPLUG-Owl

阿里巴巴达摩研究院

2023年5月

架构

•视觉基础模块(采用开源的VTL-L)

•视觉抽象模块

•预训练的语言模型(LLaMA-7B)

支持输入

•图片

•英文

•视频

基模型: LLaMA

国外

Visual ChatGPT

微软亚洲研究院

2023 年 3 月9 日

在文本和图像之与 ChatGPT并执行更复杂的视觉命令

基模型: ChatGPT

22个视觉模型的知识

InstructBLIP

BLIP 模型的研究团队

MiniGPT-4

开放源代码的聊天机器人

组成

•1、带有预训练的 VT 和 QFormer 视觉编码器

•2、单独的线性层。

•3、 Vicuna LLM

多模态大模型评测数据集

国内评测数据集

OwlEval

•基于mPLUG-Owl模型发布

• 包含

•50 张图片

•82 个回题

•功能

•故事生成

•广告生成

•代码生成

MME

•开发

•腾讯优图实验室

•厦门大学

国外评测数据集

COCO:Common Objects in Context

•微软

•检测任务

• Object Detection ( 主要用于目标检测 )

•DenscPosc(主要用于姿态密度检测 )

•Key points( 主要用于关键点检测)

•Stuff(主要用于其他物品检测,处理草、墙、天等 )

•Panoptic ( 王要用于场景分割)

•Captions(主要用于字幕标注)

VQA(Visual Question Answer,视觉问答 )

•图像的开放式问题

•265 016张图片。

•结构

•265 016张图片

•每张图片至少有 3 个问题(平均 5.4个每个问题)

•每个问题

•有 10 个基本事实答案

•有 3 个合理(但可能不正确)的答案

多模态大模型的评测标准

国内评测标准

OwIEva

•人工标注

•A=“正确且令人满意"

•B=“有一些不完美,但可以接受”

•C-“理解了指令但是回复内容存在明显错误”

•D=“完全不相关或者不正确的回复内容”

MME

•二分类的“是”或“否”

•精度 (Accuracy)

•精度+ (Accuracy+)

国外评测标准

CoCo

•采用

•mAP (mean Average Precision.平为精度的平均值)

•AP (Average Precision,平均精度)

目标检测领域

•lOU(用交并比 Intersection Over Union)

•第一种方法是将 IOU以0.5到0.95设置0.05的间隔,分别计算出 mAP,最后平均数

•第二种方法是根据IOU分别为0.5和0.75的阀值来计算特定的平均精度

•还在对不同尺寸物体的多个 mAP,它们分别表示小物体、中等物体和大物体

•平均召回率Average Recall,AR)也是一种常见的度量方式。

VQA 数据集

• PLCC (Pearson Linear Correlation Coefficient,皮尔逊线性相关系数 )

•SROCC(Spearman Rank Order Correlation Coefficient,斯皮尔曼秩相关系数)

•KROCC( Kendall Rank Order Correlation Coefficient,肯德尔秩相关系数)

•RMSE( Root Mean Square Error,均方根误差 )

多模态大模型对比

感知能力评测

排名

•1 BLIP-2 1293.84

•2 InstructBLIP 1212.82

•3 LLMAAdapter-V2 972.67

•4 mPLUG-Owl 967.35

•5 LaVIN 963.61

粗粒度识别任务

•判断(Existence )

•计数( Count)

•位置判断( Position)

•颜色识别 (Color)

细粒度识别任务

•海报识别 (Poster)

•名人识别(Celebrity)

•场景识别(Scene )

•地标识别(Landmark)

•艺术品识别(Artwork)

认知能力评测

即识推理 (Commonsense Reasoning)。

数值计算( Numerical Calculation )

文本翻译(Text Translation)

代码推理(Code Reasoning)

目录
相关文章
|
7月前
|
机器学习/深度学习 数据采集 算法
构建高效图像分类模型:深度学习在处理大规模视觉数据中的应用
随着数字化时代的到来,海量的图像数据被不断产生。深度学习技术因其在处理高维度、非线性和大规模数据集上的卓越性能,已成为图像分类任务的核心方法。本文将详细探讨如何构建一个高效的深度学习模型用于图像分类,包括数据预处理、选择合适的网络架构、训练技巧以及模型优化策略。我们将重点分析卷积神经网络(CNN)在图像识别中的运用,并提出一种改进的训练流程,旨在提升模型的泛化能力和计算效率。通过实验验证,我们的模型能够在保持较低计算成本的同时,达到较高的准确率,为大规模图像数据的自动分类和识别提供了一种有效的解决方案。
|
1月前
|
机器学习/深度学习 自然语言处理 分布式计算
大规模语言模型与生成模型:技术原理、架构与应用
本文深入探讨了大规模语言模型(LLMs)和生成模型的技术原理、经典架构及应用。介绍了LLMs的关键特点,如海量数据训练、深层架构和自监督学习,以及常见模型如GPT、BERT和T5。同时,文章详细解析了生成模型的工作原理,包括自回归模型、自编码器和GANs,并讨论了这些模型在自然语言生成、机器翻译、对话系统和数据增强等领域的应用。最后,文章展望了未来的发展趋势,如模型压缩、跨模态生成和多语言多任务学习。
138 3
|
7月前
|
人工智能 自然语言处理
AIGC核心技术——多模态预训练大模型
【1月更文挑战第14天】AIGC核心技术——多模态预训练大模型
480 4
AIGC核心技术——多模态预训练大模型
|
2月前
|
自然语言处理 索引
RAG入门:理解检索增强生成模型的基本原理
【10月更文挑战第21天】作为一名长期从事自然语言处理(NLP)研究的技术人员,我一直在关注各种新兴技术的发展趋势。其中,检索增强生成(Retrieval-Augmented Generation, RAG)模型引起了我的特别兴趣。RAG技术结合了检索系统和生成模型的优点,旨在解决传统生成模型在处理长文本理解和生成时所面临的挑战。本文将从个人的角度出发,介绍RAG的基本概念、工作原理及其相对于传统生成模型的优势,并探讨一些基本的实现方法。
87 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
多模态大模型技术原理与实战(3)
ChatGPT引爆了以AIGC(人工智能生成内容)为代表的第四范式 AI的市场,并成为 AI市场的热点
148 3
多模态大模型技术原理与实战(3)
|
3月前
|
机器学习/深度学习 编解码 自然语言处理
多模态大模型技术原理与实战(4)
本文介绍了多模态大模型的核心技术,包括数据集标注、数据表征、文本生成图像/语音/视频的方法、语音生成技术、视频生成模型以及跨模态融合技术。重点讨论了不同模型如GAN、VAE、Transformer和扩散模型的应用,并介绍了高效训练方法如Prefix Tuning、LORA等。此外,还详细描述了GPT-4的核心技术,如Transformer架构及其衍生物。
154 5
|
3月前
|
物联网 PyTorch 算法框架/工具
多模态大模型技术原理及实战(6)
中小型公司大模型构建之路如何选择
60 4
|
3月前
|
机器学习/深度学习 自然语言处理 并行计算
多模态大模型技术原理与实战(2)
大模型被广泛应用有以下几个前提:效果好、效率高、成本可控,目前,大模型在这几个方面还不够理想。
143 5
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
多模态大模型技术原理与实战学习笔记(1)
多模态大模型技术原理与实战学习笔记
100 4
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】AudioLM音频生成模型概述及应用场景,项目实践及案例分析
AudioLM(Audio Language Model)是一种基于深度学习的音频生成模型,它使用自回归或变分自回归的方法来生成连续的音频信号。这类模型通常建立在Transformer架构或者类似的序列到序列(Seq2Seq)框架上,通过学习大量音频数据中的统计规律,能够生成具有高保真度和创造性的音频片段。AudioLM模型不仅能够合成音乐、语音,还能生成自然界的声音、环境噪声等,其应用广泛,涵盖了娱乐、教育、辅助技术、内容创作等多个领域。
127 1