多模态大模型技术原理与实战(4)

简介: 本文介绍了多模态大模型的核心技术,包括数据集标注、数据表征、文本生成图像/语音/视频的方法、语音生成技术、视频生成模型以及跨模态融合技术。重点讨论了不同模型如GAN、VAE、Transformer和扩散模型的应用,并介绍了高效训练方法如Prefix Tuning、LORA等。此外,还详细描述了GPT-4的核心技术,如Transformer架构及其衍生物。

多模态大模型核心技术

1多模态的困难

困难

数据集标志困难

人工标注生成

COCO

Visual Genome

...

非工标注生成

Conceptual Captions 3M

Conceptual Captions 12M

ALT200M

ALIGN18B

LAION-400M

...

数据表征

多模态转换

2文本多模态技术

图像生成文本方法

基于模板的图像描述方法

支持向量机(SVM)

3种元索

物体

动作

场景

基于检索的图像描述方法

搜寻相似之处

基于深度学习的图像描述方法

编码器-解码器(Encoder-Decoder)模型

深度学习方法可以直接从海量数据中学习图文本的映射,并生成更精确的描述结果

框架

CNN-RNN 框架:Ryan Kiros 等人2014 年

原理

以 CNN 为图像编码器,以 RNN为文本解码器,编码器和解码器之间依靠图像的隐状态连接

GAN框架

 无监督的深度学习模型

博弈式学习从未标记的数据中学习特征

结构

 生成器:CNN 提取图像特征,加人噪声作为输人,使用LSTM 网络生成句子

 判别器:用 LSTM 网络对句子(生成器生成的句子和真实的句子 )进行编码,与图像特征一起处理,得到一个概率值用以约束生成器的质量

3 图像多模态技术

图像生成文本

模型

OpenAl的DALL-E2和GPT4

谷歌大脑的 lmaen和Stable Diffusion

百度的文心一言

文本生成图像

基于GAN的文本生成图像方法

AlignDRAW:第一个现代文本生成图像模型,多伦多大学,Elman Mansimov等人发布,基于 Microsoft COCO 数据集训练,用于标题生成图像,属于编码器-解码器框架

基于双向循环神经网络(BiRNN)的文本处理器

有条件的绘图网络、变形的深度递归注意力写人器(Deep RecurrentAttentive Writer,DRAW)

GAN(生成对抗网络 Generative Adversarial Network)

简介:从 2016 年起,被大量应用于文图对齐的任务中,成为图像生成的新起点,博弈论

模型

 GAN-NT-CLS:

 左边为生成器:输入文本编码和随机噪声

 右边为判别器:输人图像和文本编码

 原理:判别器通过判断生成的图像与文本描述是否贴合对齐的训练文本与图像,不断提高两者的贴合度,从而达到良好的生成效果

 StackGAN:两个 GAN ,Stage-I GAN和Stage-II GAN

 AttnGAN

基于VAE(变分自编码器 Variational-Auto-Encoder)的文本生成图像方法

DALL-E 模型:OpenAI,2021 年。实现文本生成图像,使用GPT-3 框架和GAN框架,参数百亿

 变革:2020 年之前,基于 GAN 和 VAE 处理文本生成图像任务是工业界和学术界的主流,当前主流的文本生成图像技术当属于扩散模型

 扩散模型

 模型

 去噪扩散概率模型 (Denoising Diffusion Probabilistic Models,DDPM):自 2020 年以来,H.Jonathan 等人

 Stable Diffusion模型:CompVis 研发团队

 扩散模型的适用是 2022 年被称为AIGC 元年的一个重要佐证。

基于扩散模型的文本生成图像方法

 介绍:2015 年被提出,定义一个马尔可夫链向数中添加随机噪声,并学习如何从噪声中构建所需的数据样本,学习知识和掌握的两个过程:顺扩散过程(X0一XT),逐步加噪声的过程且是一个生成马尔可夫链的过程即第i+1时刻Xi+1仅受前一时刻Xi的影响;逆扩散过程( XT一X0)逐步去除噪声从噪音声图片XT中还原出原图X0的过程也是一个生成马尔可夫链的过程

X0表示从真实样本中得到的一张图片

模型

 去噪扩散概率模型 (Denoising Diffusion Probabilistic Models,DDPM):U-Net 框架,编码器-解码器框架范畴.

 Stable Diffusion 模型:文本编码器,Transformer 的语言模型,采用自回归的编码理念,接收文本提示,生成高维的词嵌入

 图像信息生成器

 实现扩散模型的反向过程,去噪音生成图像的隐藏信息

 图像解码器

 把隐信息还原成图像

4语音多模态技术

文本生成语音

以前技术:拼接法和参数法

基于非深度学习的文本生成语音技术

 隐马尔可夫模型 (HMM)

 文本信息提取模块

 声学特征提取模块

声学模型模块

基于深度学习的文本生成语音技术

基于GAN 的Parallel Wave GAN(PWG)

 利用 GAN,无须知识蒸留、快速、小型的波形生成方法

基于GAN 的GAN-TTS

GAN-TTS 是 DeepMind 推出的一种使用 GAN 进行文本转语音的新模型具备高质量、高效率等生成特性:提出了一种名为集成判别器的方法来评估语音生成模型,随机窗口判别器 (Random Window Discriminator,RWD)

基于 VAE 的 NaturalSpeech

 由微软发布的一个模型,可以生成与人类水平平齐的高质量语音

DDPM(去噪扩散概率模型 Denoising Diffusion Probabilistic Models)

浙江大学的 FastDiff:2022 年 ,JCAI( International Joint Conference on Artificial Intelligence,人工智能国际联合会议 。组成:3层降采样块和3层条件上采样块

微软的 Natural Speech 2:结合了扩散模型的概念,通过使用神经语音编将语音波形转换为连续向量,然后使用解码器重建语音波形

5 视频多模态技术

挑战

整体而言,无论是扩散文本生成视频模型还是非扩散文本生成视频模型的生成能力都比较差

主要原因:缺乏高质量的训练语料;训练成本高昂;准确性问题

文本生成视频历史

第一个发展阶段基于非扩散模型。

受影响的模型:GAN、VAE、文本预训练大型 ( GPT-3 )

模型

 TGANs-C模型:微软基于GAN发布能够根据标题生成相应的视频左边为生成器前部分基于 Bi-LSTM网络的文本编码器;后部分文本特征添加噪声并进行反向卷积的生成器。右边为判别器3个 GAN。第1个判别器区别生成的视频和真实的视频的真假,保证与标题描述对应;第2个判别器区分对应的视频帧的真假,同样加人了与标题描述的匹配;第3个判别器在时序上调整前后帧的关系,保证视频的前后帧之间不会有太大的差异

混合网络结构 CVAE-GAN模型:Yitong Li等人,基于 GAN和VAE。组成:gist 生成器:用于生成景颜色及日标层次结构;video生成器:用于从文本中提取动态信息及细节信息;判别器:保障生成的视频动多样性及生成细节信息的准确性

VideoGPT:Wilson Yan 等人,基于 Transformer ,是一个生成框架,将通常用于图像生成的VQ-VAE和Transformer 模型组合起来用于文本生成视颜任务

第二个阶段主要基于扩散模型

视频扩散模型( Video Diffusion Models,VDM ):Imagen Video,1个文本编码器:将输人的文本转换为词向量表;1 个基础视频扩散模型:利用文本词向量表征来生成原始的视频;3 个SSB(空间超分辨率)扩散:提高视频的分辨率;3个TSR(时城超分辨率)扩散模型:增加视频的帧数

6 跨模态多重组合技术

模型无关的融合方法:早期融合方法;后期融合方法;混合融合方法

模型相关的融合方法

基于深度学习(主流)

基于多核学习

基于图形模型

融合技术CoDi(为可组合扩散 Composable Difiusian)

第一个阶段:给每个模态都打造一个潜在扩散模型 (Latent Diffusion Model,LDM),进行组合训练。

第二个阶段:通过在每个潜在扩散模型和环境编码器上加一个交叉注竞力模块

第三个阶段: CoDi 模型在训练完成时会拥有处理多种类型输入和输出信息的能力。

7 多模态大模型高效的训练方法

第一类训练方法:前缀调优(Prefix Tuning)和提示调优(ProTuning)

第二类训练方法:P-Tuning和P-Tuning v2

第三类训练方法(最火)低秩适配 (Low-Rank Adaptation,LORA)技术;可调整的低秩适配(Adaptive Low-Rank Adaptation,AdaLoRA)技术和量化压缩远程注意力(Quantized Long-Range Attention,QLoRA)技术

8 GPT-4多模型核心技术介绍

Transformer:编码器-解码器框架

编码器:衍生出了自编码大模型,如BERT、RoBERT和ALBERT

解码器:衍生出了自回归大模型,如GPT-1和GPT-2

整体衍生出:T5和GLM

混合专家(Mixture of Experts,MOE) 方法

多查询注意力(Multi-Query Attention,MQA):其主要思路是让关键词 (key) 和值(Val)在多个力Head)之间共享。

推测解码(Speculative Decoding):该技术利用一个较小、速度较快的模型先解码多个 Token,并将它们作为单个批次(Batch) 输人到一个大型预模型中。

目录
相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 机器人
深度剖析模型微调与RAG技术的完美融合:从理论到实践,带你全面了解如何利用RAG提升特定领域任务性能并附带代码示例
【10月更文挑战第2天】随着深度学习的发展,预训练模型因通用表示能力和高效性备受关注。模型微调通过在已训练模型基础上进行再训练,使其适应特定任务或数据集,提升性能。RAG(Retrieval-Augmented Generation)结合检索与生成技术,在生成响应前检索相关信息,特别适用于需要背景知识的任务。本文通过构建医学问答机器人的示例,展示如何初始化RAG模型并利用实际数据集进行微调,从而提升生成答案的准确性和可信度。
89 4
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
多模态大模型技术原理与实战(3)
ChatGPT引爆了以AIGC(人工智能生成内容)为代表的第四范式 AI的市场,并成为 AI市场的热点
104 3
多模态大模型技术原理与实战(3)
|
1月前
|
机器学习/深度学习 自然语言处理 数据挖掘
从理论到实践:详解GraphRAG框架下的多模态内容理解与生成
【10月更文挑战第10天】随着多媒体内容的爆炸性增长,如何有效地理解和生成跨模态的数据(如图像、文本和视频)变得越来越重要。近年来,图神经网络(GNNs)因其在处理非结构化数据方面的强大能力而受到广泛关注。在此背景下,Graph Retrieval-Augmented Generation (GraphRAG) 框架作为一种新的方法,通过结合图检索和生成模型来提升多模态内容的理解与生成效果。本文将深入探讨GraphRAG的基本原理、核心组件以及实际应用,并通过代码示例展示其在多媒体内容处理中的潜力。
110 0
|
2月前
|
人工智能 文字识别 机器人
多模态大模型技术原理及实战(5)
国内外多模态大模型对比
85 6
|
2月前
|
机器学习/深度学习 自然语言处理 并行计算
多模态大模型技术原理与实战(2)
大模型被广泛应用有以下几个前提:效果好、效率高、成本可控,目前,大模型在这几个方面还不够理想。
106 5
|
2月前
|
物联网 PyTorch 算法框架/工具
多模态大模型技术原理及实战(6)
中小型公司大模型构建之路如何选择
47 4
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
多模态大模型技术原理与实战学习笔记(1)
多模态大模型技术原理与实战学习笔记
82 4
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】AudioLM音频生成模型概述及应用场景,项目实践及案例分析
AudioLM(Audio Language Model)是一种基于深度学习的音频生成模型,它使用自回归或变分自回归的方法来生成连续的音频信号。这类模型通常建立在Transformer架构或者类似的序列到序列(Seq2Seq)框架上,通过学习大量音频数据中的统计规律,能够生成具有高保真度和创造性的音频片段。AudioLM模型不仅能够合成音乐、语音,还能生成自然界的声音、环境噪声等,其应用广泛,涵盖了娱乐、教育、辅助技术、内容创作等多个领域。
94 1
|
3月前
|
机器学习/深度学习 自然语言处理 自动驾驶
【深度学习】深度学习的详细解析:涵盖定义、技术原理及应用场景
深度学习(Deep Learning)是机器学习(Machine Learning)的一个重要分支,它通过使用多层的神经网络来模拟人脑的学习过程,从而实现对数据的分析和理解。以下是关于深度学习的详细解析
197 2
|
6月前
|
并行计算 算法 物联网
LLM 大模型学习必知必会系列(七):掌握分布式训练与LoRA/LISA微调:打造高性能大模型的秘诀进阶实战指南
LLM 大模型学习必知必会系列(七):掌握分布式训练与LoRA/LISA微调:打造高性能大模型的秘诀进阶实战指南
LLM 大模型学习必知必会系列(七):掌握分布式训练与LoRA/LISA微调:打造高性能大模型的秘诀进阶实战指南