多模态大模型核心技术
1多模态的困难
困难
数据集标志困难
人工标注生成
COCO
Visual Genome
...
非工标注生成
Conceptual Captions 3M
Conceptual Captions 12M
ALT200M
ALIGN18B
LAION-400M
...
数据表征
多模态转换
2文本多模态技术
图像生成文本方法
基于模板的图像描述方法
支持向量机(SVM)
3种元索
物体
动作
场景
基于检索的图像描述方法
搜寻相似之处
基于深度学习的图像描述方法
编码器-解码器(Encoder-Decoder)模型
深度学习方法可以直接从海量数据中学习图文本的映射,并生成更精确的描述结果
框架
CNN-RNN 框架:Ryan Kiros 等人2014 年
原理
以 CNN 为图像编码器,以 RNN为文本解码器,编码器和解码器之间依靠图像的隐状态连接
GAN框架
无监督的深度学习模型
博弈式学习从未标记的数据中学习特征
结构
生成器:CNN 提取图像特征,加人噪声作为输人,使用LSTM 网络生成句子
判别器:用 LSTM 网络对句子(生成器生成的句子和真实的句子 )进行编码,与图像特征一起处理,得到一个概率值用以约束生成器的质量
3 图像多模态技术
图像生成文本
模型
OpenAl的DALL-E2和GPT4
谷歌大脑的 lmaen和Stable Diffusion
百度的文心一言
文本生成图像
基于GAN的文本生成图像方法
AlignDRAW:第一个现代文本生成图像模型,多伦多大学,Elman Mansimov等人发布,基于 Microsoft COCO 数据集训练,用于标题生成图像,属于编码器-解码器框架
基于双向循环神经网络(BiRNN)的文本处理器
有条件的绘图网络、变形的深度递归注意力写人器(Deep RecurrentAttentive Writer,DRAW)
GAN(生成对抗网络 Generative Adversarial Network)
简介:从 2016 年起,被大量应用于文图对齐的任务中,成为图像生成的新起点,博弈论
模型
GAN-NT-CLS:
左边为生成器:输入文本编码和随机噪声
右边为判别器:输人图像和文本编码
原理:判别器通过判断生成的图像与文本描述是否贴合对齐的训练文本与图像,不断提高两者的贴合度,从而达到良好的生成效果
StackGAN:两个 GAN ,Stage-I GAN和Stage-II GAN
AttnGAN
基于VAE(变分自编码器 Variational-Auto-Encoder)的文本生成图像方法
DALL-E 模型:OpenAI,2021 年。实现文本生成图像,使用GPT-3 框架和GAN框架,参数百亿
变革:2020 年之前,基于 GAN 和 VAE 处理文本生成图像任务是工业界和学术界的主流,当前主流的文本生成图像技术当属于扩散模型
扩散模型
模型
去噪扩散概率模型 (Denoising Diffusion Probabilistic Models,DDPM):自 2020 年以来,H.Jonathan 等人
Stable Diffusion模型:CompVis 研发团队
扩散模型的适用是 2022 年被称为AIGC 元年的一个重要佐证。
基于扩散模型的文本生成图像方法
介绍:2015 年被提出,定义一个马尔可夫链向数中添加随机噪声,并学习如何从噪声中构建所需的数据样本,学习知识和掌握的两个过程:顺扩散过程(X0一XT),逐步加噪声的过程且是一个生成马尔可夫链的过程即第i+1时刻Xi+1仅受前一时刻Xi的影响;逆扩散过程( XT一X0)逐步去除噪声从噪音声图片XT中还原出原图X0的过程也是一个生成马尔可夫链的过程
X0表示从真实样本中得到的一张图片
模型
去噪扩散概率模型 (Denoising Diffusion Probabilistic Models,DDPM):U-Net 框架,编码器-解码器框架范畴.
Stable Diffusion 模型:文本编码器,Transformer 的语言模型,采用自回归的编码理念,接收文本提示,生成高维的词嵌入
图像信息生成器
实现扩散模型的反向过程,去噪音生成图像的隐藏信息
图像解码器
把隐信息还原成图像
4语音多模态技术
文本生成语音
以前技术:拼接法和参数法
基于非深度学习的文本生成语音技术
隐马尔可夫模型 (HMM)
文本信息提取模块
声学特征提取模块
声学模型模块
基于深度学习的文本生成语音技术
基于GAN 的Parallel Wave GAN(PWG)
利用 GAN,无须知识蒸留、快速、小型的波形生成方法
基于GAN 的GAN-TTS
GAN-TTS 是 DeepMind 推出的一种使用 GAN 进行文本转语音的新模型具备高质量、高效率等生成特性:提出了一种名为集成判别器的方法来评估语音生成模型,随机窗口判别器 (Random Window Discriminator,RWD)
基于 VAE 的 NaturalSpeech
由微软发布的一个模型,可以生成与人类水平平齐的高质量语音
DDPM(去噪扩散概率模型 Denoising Diffusion Probabilistic Models)
浙江大学的 FastDiff:2022 年 ,JCAI( International Joint Conference on Artificial Intelligence,人工智能国际联合会议 。组成:3层降采样块和3层条件上采样块
微软的 Natural Speech 2:结合了扩散模型的概念,通过使用神经语音编将语音波形转换为连续向量,然后使用解码器重建语音波形
5 视频多模态技术
挑战
整体而言,无论是扩散文本生成视频模型还是非扩散文本生成视频模型的生成能力都比较差
主要原因:缺乏高质量的训练语料;训练成本高昂;准确性问题
文本生成视频历史
第一个发展阶段基于非扩散模型。
受影响的模型:GAN、VAE、文本预训练大型 ( GPT-3 )
模型
TGANs-C模型:微软基于GAN发布能够根据标题生成相应的视频左边为生成器前部分基于 Bi-LSTM网络的文本编码器;后部分文本特征添加噪声并进行反向卷积的生成器。右边为判别器3个 GAN。第1个判别器区别生成的视频和真实的视频的真假,保证与标题描述对应;第2个判别器区分对应的视频帧的真假,同样加人了与标题描述的匹配;第3个判别器在时序上调整前后帧的关系,保证视频的前后帧之间不会有太大的差异
混合网络结构 CVAE-GAN模型:Yitong Li等人,基于 GAN和VAE。组成:gist 生成器:用于生成景颜色及日标层次结构;video生成器:用于从文本中提取动态信息及细节信息;判别器:保障生成的视频动多样性及生成细节信息的准确性
VideoGPT:Wilson Yan 等人,基于 Transformer ,是一个生成框架,将通常用于图像生成的VQ-VAE和Transformer 模型组合起来用于文本生成视颜任务
第二个阶段主要基于扩散模型
视频扩散模型( Video Diffusion Models,VDM ):Imagen Video,1个文本编码器:将输人的文本转换为词向量表;1 个基础视频扩散模型:利用文本词向量表征来生成原始的视频;3 个SSB(空间超分辨率)扩散:提高视频的分辨率;3个TSR(时城超分辨率)扩散模型:增加视频的帧数
6 跨模态多重组合技术
模型无关的融合方法:早期融合方法;后期融合方法;混合融合方法
模型相关的融合方法
基于深度学习(主流)
基于多核学习
基于图形模型
融合技术CoDi(为可组合扩散 Composable Difiusian)
第一个阶段:给每个模态都打造一个潜在扩散模型 (Latent Diffusion Model,LDM),进行组合训练。
第二个阶段:通过在每个潜在扩散模型和环境编码器上加一个交叉注竞力模块
第三个阶段: CoDi 模型在训练完成时会拥有处理多种类型输入和输出信息的能力。
7 多模态大模型高效的训练方法
第一类训练方法:前缀调优(Prefix Tuning)和提示调优(ProTuning)
第二类训练方法:P-Tuning和P-Tuning v2
第三类训练方法(最火)低秩适配 (Low-Rank Adaptation,LORA)技术;可调整的低秩适配(Adaptive Low-Rank Adaptation,AdaLoRA)技术和量化压缩远程注意力(Quantized Long-Range Attention,QLoRA)技术
8 GPT-4多模型核心技术介绍
Transformer:编码器-解码器框架
编码器:衍生出了自编码大模型,如BERT、RoBERT和ALBERT
解码器:衍生出了自回归大模型,如GPT-1和GPT-2
整体衍生出:T5和GLM
混合专家(Mixture of Experts,MOE) 方法
多查询注意力(Multi-Query Attention,MQA):其主要思路是让关键词 (key) 和值(Val)在多个力Head)之间共享。
推测解码(Speculative Decoding):该技术利用一个较小、速度较快的模型先解码多个 Token,并将它们作为单个批次(Batch) 输人到一个大型预模型中。