多模态大模型技术原理与实战(4)

简介: 本文介绍了多模态大模型的核心技术,包括数据集标注、数据表征、文本生成图像/语音/视频的方法、语音生成技术、视频生成模型以及跨模态融合技术。重点讨论了不同模型如GAN、VAE、Transformer和扩散模型的应用,并介绍了高效训练方法如Prefix Tuning、LORA等。此外,还详细描述了GPT-4的核心技术,如Transformer架构及其衍生物。

多模态大模型核心技术

1多模态的困难

困难

数据集标志困难

人工标注生成

COCO

Visual Genome

...

非工标注生成

Conceptual Captions 3M

Conceptual Captions 12M

ALT200M

ALIGN18B

LAION-400M

...

数据表征

多模态转换

2文本多模态技术

图像生成文本方法

基于模板的图像描述方法

支持向量机(SVM)

3种元索

物体

动作

场景

基于检索的图像描述方法

搜寻相似之处

基于深度学习的图像描述方法

编码器-解码器(Encoder-Decoder)模型

深度学习方法可以直接从海量数据中学习图文本的映射,并生成更精确的描述结果

框架

CNN-RNN 框架:Ryan Kiros 等人2014 年

原理

以 CNN 为图像编码器,以 RNN为文本解码器,编码器和解码器之间依靠图像的隐状态连接

GAN框架

 无监督的深度学习模型

博弈式学习从未标记的数据中学习特征

结构

 生成器:CNN 提取图像特征,加人噪声作为输人,使用LSTM 网络生成句子

 判别器:用 LSTM 网络对句子(生成器生成的句子和真实的句子 )进行编码,与图像特征一起处理,得到一个概率值用以约束生成器的质量

3 图像多模态技术

图像生成文本

模型

OpenAl的DALL-E2和GPT4

谷歌大脑的 lmaen和Stable Diffusion

百度的文心一言

文本生成图像

基于GAN的文本生成图像方法

AlignDRAW:第一个现代文本生成图像模型,多伦多大学,Elman Mansimov等人发布,基于 Microsoft COCO 数据集训练,用于标题生成图像,属于编码器-解码器框架

基于双向循环神经网络(BiRNN)的文本处理器

有条件的绘图网络、变形的深度递归注意力写人器(Deep RecurrentAttentive Writer,DRAW)

GAN(生成对抗网络 Generative Adversarial Network)

简介:从 2016 年起,被大量应用于文图对齐的任务中,成为图像生成的新起点,博弈论

模型

 GAN-NT-CLS:

 左边为生成器:输入文本编码和随机噪声

 右边为判别器:输人图像和文本编码

 原理:判别器通过判断生成的图像与文本描述是否贴合对齐的训练文本与图像,不断提高两者的贴合度,从而达到良好的生成效果

 StackGAN:两个 GAN ,Stage-I GAN和Stage-II GAN

 AttnGAN

基于VAE(变分自编码器 Variational-Auto-Encoder)的文本生成图像方法

DALL-E 模型:OpenAI,2021 年。实现文本生成图像,使用GPT-3 框架和GAN框架,参数百亿

 变革:2020 年之前,基于 GAN 和 VAE 处理文本生成图像任务是工业界和学术界的主流,当前主流的文本生成图像技术当属于扩散模型

 扩散模型

 模型

 去噪扩散概率模型 (Denoising Diffusion Probabilistic Models,DDPM):自 2020 年以来,H.Jonathan 等人

 Stable Diffusion模型:CompVis 研发团队

 扩散模型的适用是 2022 年被称为AIGC 元年的一个重要佐证。

基于扩散模型的文本生成图像方法

 介绍:2015 年被提出,定义一个马尔可夫链向数中添加随机噪声,并学习如何从噪声中构建所需的数据样本,学习知识和掌握的两个过程:顺扩散过程(X0一XT),逐步加噪声的过程且是一个生成马尔可夫链的过程即第i+1时刻Xi+1仅受前一时刻Xi的影响;逆扩散过程( XT一X0)逐步去除噪声从噪音声图片XT中还原出原图X0的过程也是一个生成马尔可夫链的过程

X0表示从真实样本中得到的一张图片

模型

 去噪扩散概率模型 (Denoising Diffusion Probabilistic Models,DDPM):U-Net 框架,编码器-解码器框架范畴.

 Stable Diffusion 模型:文本编码器,Transformer 的语言模型,采用自回归的编码理念,接收文本提示,生成高维的词嵌入

 图像信息生成器

 实现扩散模型的反向过程,去噪音生成图像的隐藏信息

 图像解码器

 把隐信息还原成图像

4语音多模态技术

文本生成语音

以前技术:拼接法和参数法

基于非深度学习的文本生成语音技术

 隐马尔可夫模型 (HMM)

 文本信息提取模块

 声学特征提取模块

声学模型模块

基于深度学习的文本生成语音技术

基于GAN 的Parallel Wave GAN(PWG)

 利用 GAN,无须知识蒸留、快速、小型的波形生成方法

基于GAN 的GAN-TTS

GAN-TTS 是 DeepMind 推出的一种使用 GAN 进行文本转语音的新模型具备高质量、高效率等生成特性:提出了一种名为集成判别器的方法来评估语音生成模型,随机窗口判别器 (Random Window Discriminator,RWD)

基于 VAE 的 NaturalSpeech

 由微软发布的一个模型,可以生成与人类水平平齐的高质量语音

DDPM(去噪扩散概率模型 Denoising Diffusion Probabilistic Models)

浙江大学的 FastDiff:2022 年 ,JCAI( International Joint Conference on Artificial Intelligence,人工智能国际联合会议 。组成:3层降采样块和3层条件上采样块

微软的 Natural Speech 2:结合了扩散模型的概念,通过使用神经语音编将语音波形转换为连续向量,然后使用解码器重建语音波形

5 视频多模态技术

挑战

整体而言,无论是扩散文本生成视频模型还是非扩散文本生成视频模型的生成能力都比较差

主要原因:缺乏高质量的训练语料;训练成本高昂;准确性问题

文本生成视频历史

第一个发展阶段基于非扩散模型。

受影响的模型:GAN、VAE、文本预训练大型 ( GPT-3 )

模型

 TGANs-C模型:微软基于GAN发布能够根据标题生成相应的视频左边为生成器前部分基于 Bi-LSTM网络的文本编码器;后部分文本特征添加噪声并进行反向卷积的生成器。右边为判别器3个 GAN。第1个判别器区别生成的视频和真实的视频的真假,保证与标题描述对应;第2个判别器区分对应的视频帧的真假,同样加人了与标题描述的匹配;第3个判别器在时序上调整前后帧的关系,保证视频的前后帧之间不会有太大的差异

混合网络结构 CVAE-GAN模型:Yitong Li等人,基于 GAN和VAE。组成:gist 生成器:用于生成景颜色及日标层次结构;video生成器:用于从文本中提取动态信息及细节信息;判别器:保障生成的视频动多样性及生成细节信息的准确性

VideoGPT:Wilson Yan 等人,基于 Transformer ,是一个生成框架,将通常用于图像生成的VQ-VAE和Transformer 模型组合起来用于文本生成视颜任务

第二个阶段主要基于扩散模型

视频扩散模型( Video Diffusion Models,VDM ):Imagen Video,1个文本编码器:将输人的文本转换为词向量表;1 个基础视频扩散模型:利用文本词向量表征来生成原始的视频;3 个SSB(空间超分辨率)扩散:提高视频的分辨率;3个TSR(时城超分辨率)扩散模型:增加视频的帧数

6 跨模态多重组合技术

模型无关的融合方法:早期融合方法;后期融合方法;混合融合方法

模型相关的融合方法

基于深度学习(主流)

基于多核学习

基于图形模型

融合技术CoDi(为可组合扩散 Composable Difiusian)

第一个阶段:给每个模态都打造一个潜在扩散模型 (Latent Diffusion Model,LDM),进行组合训练。

第二个阶段:通过在每个潜在扩散模型和环境编码器上加一个交叉注竞力模块

第三个阶段: CoDi 模型在训练完成时会拥有处理多种类型输入和输出信息的能力。

7 多模态大模型高效的训练方法

第一类训练方法:前缀调优(Prefix Tuning)和提示调优(ProTuning)

第二类训练方法:P-Tuning和P-Tuning v2

第三类训练方法(最火)低秩适配 (Low-Rank Adaptation,LORA)技术;可调整的低秩适配(Adaptive Low-Rank Adaptation,AdaLoRA)技术和量化压缩远程注意力(Quantized Long-Range Attention,QLoRA)技术

8 GPT-4多模型核心技术介绍

Transformer:编码器-解码器框架

编码器:衍生出了自编码大模型,如BERT、RoBERT和ALBERT

解码器:衍生出了自回归大模型,如GPT-1和GPT-2

整体衍生出:T5和GLM

混合专家(Mixture of Experts,MOE) 方法

多查询注意力(Multi-Query Attention,MQA):其主要思路是让关键词 (key) 和值(Val)在多个力Head)之间共享。

推测解码(Speculative Decoding):该技术利用一个较小、速度较快的模型先解码多个 Token,并将它们作为单个批次(Batch) 输人到一个大型预模型中。

目录
打赏
0
5
5
0
310
分享
相关文章
大规模语言模型与生成模型:技术原理、架构与应用
本文深入探讨了大规模语言模型(LLMs)和生成模型的技术原理、经典架构及应用。介绍了LLMs的关键特点,如海量数据训练、深层架构和自监督学习,以及常见模型如GPT、BERT和T5。同时,文章详细解析了生成模型的工作原理,包括自回归模型、自编码器和GANs,并讨论了这些模型在自然语言生成、机器翻译、对话系统和数据增强等领域的应用。最后,文章展望了未来的发展趋势,如模型压缩、跨模态生成和多语言多任务学习。
468 3
AIGC核心技术——多模态预训练大模型
【1月更文挑战第14天】AIGC核心技术——多模态预训练大模型
511 4
AIGC核心技术——多模态预训练大模型
RAG入门:理解检索增强生成模型的基本原理
【10月更文挑战第21天】作为一名长期从事自然语言处理(NLP)研究的技术人员,我一直在关注各种新兴技术的发展趋势。其中,检索增强生成(Retrieval-Augmented Generation, RAG)模型引起了我的特别兴趣。RAG技术结合了检索系统和生成模型的优点,旨在解决传统生成模型在处理长文本理解和生成时所面临的挑战。本文将从个人的角度出发,介绍RAG的基本概念、工作原理及其相对于传统生成模型的优势,并探讨一些基本的实现方法。
196 1
多模态大模型技术原理与实战(3)
ChatGPT引爆了以AIGC(人工智能生成内容)为代表的第四范式 AI的市场,并成为 AI市场的热点
189 3
多模态大模型技术原理与实战(3)
统一多模态模型来了!智源发布多模态世界模型Emu3!
2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。
多模态大模型技术原理与实战(2)
大模型被广泛应用有以下几个前提:效果好、效率高、成本可控,目前,大模型在这几个方面还不够理想。
197 5
多模态大模型技术原理及实战(6)
中小型公司大模型构建之路如何选择
80 4
[大语言模型-论文精读] 悉尼大学-ACL2024-提升大型语言模型的复杂视觉推理能力
[大语言模型-论文精读] 悉尼大学-ACL2024-提升大型语言模型的复杂视觉推理能力
101 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等