多模态大模型技术原理与实战(3)-阿里云开发者社区

第5章大模型+多模态产生的“化学反应”

ChatGPT引爆了以AIGC(人工智能生成内容)为代表的第四范式 AI的市场，并成为 AI市场的热点。

在阿里巴巴达摩院发布的《2023 土大科技趋势》中，实现文本-图像-语音-视频“大统一”的多模态预训练大模型占据榜首。

多模态模型的发展历史

多模态(Multimodal) 指的是在同一个体系或者系统中，同时存在两种或者两种以上的感知模态或数据类型。包含了文本、图像、语音、视频等。

·行为时代（1970-1979年）：从心理角度进行感知和刨析

·计算时代（1980-1999年）：浅层神经网络[如反向传播(Back propagation BP)神经网络]对多态问题进行定量研究。

·交互时代（2000-2009年）：随着智能手机等电子设备的出现，人们的研究重点转向多模态识别，如语音和视频的同步、会议记录中语音和文本的转写等。

·深度学习时代（2010-2019年）：多模态技术快速发展，这主要得益于以下3点:

o算力快速发展。

o新的多模态数据集层出不穷。

o语言特征提取能力和视觉特征提取能力快速提高。

名称	类别	简介
COCO	图像-文本	COCO数据集主要用于目标检测、图像描述、图像分割等任务，有33 万张图片，每张图片有 5个描述，包含 80个目标类别、91个对象类别
Conceptual Captions	图像-文本	Conceptual Captions数据集的图像-文本对数据来自互联网。人们首先对原始数据的内容、大小、图文匹配程度进行筛选，然后进行人工清洗和抽验审核，得到最终的数据集
HowTo100M	文本-视频	HowTo100M 数据集针对教学领域，包含的视频总时长达到 15年，平均每个视频的时长达到6.5分钟，通过字幕描述与视频配对
AudioSet	文本-语音	AudioSet数据集是谷歌发布的大规模语音数据集，包含了超过 200万个时长为10秒的语音片段及632个语音类别，其数据最初来源于YouTube
HD-VILA-100M	文本-视频	HD-VILA-100M 数据集包含了 300万个视频,以及1亿个文本-视频对，涵盖了多个领域

这一阶段以基于深度玻尔兹曼机 (Deep Boltzmann Machines)的多模态楼型为代表，涌现了真正的多模态模型。研究者参照传统编码器-解码器的架构将深度玻尔兹曼机引入了多模态领域。

·大模型时代（2020-年）

o2019 年 6月，Facebook AI 研究院、佐治亚理工学院、俄勒冈州立大学等机构共同发布ViLBERT(Vision-and-Language BERT)模型

o2021年，OpenAI 推出 CLAP (Contusive Language-Image Pre-training )模型。推进性语言图像预训练模型

o2021年 ,OpenAI推出了DALL-E 模型。DALL-E 模型验证了由文本提示词生成图像的可行性。

o2022年 2.0版本，百度推出了 ERNIE-ViL 系列多态大模型。

oGPT-4 支持文本和图像双模态的输人，具有高超的识图能力。接入了 Bing、Speak、Turo、Expedia、 Video Insights 等应用中。

单模态学习、多模态学习和跨模态学习的区别

·单模态学习指的是对单一类别的数据进行处理训练和推理，例如利用单一的文本数据训练文本模型处理文本分类任务，利用单一的图像数据训练图像模型处理图像分割任务等。

·多模态学习指的是同时使用多个类别的数据，如文本、图像、语音、视频模态的数据，共同处理、训练和推理。

·跨模态学习可以被认为是多模态学习的一个分支，两者关注的重点不同。

o多模态学习关注的是多个不同模态数据之间的语义对齐，利用多模态数据构建多模态模型来提高传统单模态算法推理的准确性。

o跨模态学习关注得更多的是将不同模态之间的数据进行相互转换和映射，以便处理下游任务。

·将图像模态的数据映射到文本模态上来处理图文检索、图像问答等任务子。

·将语音模态的数据映射到文本模态上来处理语音分类等任务。

模态	优点	缺点
单模态	原理简单，不需要考虑多模态数据彼此关联，算法简单易懂。更有效地提取数据特征。	在各种下游任务中表现出来的能力不佳，准确性不高。
多模态	其囊括了来自各种不同模态的数据，能够全方位、多维度地对同一个物体进行描述。	多模态模型的训练需要更多数据、更大算力的支持需要的成本更高。
跨模态	典型应用领域是跨模态检索，例如通过文本检案图像、通文本检索视频等公共空间特征学习拉术跨模态相似性检索技术

多模态大模型发展的重大里程碑

大规模预训练模型的最大优势就是在预训练的过程中经过了大批量数据的训练，使得模型已经具备了丰富的先验知识，在处理具体的下游任务时通常通过小样本提示甚至零样本提示的方式进行推理预测。

基于类Transformer进行预训练来构建多模态预训练模型，在处理下游任务时，通过少数样本甚至零样本提示进行推理。

·Vison Transformer 模型：第一个开放性地将Transformer应用于计算机视觉领域的模型。

o第一个部分是 Embedding层(嵌入层)

·文本字符对应的向量嵌人组成的二维矩阵。

·图像而言，其输人是三维信息包括图像序列、图像的长和宽。

·图片嵌入 (Image Embedding)+位置嵌入 ( Position Embedding）+类别嵌人Class Embedding)->输人 Transformer 的Embedding编码器

o第二个部分是 Transformer 的编码器

·Embedded Patches，指的是输入的片段向量嵌入。

·Norm，即层归一化，主要是解决模型梯度消失和梯度爆炸的问题，同时加速收剑。

·向前传播，即将上一层的输出作为下一层的输入，逐层计算下一层的输出。

·Muti-HeadAttention，指的是多头自注意力模块，前文已经详细介绍过。

·MLP，指的是全连接层、激活函数、Dropout 的组合体。

o第三个部分是 MLPHead。线性层+激活函数+Dropout的组合体

·VideoBERT模型：是第一个将Transformer应用到多模态领域的模型。

o被广泛地应用于视频生成视频描述、视频问答、视频动作分类等任务中。

o证明了“多模态预训练大模型+小样本微调”这种模式的可行性。

o预训练数据来自YouTube上大批量的无标签视频。

oVideoBERT模型的训练方式和原始的 BERT模型几乎一样。

oVideeBERT 模型将文本 Token 和视频 Token 进行拼接，中间加人特殊字符[>]来表示两者的拼接。

o训练任务分成两个:

·第一个是随机遮盖一部分 Token，让模型来还原这些被遮盖的 Token。

·第二个是判断文本视频能否匹配，也就是判断视频 Token 序列能否作为文本 Token 序列的下一句。

·CLIP模型：CLIP模型是OpenAI在2021 年推出的文本-图像多模态预训练大模型。证明了“多模态预训练大模型零样本推理”这种模式的可行性。

oCLIP 模型从互联网上获取了4亿个文本-图像对对，并进行定的数据清洗用于预训练。

o特征映射阶段

·对于输入的图像，利用图像编码器(Image Encoder)得到图像向量嵌人，对于输入的文本，利用文本编码器 (Text Encoder)得到文本向量嵌入。

·随后，将图像向量嵌入和文本向量嵌入映射到公共多模态语义空间，方便直接对二者进行语义相似度计算。

·得到了在公共多模态语义空间中新的图像向量嵌入和文本向量嵌人。

o对比学习阶段

·通过计算图像向量嵌入和文本向量嵌入之间的余弦相似度来更新模型的参数，余弦相似度越大，代表图像和文本之间的关联程度越强，反之越弱。

余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值，绘制到向量空间中，如最常见的二维空间。

o预训练好的 CLIP 模型具有很强的泛化能力和零样本推理能力。

·CoCa 模型：2022年 5月，谷歌公司发布了多模态模型CoCa。

o解决图像多模态问题有3种传统的思路，分别是使用单编码器模型、双编码器模型、编码器-解码器模型。

·单编码器模型指的是整个架构中只存在一个图像编码器的模型。人工标注成本过高，领域迁移能力差

·双编码器模型指的是整个架构中存在两个编码器的模型，以文本-图像多模态任务为例，即同时存在文本编码器和图像编码器。在某些需要图像-文本语义共同作用的任务中表现不佳。

·编码器-解码器模型指的是整个架构中同时存在编码器和解码器的模型。在图像描述任务中，

通过编码器对图像进行编码，生成图像特征向量嵌入。

然后使用解码器将图像特征向量嵌入跨模态地解码成文本描述。

这种编码器-解码器结构有助于融合多模态特征，在多模态理解任务中表现较好，但由于缺乏单独的文本编码器，在图像检索、视频检索等任务中表现不佳

oCoCa 模型创造性地将上述 3 种思路进行有效融合，能够分别独立获得图像特征向量和文本特征向量，还能够更深层次地对图像特征和文本特征进行融合。

·图像编码器、

·单模态文本解码器

·多模态文本解码器。

o训练目标主要有两个:

·图像编码器和单模态文本解码器的对比学习，使其正样本尽可能地靠近，同时负样本尽可能地远离;

·在文本解码和图像编码交互融合之后，能够获得更准确的文本输出。

·GPT-4：2023 年3月14 日，OpenAI发布了 GPT-4。

oGPT-4 可以接受文本、图像信息的输人，生成自然语言文本，目前不支持语音和视频模态。

o特色

·GPT-4 支持更长文本的输人，可以输人超过3万个字符

·在图像描述任务中GPT-4出现幻觉问题，即描述出图像中不存在的物体的概率大幅度降低。

·输出的安全性，能够拒绝回答不符合人类价值观的问题，这归功于其训练过程中的强化学习阶段。

·CoDi模型

o输人为文本、图像、语音、视频的任意组合；输出也可以是文本、图像、语音、视频的任意组合

o扩散模型的概念

o生成对抗网络(Generative Adversarial Network GAN）：生成器和判别器这两个部分的互相对抗，生成的图像质量更高。https://zhuanlan.zhihu.com/p/612565146

o对于一个图像，我们首先通过逐渐引人噪声来破坏这个图像，直到图像的信息完全丢失，接着通过逐渐去除噪声来重构原来的图像。通过这种方式生成的图像更稳定、更多样，分辨率更高，同时，由于舍弃了对抗训练，其训练速度更快。

o两个步骤。

·第一步是针对文本、图像、语音、视频模态(因为在后续的处理过程中，图像和视频的处理过程完全一致，所以图像编码器和图像扩散模型也可以分别代表视频编码器和视频扩散模型)，分别训练一个潜在的扩散模型。

·(第二步是增加输出模态的种类在第一步的基础上，对每一个潜在的扩散模型都增加一个交叉注意力模块，将不同的潜在扩散模型的特征映射到共同语义空间中。这样，输出模态的种类会进一步多样化。

大模型+多模态的3种实现方法

1，以LLM 为核心，调用其他多模态组件

2023年5月，微软亚洲研究院(MSRA)联合浙江大学发布了HuggingGPT。

2，基于多模态对齐数据训练多模态大模型

VideoBERT、CLIP、CoCa、CoDi。

核心理念是分别构建多个单模态编码器，得到各自的特征回量，然后基于类Transformer 对各个模态的特征进行交互和融合实现在多模态的语义空间对齐。

具备很强的泛化能力和小样本、零样本推理能力，

3、以LLM 为底座模型，训练跨模态编码器

这种方法的特色是以预训练好的LLM 为底座模型,冻结LLM的大部分参与训练跨模态编码器。既能够有效地利用 LLM 强大的自然语言理解和推能力，又能完成复杂的多模态任务。

在训练过程中对 LLM 的大部分参数进行了冻结，导致模型可训练的参数量远远小于真正的多模态大模型，因此其训练时长较短，对训练资源的要求也不高。

2023年4月，威斯康星大学麦迪逊分校等机构联合发布了多模态大模型LLaVA。LLaVA模型在视觉问答、图像描述、物体识别、多轮对话等任务中表现得极其出色。

第一个阶段，基于 59.5万条CC3M文本-图像对齐数据训练跨模态编码器，以便将文本特征和图像特征进行语义对齐。

第二个阶段，基于15 万条多模态指令数据，对多模态大模型进行端到端的指令微调，具体针对视觉问答和多模态推理任务进行模型训练。

2023年5月2日，LLaVA方发布了轻量级的LLaVALightnine横型(可以翻译为轻量级的LLaVA模型)，

多模态大模型的效果评估

1 图像生成任务

图像生成任务指的是给定一段自然语言文本描述，根据文本蕴含的语义进行相应的图像生成。

生成一只可爱的猫咪。->

生成一只蓝色的猫咪。->

一家三口的猫咪在草丛玩耍，漫画风

2 图像描述任务

图像描述任务指的是输入一个图像，让多模态大模型描述图像讲述的内容，输出自然语言文本。

长城和郁金香在美丽的山脉之间，构成了一幅美丽而壮观的画面。这场景充满了宁静与和谐的气息，让人感受到大自然的魅力。长城作为中国古代的著名建筑之一,是中国文化的象征，也是世界文化宝库中的重要遗产。它以其独特的历史价值、艺术价值和文化魅力吸引着众多游客前来参观。

翻译成英文

The Great Wall and the flowers of red tulips are in a beautiful and picturesque setting between the mountains. This scene exudes calmness and harmony, allowing one to appreciate the natural beauty of nature. As one of China's most famous architectural landmarks, the Great Wall is an important cultural heritage site in the world's cultural treasure box. It has its unique historical value, artistic value, and cultural charm that attract numerous visitors each year.

写成诗

在青山型林中，长城与郁金香相遇如此美景令人陶醉。时光荏苒，岁月如梭但大自然的神奇之处仍在不断展现。长城的古老与神秘，如同历史的画卷般绚丽多彩;郁金香的美丽与绚烂则展现出生命的力量与美好。在这美妙的时刻里，我们感受到了自然之美也深刻领悟到人类与自然的和谐共存。

3.视觉问答任务

视觉问答任务指的是根据图像或视频中描述的内容进行回答、体现了多楼态大模型的自然语言理解和推理能力。

这个城市拥有哪些著名大学？

上海是中国著名的现代化城市，拥有多所知名大学。其中最著名的大学包括上海交通大学(Shanghai jiao Tong University)复旦大学(Fudan University)同济大学(Tongji University)以及华东师范大学(Eton College)等这些学校在围内外享有很高的声营，培养了许多优类的人才，成为国内外学术界的重要力量。

多模态大模型技术原理与实战(3)

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件