《达摩院2023十大科技趋势》——范式重置——多模态预训练大模型

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 《达摩院2023十大科技趋势》——范式重置——多模态预训练大模型

趋势一、多模态预训练大模型


基于多模态的预训练大模型将实现图文音统一知识表示,成为 人工智能基础设施。


摘要


人工智能正在从文本、语音、视觉 等单模态智能,向着多种模态融合的通 用人工智能方向发展。多模态统一建模, 目的是增强模型的跨模态语义对齐能力, 打通各个模态之间的关系,使得模型逐 步标准化。目前,技术上的突出进展来 自于 CLIP(匹配图像和文本)和 BEiT-3 (通用多模态基础模型)。基于多领域知 识,构建统一的、跨场景、多任务的多 模态基础模型已成为人工智能的重点发 展方向。未来大模型作为基础设施,将 实现图像、文本、音频统一知识表示, 并朝着能推理、能回答问题、能总结、 做创作的认知智能方向演进。


image.png

趋势解读


基于深度学习的多模态预训练是认 知智能快速发展的重要推动力。 构建多场景、多任务的预训练大模型将 加速模型标准化进程,为人工智能模型 成为基础设施创造条件。深度学习模型 的不断完善、互联网海量真实数据的积 累和生成式预训练的广泛应用,使得人 工智能模型在自然语言理解、语音处理、 计算机视觉等领域地交叉应用取得显著 进展。


2022 年,技术上的突出进展来自 于 BEiT-3 多模态基础模型,该模型在 视觉 - 语言任务处理上具备出色表现, 包括视觉问答、图片描述生成和跨模态 检索等。BEiT-3 通过统一的模型框架和 骨干网络(backbone)建模,能够更加 轻松地完成多模态编码和处理不同的下 游任务。另一方面,CLIP(Contrastive  Language-Image Pre-training)的 广 泛 应用也促进了多模态模型的技术发展。 CLIP 作为基于对比学习的预训练模 型,负责从文本特征映射到图像特征, 能够指导 GAN 或扩散模型(Diffusion  Model)生 成 图 像。 在 文 生 图 领 域, Stable Diffusion 也使用了 CLIP,它能 够通过文本提示调整模型,并借助扩散 模型改善图像质量。与此同时,开源极 大的促进了多模态的融合和预训练模型 的发展。通过开源来降低模型使用门槛, 将大模型从一种新兴的 AI 技术转变为稳 健的基础设施,已成为许多大模型开发者 的共识。


多模态预训练模型的发展将重塑人 工智能商业模式,并为人们的生产生活 方式带来积极影响。对个人而言,类似 CLIP 的多模态模型,将使更多非技术出 身的人能够表达自己的创造力,无需再 借助工具和编程专业能力。对企业来说, 多模态预训练模型将成为企业生产效率 提升的关键。商业模式上,具备大数据、 算力资源和模型开发能力的科技企业, 将会成为模型服务的提供方,帮助企业 将基础模型的能力与生产流程融合起来, 实现效率和成本最优。


认知智能的发展,不会局限在文本或 图像等单一的模态上。未来,如何针对不 同模态建立更高效的模型架构和统一的骨 干网络,使得大模型能够广泛地支持各种 下游任务将成为主要挑战。在此基础上, 更多的挑战来自于挖掘不同模态(如图 像 - 文本,文本 - 自然语言,视频 - 文本) 数据间的相关信息,并巧妙的设计预训练 任务,让模型更好的捕捉不同模态信息之 间的关联。


语音、视觉和多模态预训练模型将 加速人工智能向通用基础模型方向演进。 在这个演进过程中,深度学习与强化学 习相互促进发展,融合大量行业知识, 模型将具备在不断变化的环境中快速适 应的灵活性。建立统一的、跨场景、多 任务的多模态基础模型会成为人工智能 发展的主流趋势之一。随着技术的不断 成熟,大模型在开发成本、易用性、开 发周期、性能上会更具优势,给产品化 和商业化带来更多可能性。


专家点评


以 GPT 系 列 模 型 为 代 表 的 大 模 型( 大 规模预训练模型或 者基础模型)展现 出了超出预期的“理 解”和“创造”能力, 提示模型尺度与智 能之间的正相关关 系 仍 在 生 效。 同 时 我们对大模型内在 机理了解还很不够, 大模型的可解释性 和 可 控 性 仍 很 弱, 但这正是激励我们 继续前行的动力。


文继荣  

中国人民大学信息 学院院长

高瓴人工智能学院 执行院长


多模态预训练模型 对图片 - 文字进行联 合 表 证 学 习, 并 扩 展 到 语 音, 视 频 等 其 他 模 态, 在 多 个 多模态相关的任务 (理解,检索,生成, 问答等)取得明显 优 势, 在 广 泛 的 行 业应用场景中能够 从不同信息源获取 知识并进行统一表 示 学 习, 可 以 成 为 覆盖广泛领域的通 用基础模型。


黄非

达摩院语言技术实验室负责人

相关文章
|
2月前
|
人工智能 API
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有高级模型。
43 0
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
|
7月前
|
传感器 机器学习/深度学习 人工智能
多模态大模型代表了人工智能领域的新一代技术范式
多模态大模型代表了人工智能领域的新一代技术范式
49 2
|
机器学习/深度学习 存储 人工智能
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
159 0
|
机器学习/深度学习 云安全 人工智能
《达摩院2023十大科技趋势》——场景变换——生成式 AI
《达摩院2023十大科技趋势》——场景变换——生成式 AI
906 1
|
机器学习/深度学习 存储 人工智能
首次利用半监督注入知识,达摩院推出新型预训练对话模型,取得显著提升(1)
首次利用半监督注入知识,达摩院推出新型预训练对话模型,取得显著提升
152 0
首次利用半监督注入知识,达摩院推出新型预训练对话模型,取得显著提升(1)
|
机器学习/深度学习 人工智能 自然语言处理
剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态
剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态
169 0
|
机器学习/深度学习 人工智能 自然语言处理
中山大学HCP实验室新突破:用因果范式再升级多模态大模型
中山大学HCP实验室新突破:用因果范式再升级多模态大模型
155 0
|
机器学习/深度学习 人工智能 自然语言处理
与生成模型相比,为何机器人研究还在用几年前的老方法?(1)
与生成模型相比,为何机器人研究还在用几年前的老方法?
129 0
|
机器学习/深度学习 人工智能 自然语言处理
与生成模型相比,为何机器人研究还在用几年前的老方法?
与生成模型相比,为何机器人研究还在用几年前的老方法?
125 0
|
机器学习/深度学习 人工智能 自然语言处理
与生成模型相比,为何机器人研究还在用几年前的老方法?(2)
与生成模型相比,为何机器人研究还在用几年前的老方法?
100 0

热门文章

最新文章