《达摩院2023十大科技趋势》——范式重置——多模态预训练大模型

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 《达摩院2023十大科技趋势》——范式重置——多模态预训练大模型

趋势一、多模态预训练大模型


基于多模态的预训练大模型将实现图文音统一知识表示,成为 人工智能基础设施。


摘要


人工智能正在从文本、语音、视觉 等单模态智能,向着多种模态融合的通 用人工智能方向发展。多模态统一建模, 目的是增强模型的跨模态语义对齐能力, 打通各个模态之间的关系,使得模型逐 步标准化。目前,技术上的突出进展来 自于 CLIP(匹配图像和文本)和 BEiT-3 (通用多模态基础模型)。基于多领域知 识,构建统一的、跨场景、多任务的多 模态基础模型已成为人工智能的重点发 展方向。未来大模型作为基础设施,将 实现图像、文本、音频统一知识表示, 并朝着能推理、能回答问题、能总结、 做创作的认知智能方向演进。


image.png

趋势解读


基于深度学习的多模态预训练是认 知智能快速发展的重要推动力。 构建多场景、多任务的预训练大模型将 加速模型标准化进程,为人工智能模型 成为基础设施创造条件。深度学习模型 的不断完善、互联网海量真实数据的积 累和生成式预训练的广泛应用,使得人 工智能模型在自然语言理解、语音处理、 计算机视觉等领域地交叉应用取得显著 进展。


2022 年,技术上的突出进展来自 于 BEiT-3 多模态基础模型,该模型在 视觉 - 语言任务处理上具备出色表现, 包括视觉问答、图片描述生成和跨模态 检索等。BEiT-3 通过统一的模型框架和 骨干网络(backbone)建模,能够更加 轻松地完成多模态编码和处理不同的下 游任务。另一方面,CLIP(Contrastive  Language-Image Pre-training)的 广 泛 应用也促进了多模态模型的技术发展。 CLIP 作为基于对比学习的预训练模 型,负责从文本特征映射到图像特征, 能够指导 GAN 或扩散模型(Diffusion  Model)生 成 图 像。 在 文 生 图 领 域, Stable Diffusion 也使用了 CLIP,它能 够通过文本提示调整模型,并借助扩散 模型改善图像质量。与此同时,开源极 大的促进了多模态的融合和预训练模型 的发展。通过开源来降低模型使用门槛, 将大模型从一种新兴的 AI 技术转变为稳 健的基础设施,已成为许多大模型开发者 的共识。


多模态预训练模型的发展将重塑人 工智能商业模式,并为人们的生产生活 方式带来积极影响。对个人而言,类似 CLIP 的多模态模型,将使更多非技术出 身的人能够表达自己的创造力,无需再 借助工具和编程专业能力。对企业来说, 多模态预训练模型将成为企业生产效率 提升的关键。商业模式上,具备大数据、 算力资源和模型开发能力的科技企业, 将会成为模型服务的提供方,帮助企业 将基础模型的能力与生产流程融合起来, 实现效率和成本最优。


认知智能的发展,不会局限在文本或 图像等单一的模态上。未来,如何针对不 同模态建立更高效的模型架构和统一的骨 干网络,使得大模型能够广泛地支持各种 下游任务将成为主要挑战。在此基础上, 更多的挑战来自于挖掘不同模态(如图 像 - 文本,文本 - 自然语言,视频 - 文本) 数据间的相关信息,并巧妙的设计预训练 任务,让模型更好的捕捉不同模态信息之 间的关联。


语音、视觉和多模态预训练模型将 加速人工智能向通用基础模型方向演进。 在这个演进过程中,深度学习与强化学 习相互促进发展,融合大量行业知识, 模型将具备在不断变化的环境中快速适 应的灵活性。建立统一的、跨场景、多 任务的多模态基础模型会成为人工智能 发展的主流趋势之一。随着技术的不断 成熟,大模型在开发成本、易用性、开 发周期、性能上会更具优势,给产品化 和商业化带来更多可能性。


专家点评


以 GPT 系 列 模 型 为 代 表 的 大 模 型( 大 规模预训练模型或 者基础模型)展现 出了超出预期的“理 解”和“创造”能力, 提示模型尺度与智 能之间的正相关关 系 仍 在 生 效。 同 时 我们对大模型内在 机理了解还很不够, 大模型的可解释性 和 可 控 性 仍 很 弱, 但这正是激励我们 继续前行的动力。


文继荣  

中国人民大学信息 学院院长

高瓴人工智能学院 执行院长


多模态预训练模型 对图片 - 文字进行联 合 表 证 学 习, 并 扩 展 到 语 音, 视 频 等 其 他 模 态, 在 多 个 多模态相关的任务 (理解,检索,生成, 问答等)取得明显 优 势, 在 广 泛 的 行 业应用场景中能够 从不同信息源获取 知识并进行统一表 示 学 习, 可 以 成 为 覆盖广泛领域的通 用基础模型。


黄非

达摩院语言技术实验室负责人

相关文章
|
1月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1388 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
1月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
347 121
|
1月前
|
数据采集 人工智能 搜索推荐
智能新纪元:多模态大模型如何重塑人机交互
智能新纪元:多模态大模型如何重塑人机交互
211 113
|
1月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
267 114
|
1月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
244 117
|
3月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
510 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
3月前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
1088 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
545 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型

热门文章

最新文章

下一篇
oss云网关配置