AI:人工智能的多模态融合模型的简介、发展以及未来趋势

简介: AI:人工智能的多模态融合模型的简介、发展以及未来趋势


目录

人工智能的多模态融合模型的简介、发展以及未来趋势

多模态融合模型的简介

多模态融合模型的发展趋势

多模态常见应用分类

1、按照模态分类

2、按照功能分类

多模态模型案例


相关文章

Paper:《Multimodal Machine Learning: A Survey and Taxonomy,多模态机器学习:综述与分类》翻译与解读

人工智能的多模态融合模型的简介、发展以及未来趋势

多模态融合模型的简介

        " 模态 "(Modality)是德国理学家赫尔姆霍茨提出的一种生物学概念,即生物凭借感知器官经验接收信息通道,如人类有视觉、听觉、触觉、味觉和嗅觉模态。多模态是指将多种感官进行融合,而多模态交互是指人通过声音、肢体语言、信息载体(文字、图片、音频、视频)、环境等多个通道与计算机进行交流,充分模拟人与人之间的交互方式

        每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

        不同模态(例如图像、文本、音频)中学习的方式存在很大差异

        为了让人工智能理解我们周围的世界方面取得进展,它需要能够解释推理关于多模态信息。多模态机器学习旨在建立能够处理和关联来自多种模态信息的模型。从早期的视听语音识别研究到最近对语言和视觉模型的兴趣激增,多模态机器学习是一个充满活力的多学科领域,其重要性日益增加,具有非凡的潜力。

        早期的深度学习算法专注于从一个单一的数据源训练其模型。例如,看—基于图像训练的CV模型和基于文本训练的NLP模型,听—基于声学模型的唤醒词检测、噪音消除的语音处理。早期的深度学习与单模态人工智能有关,其结果都被映射到一个单一的数据类型来源。而多模态人工智能是计算机视觉和交互式人工智能智能模型的最终融合,为计算器提供更接近于人类感知的场景

        多模态学习成为当中的重要趋势,它可以被应用在归一、表示、转化、翻译、对齐、融合协同学习上(representation/translation/alignment/fusion/co-learning)。按照下游任务则可以划分为理解式任务(视觉问答、视觉推理、图文检索等)和生成式任务(文本生成(对话/故事/诗歌)、图像生成文本、文字生成图像等)。

多模态融合模型的发展趋势

        Andrew Ng在年度总结时说道,虽然GPT-3EfficientNet等单独针对文本及图像等任务的深度学习模型备受瞩目,但这一年中最令人印象深刻的还是,AI 模型在发现文本与图像间关系中取得了进步。,2021年,OpenAI开启了多模态学习的重要一年,比如CLIP匹配图像和文本,Dall·E生成与输入文本对应的图像。DeepMind的Perceiver IO可以对文本、图像、视频和点云进行分类。斯坦福大学的ConVIRT为医用X射线图像添加了文本标签

        现实中,图像和文本其实非常复杂,以至于在过去,研究人员只能全神贯注的着重其中之一。在这样做的过程中,他们开发了非常不同的技术。然而,在过去十年中,计算机视觉和自然语言处理已经融合到神经网络上,为合并这两种模式的统一模型打开了大门

        Jeff Dean在长文展望中总结到,一些最先进的多模态模型可以接受语言、图像、语言和视频等多种不同的输入模态,产生不同的输出模态。这是一个令人兴奋的方向,就像真实世界一样,有些东西在多模态数据中更容易学习。例如,阅读某些东西并观看图片,比仅仅阅读它更有用。

        图像和文本配对有助于多语种检索任务,并且更好地理解如何配对文本和图像输入可以提升图像描述任务。视觉和文本数据上的协同训练有助于提升视觉分类任务的准确率和稳健性,同时图像、视频和语音任务上的联合训练能够提升所有模态的泛化性能

        目前还无法建立一个通用的“视觉机器”,无法做到统一模型同时满足不同场景要求。这意味着当下机器学习的训练成本较高,也没有达到产业化应用的理想状态。要解决这个问题,需要从端到端打通各个模态之间的关系,形成可以真正多维度交互的智能机器,让感知智能升级为认知智能

        未来发展趋势,多场景下的多模态交互成为提升应用性能的重点。以多模态融合技术为核心的感知、交互和智慧协同能力,不断支撑各类终端和应用的智能化水平提升。人工智能正在从语音、文字、视觉等单模态智能,向着多种模态融合发展,结合分布式平台的计算能力,实现更高精度的场景构建,和对动态场景的处理能力。

        未百度研究院认为,下一步是跨模态统一建模,增强模型的跨模态语义对齐能力。Jeff Dean认为,所有这些趋势都指向了训练能力更强的通用性模型,这些模型可以处理多种数据模态并解决数千甚至数万个任务。在接下来的几年,我们将通过下一代架构 Pathways 来追求这一愿景,并期望在该领域看到实质性进展。

参考文章

Top AI Stories of 2021: Transformers Take Over, Models Balloon, Multimodal AI Takes Off, Governments Crack Down - The Batch | DeepLearning.AI

Jeff Dean长文展望:2021年之后,机器学习领域的五大潜力趋势

多模态常见应用分类

1、按照模态分类

模态分类

子分类

Language-Audio

(1.1)、Text-to-Speech Synthesis: 给定文本生成对应的声音

(1.2)、Audio Captioning:给定一段语音,生成一句话总结并描述主要内容。(不是语音识别)

Vision-Audio

(2.1)、Audio-Visual Speech Recognition(视听语音识别):给定某人的视频及语音进行语音识别。

(2.2)、Video Sound Separation(视频声源分离):给定视频和声音信号(包含多个声源),进行声源定位与分离。

(2.3)、Image Generation from Audio: 给定声音,生成与其相关的图像。

(2.4)、Speech-conditioned Face generation:给定一段话,生成说话人的视频。

(2.5)、Audio-Driven 3D Facial Animation:给定一段话与3D人脸模版,生成说话的人脸3D动画。

Vision-Language

(3.1)、Image/Video-Text Retrieval (图(视频)文检索): 图像/视频<-->文本的相互检索。

(3.2)、Image/Video Captioning(图像/视频描述):给定一个图像/视频,生成文本描述其主要内容。

(3.3)、Visual Question Answering(视觉问答):给定一个图像/视频与一个问题,预测答案。

(3.4)、Image/Video Generation from Text:给定文本,生成相应的图像或视频。

(3.5)、Multimodal Machine Translation:给定一种语言的文本与该文本对应的图像,翻译为另外一种语言。

(3.6)、Vision-and-Language Navigation(视觉-语言导航): 给定自然语言进行指导,使得智能体根据视觉传感器导航到特定的目标。

(3.7)、Multimodal Dialog(多模态对话): 给定图像,历史对话,以及与图像相关的问题,预测该问题的回答。

2、按照功能分类

模态分类

子分类

定位相关

(1.1)、Visual Grounding:给定一个图像与一段文本,定位到文本所描述的物体。

(1.2)、Temporal Language Localization: 给定一个视频即一段文本,定位到文本所描述的动作(预测起止时间)。

(1.3)、Video Summarization from text query:给定一段话(query)与一个视频,根据这段话的内容进行视频摘要,预测视频关键帧(或关键片段)组合为一个短的摘要视频。

(1.4)、Video Segmentation from Natural Language Query: 给定一段话(query)与一个视频,分割得到query所指示的物体。

(1.5)、Video-Language Inference: 给定视频(包括视频的一些字幕信息),还有一段文本假设(hypothesis),判断二者是否存在语义蕴含(二分类),即判断视频内容是否包含这段文本的语义。

(1.6)、Object Tracking from Natural Language Query: 给定一段视频和一些文本,进行定位匹配。

(1.7)、Language-guided Image/Video Editing: 一句话自动修图。给定一段指令(文本),自动进行图像/视频的编辑。

情感分析相关

Affect Computing (情感计算):使用语音、视觉(人脸表情)、文本信息、心电、脑电等模态进行情感识别。

其它

Medical Image:不同医疗图像模态如CT、MRI、PET

RGB-D模态:RGB图与深度图

参考文章多模态学习综述及最新方向 - 知乎

多模态模型案例

时间

发明者

模型名称

功能

2021年1月

OpenAI

CLIP&DALL-E

功能

  • DALL·E 可以基于短文本提示(如一句话或一段文字)生成对应的图像。以文搜图,按照文字描述去生成对应图片。使用艺术家萨尔瓦多 - 达利和皮克斯的瓦力的谐音来命名。
  • CLIP 则可以基于文本提示图片进行分类。但是,发布之后,有研究发现 CLIP 存在种族和性别偏见问题。

原理:在众多图像-文本对上,训练大规模自回归 transformer 可以通过文本 prompt 产生具有可控结果的高保真生成模型。

例如,当文本描述为 " 一个甜甜圈形状的时钟 " 被发送到该模型时,它就可以生成以下图像。

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人 | 在线可玩_量子位-CSDN博客

意义

(1)、开启了2021年多模态学习的新篇章

(2)、降低了深度学习需要的数据标注量。

(3)、CLIP的zero-shot learning技术使得在各种数据集上的表现都很好(包括没见过的数据集)。

2021年5月

Google

MUM

功能:多任务统一模型

原理:通过从 75 种不同语言中挖掘出的上下文信息对用户搜索结果进行优先排序。

2021年9月

百度

DocVQA

功能:文档理解,跨模态文档理解模型ERNIE-Layout。

意义:登顶DocVQA榜首

2021年11月

NVIDIA

GauGAN2

功能:根据输入的文本/简笔画生成对应逼真的风景图、输入图像并编辑部分内容。

原理:它在一个单一的模型中结合了分割映射、修复和文本到图像的生成,使其成为一个强大的多模态工具。

意义:可以用文字和图画的混合来创造逼真的艺术。

Demo:AI Demos | NVIDIA Research

2021年11月

Microsoft
&北大

NÜWA女娲

功能:实现文本/草图转图像、图像补全、文字指示修改图像/视频、文字/草图转视频、视频预测等任务,功能异常强大。

意义:在8种包含图像和视频处理的下游视觉任务上具有出色的合成效果。

2021年12月

NVIDIA

PoE GAN

功能:文字描述、图像分割、草图、风格都可以转化为图片,它还可以同时接受以上几种输入模态的任意两种组合,这便是PoE的含义。

原理:生成器使用全局PoE-Net将不同类型输入的变化混合起来。鉴别器中,作者提出了一种多模态投影鉴别器,将投影鉴别器推广到处理多个条件输入。

意义:PoE可以在单模态输入、多模态输入甚至无输入时生成图片。当使用单个输入模态进行测试时,PoE-GAN的表现优于之前专门为该模态设计的SOTA方法。

2022年1月

百度

ERNIE-ViLG

功能:图文双向生成。

原理:它通过自回归算法将图像生成和文本生成统一建模,实现文图双向生成。

意义:文心 ERNIE-ViLG 参数规模达到 100 亿,是目前为止全球最大规模中文跨模态生成模型。刷新文本生成图像、图像描述等多个跨模态生成任务最好效果。

Demo:

文心大模型-产业级知识增强大模型

2022年1月

Facebook
&Meta

AV-HuBERT

功能:这通过输入语音音频和唇语视频两种不同形式内容,输出对应文本。

原理:它是一个多模态的自监督学习算法,该模型通过结合人们说话过程中嘴唇和牙齿活动、语音方面的信息。AV-HuBERT可以捕捉到音频和视频间的微妙联系。这和人类本身感知语言的模式很相似。

意义:尤其是在嘈杂的环境下,通过读唇可以将语言识别的准确性最高提升6倍

2022年1月

Facebook
&Meta

data2vec

功能:应用于语音、图像和文本。

意义:在计算机视觉、语音任务上优于最佳单一用途算法,首个适用于多模态的高性能自监督算法,语音、图像文本全部SOTA。

相关文章

嘈杂场景语音识别准确率怎么提?脸书:看嘴唇


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
13小时前
|
机器学习/深度学习 数据采集 人工智能
AI(人工智能)大模型:智能新突破与挑战
在人工智能的发展历程中,我们始终追求的是大模型的智能化。这包括对复杂环境的理解力、面对未知情况的泛化能力,以及在各种情况下的适应性。这些因素是衡量一个智能模型优秀与否的关键。而提升大模型在这些方面的表现,不仅能够推动人工智能的发展,更能够拓宽其应用的范围。因此,寻找并采取有效的策略,使大模型走向更加聪明,是我们在未来人工智能发展中必须要面对和解决的重要问题。
4 0
|
1天前
|
机器学习/深度学习 人工智能 算法
人工智能与创造力:探索AI在艺术创作中的角色
【6月更文挑战第30天】本文深入探讨了人工智能(AI)如何在艺术领域内重新定义创造力的概念。通过分析AI技术在绘画、音乐和文学创作中的应用案例,我们揭示了AI不仅能够模仿传统艺术形式,还能开创全新艺术风格的可能性。文章还讨论了AI艺术对知识产权法的挑战,以及公众对于由机器创造的艺术作品的接受度问题。
|
1天前
|
机器学习/深度学习 人工智能 算法
探索自动化测试的未来:AI与机器学习的融合
【6月更文挑战第30天】在本文中,我们将探讨自动化测试领域的最新趋势,特别是人工智能(AI)和机器学习(ML)技术如何正在改变软件测试的面貌。文章将详细讨论这些先进技术如何提高测试效率、准确性和适应性,同时也会分析它们带来的挑战和机遇。通过具体的案例研究和行业应用示例,本文旨在为读者提供对自动化测试未来发展方向的深入理解。
|
3天前
|
人工智能 开发框架 前端开发
移动应用开发的未来趋势:跨平台框架与AI的融合
在数字化时代的浪潮中,移动应用已成为人们日常生活和工作中不可或缺的一部分。随着技术的不断进步,移动应用开发领域也迎来了新的变革。本文将探讨移动应用开发的未来趋势,重点关注跨平台框架的发展以及人工智能(AI)技术在其中的应用。通过分析当前市场上流行的跨平台开发框架,如React Native、Flutter等,以及AI技术如何改变移动应用的开发方式,我们将揭示这些技术如何共同推动移动应用开发进入一个新的时代。
8 0
|
3天前
|
机器学习/深度学习 数据采集 人工智能
探索自动化测试的前沿:AI与机器学习的融合之道
本文旨在探讨自动化测试领域如何通过整合人工智能(AI)和机器学习(ML)技术来提升软件测试的效率与准确性。文章首先概述了自动化测试的现状,随后详细分析了AI和ML在测试中的应用及其带来的变革,并通过案例研究展示了实际成效。最后,讨论了实施这些技术的考量因素,为读者提供了深入理解并应用于实践的基础。
10 1
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
自动化测试中AI的融合与创新
随着人工智能(AI)技术的飞速发展,其在软件测试领域的应用逐渐深入。本文将探讨AI如何革新传统的自动化测试流程,提高测试效率和准确性。通过分析AI技术在缺陷预测、测试用例生成、以及测试结果分析等方面的应用,揭示AI对提升软件质量保障能力的重要性。同时,文章还将讨论AI在自动化测试中面临的挑战和未来的发展方向。
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能AI风口已开:如何赋予UI设计与视频剪辑新生命
AI正深刻影响UI设计和视频剪辑行业。在UI设计中,AI提供智能辅助设计,跨模态生成和个性化定制,帮助设计师提高效率,创新设计。AI分析趋势和用户行为,生成设计方案,支持语音和文本输入,增强设计的多样性和个性化体验。在视频剪辑领域,AI实现智能素材管理,自动化剪辑处理和特效生成,提升剪辑质量和速度。通过Adobe国际认证,设计师和剪辑师可以系统学习并掌握这些AI技术,提升职业竞争力,共同开创行业新未来。
|
5天前
|
人工智能 搜索推荐 语音技术
AI赋能视频剪辑师:人工智能时代,视频剪辑师该如何剪辑?
在AI时代,视频剪辑师借助智能素材整理、自动化剪辑、语音识别及创意辅助技术,提升效率和创新空间。他们应拥抱AI,结合AI优化剪辑流程,如高效预筛选素材、减少手动操作,同时借助AI激发创意。保持主观能动性和创造力至关重要,通过学习,如获取Adobe国际认证,提升专业技能,适应行业发展,打造个人品牌,以在行业中保持竞争力。
|
5天前
|
机器学习/深度学习 人工智能 搜索推荐
人工智能技术--AI作画工具
AI作画工具是一种运用人工智能技术,特别是深度学习和生成对抗网络(GAN)等算法,自动生成或辅助创作视觉艺术作品的技术。通过机器学习,分析和模拟人类艺术家的创作风格和技巧,从而创作出具有艺术性的画作。
48 1
|
5天前
|
人工智能 监控 安全
探索人工智能的伦理边界:我们准备好迎接AI道德困境了吗?
【6月更文挑战第26天】本文深入探讨了人工智能技术发展所引发的伦理问题,分析了当前AI应用中的一些具体案例,并讨论了如何构建一个能够应对未来挑战的AI伦理框架。文章旨在启发读者思考在设计、开发和使用AI系统时必须考虑的伦理原则和社会责任。