AI:人工智能的多模态融合模型的简介、发展以及未来趋势

简介: AI:人工智能的多模态融合模型的简介、发展以及未来趋势


目录

人工智能的多模态融合模型的简介、发展以及未来趋势

多模态融合模型的简介

多模态融合模型的发展趋势

多模态常见应用分类

1、按照模态分类

2、按照功能分类

多模态模型案例


相关文章

Paper:《Multimodal Machine Learning: A Survey and Taxonomy,多模态机器学习:综述与分类》翻译与解读

人工智能的多模态融合模型的简介、发展以及未来趋势

多模态融合模型的简介

        " 模态 "(Modality)是德国理学家赫尔姆霍茨提出的一种生物学概念,即生物凭借感知器官经验接收信息通道,如人类有视觉、听觉、触觉、味觉和嗅觉模态。多模态是指将多种感官进行融合,而多模态交互是指人通过声音、肢体语言、信息载体(文字、图片、音频、视频)、环境等多个通道与计算机进行交流,充分模拟人与人之间的交互方式

        每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

        不同模态(例如图像、文本、音频)中学习的方式存在很大差异

        为了让人工智能理解我们周围的世界方面取得进展,它需要能够解释推理关于多模态信息。多模态机器学习旨在建立能够处理和关联来自多种模态信息的模型。从早期的视听语音识别研究到最近对语言和视觉模型的兴趣激增,多模态机器学习是一个充满活力的多学科领域,其重要性日益增加,具有非凡的潜力。

        早期的深度学习算法专注于从一个单一的数据源训练其模型。例如,看—基于图像训练的CV模型和基于文本训练的NLP模型,听—基于声学模型的唤醒词检测、噪音消除的语音处理。早期的深度学习与单模态人工智能有关,其结果都被映射到一个单一的数据类型来源。而多模态人工智能是计算机视觉和交互式人工智能智能模型的最终融合,为计算器提供更接近于人类感知的场景

        多模态学习成为当中的重要趋势,它可以被应用在归一、表示、转化、翻译、对齐、融合协同学习上(representation/translation/alignment/fusion/co-learning)。按照下游任务则可以划分为理解式任务(视觉问答、视觉推理、图文检索等)和生成式任务(文本生成(对话/故事/诗歌)、图像生成文本、文字生成图像等)。

多模态融合模型的发展趋势

        Andrew Ng在年度总结时说道,虽然GPT-3EfficientNet等单独针对文本及图像等任务的深度学习模型备受瞩目,但这一年中最令人印象深刻的还是,AI 模型在发现文本与图像间关系中取得了进步。,2021年,OpenAI开启了多模态学习的重要一年,比如CLIP匹配图像和文本,Dall·E生成与输入文本对应的图像。DeepMind的Perceiver IO可以对文本、图像、视频和点云进行分类。斯坦福大学的ConVIRT为医用X射线图像添加了文本标签

        现实中,图像和文本其实非常复杂,以至于在过去,研究人员只能全神贯注的着重其中之一。在这样做的过程中,他们开发了非常不同的技术。然而,在过去十年中,计算机视觉和自然语言处理已经融合到神经网络上,为合并这两种模式的统一模型打开了大门

        Jeff Dean在长文展望中总结到,一些最先进的多模态模型可以接受语言、图像、语言和视频等多种不同的输入模态,产生不同的输出模态。这是一个令人兴奋的方向,就像真实世界一样,有些东西在多模态数据中更容易学习。例如,阅读某些东西并观看图片,比仅仅阅读它更有用。

        图像和文本配对有助于多语种检索任务,并且更好地理解如何配对文本和图像输入可以提升图像描述任务。视觉和文本数据上的协同训练有助于提升视觉分类任务的准确率和稳健性,同时图像、视频和语音任务上的联合训练能够提升所有模态的泛化性能

        目前还无法建立一个通用的“视觉机器”,无法做到统一模型同时满足不同场景要求。这意味着当下机器学习的训练成本较高,也没有达到产业化应用的理想状态。要解决这个问题,需要从端到端打通各个模态之间的关系,形成可以真正多维度交互的智能机器,让感知智能升级为认知智能

        未来发展趋势,多场景下的多模态交互成为提升应用性能的重点。以多模态融合技术为核心的感知、交互和智慧协同能力,不断支撑各类终端和应用的智能化水平提升。人工智能正在从语音、文字、视觉等单模态智能,向着多种模态融合发展,结合分布式平台的计算能力,实现更高精度的场景构建,和对动态场景的处理能力。

        未百度研究院认为,下一步是跨模态统一建模,增强模型的跨模态语义对齐能力。Jeff Dean认为,所有这些趋势都指向了训练能力更强的通用性模型,这些模型可以处理多种数据模态并解决数千甚至数万个任务。在接下来的几年,我们将通过下一代架构 Pathways 来追求这一愿景,并期望在该领域看到实质性进展。

参考文章

Top AI Stories of 2021: Transformers Take Over, Models Balloon, Multimodal AI Takes Off, Governments Crack Down - The Batch | DeepLearning.AI

Jeff Dean长文展望:2021年之后,机器学习领域的五大潜力趋势

多模态常见应用分类

1、按照模态分类

模态分类

子分类

Language-Audio

(1.1)、Text-to-Speech Synthesis: 给定文本生成对应的声音

(1.2)、Audio Captioning:给定一段语音,生成一句话总结并描述主要内容。(不是语音识别)

Vision-Audio

(2.1)、Audio-Visual Speech Recognition(视听语音识别):给定某人的视频及语音进行语音识别。

(2.2)、Video Sound Separation(视频声源分离):给定视频和声音信号(包含多个声源),进行声源定位与分离。

(2.3)、Image Generation from Audio: 给定声音,生成与其相关的图像。

(2.4)、Speech-conditioned Face generation:给定一段话,生成说话人的视频。

(2.5)、Audio-Driven 3D Facial Animation:给定一段话与3D人脸模版,生成说话的人脸3D动画。

Vision-Language

(3.1)、Image/Video-Text Retrieval (图(视频)文检索): 图像/视频<-->文本的相互检索。

(3.2)、Image/Video Captioning(图像/视频描述):给定一个图像/视频,生成文本描述其主要内容。

(3.3)、Visual Question Answering(视觉问答):给定一个图像/视频与一个问题,预测答案。

(3.4)、Image/Video Generation from Text:给定文本,生成相应的图像或视频。

(3.5)、Multimodal Machine Translation:给定一种语言的文本与该文本对应的图像,翻译为另外一种语言。

(3.6)、Vision-and-Language Navigation(视觉-语言导航): 给定自然语言进行指导,使得智能体根据视觉传感器导航到特定的目标。

(3.7)、Multimodal Dialog(多模态对话): 给定图像,历史对话,以及与图像相关的问题,预测该问题的回答。

2、按照功能分类

模态分类

子分类

定位相关

(1.1)、Visual Grounding:给定一个图像与一段文本,定位到文本所描述的物体。

(1.2)、Temporal Language Localization: 给定一个视频即一段文本,定位到文本所描述的动作(预测起止时间)。

(1.3)、Video Summarization from text query:给定一段话(query)与一个视频,根据这段话的内容进行视频摘要,预测视频关键帧(或关键片段)组合为一个短的摘要视频。

(1.4)、Video Segmentation from Natural Language Query: 给定一段话(query)与一个视频,分割得到query所指示的物体。

(1.5)、Video-Language Inference: 给定视频(包括视频的一些字幕信息),还有一段文本假设(hypothesis),判断二者是否存在语义蕴含(二分类),即判断视频内容是否包含这段文本的语义。

(1.6)、Object Tracking from Natural Language Query: 给定一段视频和一些文本,进行定位匹配。

(1.7)、Language-guided Image/Video Editing: 一句话自动修图。给定一段指令(文本),自动进行图像/视频的编辑。

情感分析相关

Affect Computing (情感计算):使用语音、视觉(人脸表情)、文本信息、心电、脑电等模态进行情感识别。

其它

Medical Image:不同医疗图像模态如CT、MRI、PET

RGB-D模态:RGB图与深度图

参考文章多模态学习综述及最新方向 - 知乎

多模态模型案例

时间

发明者

模型名称

功能

2021年1月

OpenAI

CLIP&DALL-E

功能

  • DALL·E 可以基于短文本提示(如一句话或一段文字)生成对应的图像。以文搜图,按照文字描述去生成对应图片。使用艺术家萨尔瓦多 - 达利和皮克斯的瓦力的谐音来命名。
  • CLIP 则可以基于文本提示图片进行分类。但是,发布之后,有研究发现 CLIP 存在种族和性别偏见问题。

原理:在众多图像-文本对上,训练大规模自回归 transformer 可以通过文本 prompt 产生具有可控结果的高保真生成模型。

例如,当文本描述为 " 一个甜甜圈形状的时钟 " 被发送到该模型时,它就可以生成以下图像。

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人 | 在线可玩_量子位-CSDN博客

意义

(1)、开启了2021年多模态学习的新篇章

(2)、降低了深度学习需要的数据标注量。

(3)、CLIP的zero-shot learning技术使得在各种数据集上的表现都很好(包括没见过的数据集)。

2021年5月

Google

MUM

功能:多任务统一模型

原理:通过从 75 种不同语言中挖掘出的上下文信息对用户搜索结果进行优先排序。

2021年9月

百度

DocVQA

功能:文档理解,跨模态文档理解模型ERNIE-Layout。

意义:登顶DocVQA榜首

2021年11月

NVIDIA

GauGAN2

功能:根据输入的文本/简笔画生成对应逼真的风景图、输入图像并编辑部分内容。

原理:它在一个单一的模型中结合了分割映射、修复和文本到图像的生成,使其成为一个强大的多模态工具。

意义:可以用文字和图画的混合来创造逼真的艺术。

Demo:AI Demos | NVIDIA Research

2021年11月

Microsoft
&北大

NÜWA女娲

功能:实现文本/草图转图像、图像补全、文字指示修改图像/视频、文字/草图转视频、视频预测等任务,功能异常强大。

意义:在8种包含图像和视频处理的下游视觉任务上具有出色的合成效果。

2021年12月

NVIDIA

PoE GAN

功能:文字描述、图像分割、草图、风格都可以转化为图片,它还可以同时接受以上几种输入模态的任意两种组合,这便是PoE的含义。

原理:生成器使用全局PoE-Net将不同类型输入的变化混合起来。鉴别器中,作者提出了一种多模态投影鉴别器,将投影鉴别器推广到处理多个条件输入。

意义:PoE可以在单模态输入、多模态输入甚至无输入时生成图片。当使用单个输入模态进行测试时,PoE-GAN的表现优于之前专门为该模态设计的SOTA方法。

2022年1月

百度

ERNIE-ViLG

功能:图文双向生成。

原理:它通过自回归算法将图像生成和文本生成统一建模,实现文图双向生成。

意义:文心 ERNIE-ViLG 参数规模达到 100 亿,是目前为止全球最大规模中文跨模态生成模型。刷新文本生成图像、图像描述等多个跨模态生成任务最好效果。

Demo:

文心大模型-产业级知识增强大模型

2022年1月

Facebook
&Meta

AV-HuBERT

功能:这通过输入语音音频和唇语视频两种不同形式内容,输出对应文本。

原理:它是一个多模态的自监督学习算法,该模型通过结合人们说话过程中嘴唇和牙齿活动、语音方面的信息。AV-HuBERT可以捕捉到音频和视频间的微妙联系。这和人类本身感知语言的模式很相似。

意义:尤其是在嘈杂的环境下,通过读唇可以将语言识别的准确性最高提升6倍

2022年1月

Facebook
&Meta

data2vec

功能:应用于语音、图像和文本。

意义:在计算机视觉、语音任务上优于最佳单一用途算法,首个适用于多模态的高性能自监督算法,语音、图像文本全部SOTA。

相关文章

嘈杂场景语音识别准确率怎么提?脸书:看嘴唇


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3天前
|
机器学习/深度学习 人工智能 算法
探索人工智能与大数据的融合之道####
— 本文旨在探讨人工智能(AI)与大数据如何协同工作,以推动技术创新和产业升级。通过分析二者的基本概念、核心技术及应用场景,揭示它们相互促进的内在机制,并展望未来发展趋势。文章指出,AI提供了智能化处理数据的能力,而大数据则为AI提供了海量的训练资源,两者结合将开启无限可能。 ####
|
4天前
|
人工智能 监控 物联网
深度探索人工智能与物联网的融合:构建未来智能生态系统###
在当今这个数据驱动的时代,人工智能(AI)与物联网(IoT)的深度融合正引领着一场前所未有的技术革命。本文旨在深入剖析这一融合背后的技术原理、探讨其在不同领域的应用实例及面临的挑战与机遇,为读者描绘一幅关于未来智能生态系统的宏伟蓝图。通过技术创新的视角,我们不仅揭示了AI与IoT结合的强大潜力,也展望了它们如何共同塑造一个更加高效、可持续且互联的世界。 ###
|
5天前
|
机器学习/深度学习 人工智能 算法
人工智能与机器学习的融合之旅
【10月更文挑战第37天】本文将探讨AI和机器学习如何相互交织,共同推动技术发展的边界。我们将深入分析这两个概念,了解它们是如何互相影响,以及这种融合如何塑造我们的未来。文章不仅会揭示AI和机器学习之间的联系,还会通过实际案例展示它们如何协同工作,以解决现实世界的问题。
|
9天前
|
人工智能 算法 搜索推荐
探索人工智能与大数据的融合之道####
本文深入探讨了人工智能(AI)与大数据之间的紧密联系与相互促进的关系,揭示了二者如何共同推动科技进步与产业升级。在信息爆炸的时代背景下,大数据为AI提供了丰富的学习材料,而AI则赋予了大数据分析前所未有的深度与效率。通过具体案例分析,本文阐述了这一融合技术如何在医疗健康、智慧城市、金融科技等多个领域展现出巨大潜力,并对未来发展趋势进行了展望,强调了持续创新与伦理考量的重要性。 ####
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能与大数据的融合之美####
【10月更文挑战第29天】 身处信息技术飞速发展的时代,人工智能与大数据如同两颗璀璨的星辰,在科技的夜空中交相辉映,共同推动着社会进步与变革的浪潮。本文旨在揭开AI与大数据深度融合的神秘面纱,探讨这一融合如何引领技术前沿,激发创新活力,并展望其在未来世界中的无限可能。通过深入浅出的解析,展现技术背后的逻辑与魅力,邀请读者一同踏上这场科技与智慧的探索之旅。 ####
37 2
|
20天前
|
机器学习/深度学习 人工智能 搜索推荐
人工智能与未来医疗:AI技术如何重塑医疗健康领域###
【10月更文挑战第21天】 一场由AI驱动的医疗革命正在悄然发生,它以前所未有的速度和深度改变着我们对于疾病预防、诊断、治疗及健康管理的认知。本文探讨了AI在医疗领域的多维度应用,包括精准医疗、药物研发加速、远程医疗普及以及患者个性化治疗体验的提升,揭示了这场技术变革背后的深远意义与挑战。 ###
47 6
|
20天前
|
人工智能 自动驾驶 算法
探索人工智能与人类智慧的融合之道####
【10月更文挑战第21天】 本文深入探讨了人工智能技术的最新发展趋势,特别是其在医疗、教育和自动驾驶领域的应用案例。通过对比分析,揭示了AI如何在提高效率、降低成本的同时,也带来了伦理和就业方面的挑战。文章强调,未来科技的发展需注重人性化设计,确保技术进步服务于社会整体福祉。 ####
26 3
|
20天前
|
人工智能
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【10月更文挑战第21天】普林斯顿大学研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准,涵盖计算机科学、社会科学和医学领域的270个任务。该基准旨在评估AI代理在科学研究中的准确性,具有多样性、难度级别和现实相关性等特点,有助于推动AI代理的发展并提高计算可重复性。
40 4
|
21天前
|
人工智能 自动驾驶 数据安全/隐私保护
人工智能的伦理困境:我们如何确保AI的道德发展?
【10月更文挑战第21天】随着人工智能(AI)技术的飞速发展,其在各行各业的应用日益广泛,从而引发了关于AI伦理和道德问题的讨论。本文将探讨AI伦理的核心问题,分析当前面临的挑战,并提出确保AI道德发展的建议措施。
|
21天前
|
人工智能 搜索推荐 安全
人工智能与未来社会:探索AI在教育领域的革命性影响
本文深入探讨了人工智能(AI)技术在教育领域的潜在影响和变革。通过分析AI如何个性化学习路径、提高教学效率以及促进教育资源的公平分配,我们揭示了AI技术对教育模式的重塑力量。文章还讨论了实施AI教育所面临的挑战,包括数据隐私、伦理问题及技术普及障碍,并提出了相应的解决策略。通过具体案例分析,本文旨在启发读者思考AI如何助力构建更加智能、高效和包容的教育生态系统。

热门文章

最新文章