AI:人工智能的多模态融合模型的简介、发展以及未来趋势

简介: AI:人工智能的多模态融合模型的简介、发展以及未来趋势


目录

人工智能的多模态融合模型的简介、发展以及未来趋势

多模态融合模型的简介

多模态融合模型的发展趋势

多模态常见应用分类

1、按照模态分类

2、按照功能分类

多模态模型案例


相关文章

Paper:《Multimodal Machine Learning: A Survey and Taxonomy,多模态机器学习:综述与分类》翻译与解读

人工智能的多模态融合模型的简介、发展以及未来趋势

多模态融合模型的简介

        " 模态 "(Modality)是德国理学家赫尔姆霍茨提出的一种生物学概念,即生物凭借感知器官经验接收信息通道,如人类有视觉、听觉、触觉、味觉和嗅觉模态。多模态是指将多种感官进行融合,而多模态交互是指人通过声音、肢体语言、信息载体(文字、图片、音频、视频)、环境等多个通道与计算机进行交流,充分模拟人与人之间的交互方式

        每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

        不同模态(例如图像、文本、音频)中学习的方式存在很大差异

        为了让人工智能理解我们周围的世界方面取得进展,它需要能够解释推理关于多模态信息。多模态机器学习旨在建立能够处理和关联来自多种模态信息的模型。从早期的视听语音识别研究到最近对语言和视觉模型的兴趣激增,多模态机器学习是一个充满活力的多学科领域,其重要性日益增加,具有非凡的潜力。

        早期的深度学习算法专注于从一个单一的数据源训练其模型。例如,看—基于图像训练的CV模型和基于文本训练的NLP模型,听—基于声学模型的唤醒词检测、噪音消除的语音处理。早期的深度学习与单模态人工智能有关,其结果都被映射到一个单一的数据类型来源。而多模态人工智能是计算机视觉和交互式人工智能智能模型的最终融合,为计算器提供更接近于人类感知的场景

        多模态学习成为当中的重要趋势,它可以被应用在归一、表示、转化、翻译、对齐、融合协同学习上(representation/translation/alignment/fusion/co-learning)。按照下游任务则可以划分为理解式任务(视觉问答、视觉推理、图文检索等)和生成式任务(文本生成(对话/故事/诗歌)、图像生成文本、文字生成图像等)。

多模态融合模型的发展趋势

        Andrew Ng在年度总结时说道,虽然GPT-3EfficientNet等单独针对文本及图像等任务的深度学习模型备受瞩目,但这一年中最令人印象深刻的还是,AI 模型在发现文本与图像间关系中取得了进步。,2021年,OpenAI开启了多模态学习的重要一年,比如CLIP匹配图像和文本,Dall·E生成与输入文本对应的图像。DeepMind的Perceiver IO可以对文本、图像、视频和点云进行分类。斯坦福大学的ConVIRT为医用X射线图像添加了文本标签

        现实中,图像和文本其实非常复杂,以至于在过去,研究人员只能全神贯注的着重其中之一。在这样做的过程中,他们开发了非常不同的技术。然而,在过去十年中,计算机视觉和自然语言处理已经融合到神经网络上,为合并这两种模式的统一模型打开了大门

        Jeff Dean在长文展望中总结到,一些最先进的多模态模型可以接受语言、图像、语言和视频等多种不同的输入模态,产生不同的输出模态。这是一个令人兴奋的方向,就像真实世界一样,有些东西在多模态数据中更容易学习。例如,阅读某些东西并观看图片,比仅仅阅读它更有用。

        图像和文本配对有助于多语种检索任务,并且更好地理解如何配对文本和图像输入可以提升图像描述任务。视觉和文本数据上的协同训练有助于提升视觉分类任务的准确率和稳健性,同时图像、视频和语音任务上的联合训练能够提升所有模态的泛化性能

        目前还无法建立一个通用的“视觉机器”,无法做到统一模型同时满足不同场景要求。这意味着当下机器学习的训练成本较高,也没有达到产业化应用的理想状态。要解决这个问题,需要从端到端打通各个模态之间的关系,形成可以真正多维度交互的智能机器,让感知智能升级为认知智能

        未来发展趋势,多场景下的多模态交互成为提升应用性能的重点。以多模态融合技术为核心的感知、交互和智慧协同能力,不断支撑各类终端和应用的智能化水平提升。人工智能正在从语音、文字、视觉等单模态智能,向着多种模态融合发展,结合分布式平台的计算能力,实现更高精度的场景构建,和对动态场景的处理能力。

        未百度研究院认为,下一步是跨模态统一建模,增强模型的跨模态语义对齐能力。Jeff Dean认为,所有这些趋势都指向了训练能力更强的通用性模型,这些模型可以处理多种数据模态并解决数千甚至数万个任务。在接下来的几年,我们将通过下一代架构 Pathways 来追求这一愿景,并期望在该领域看到实质性进展。

参考文章

Top AI Stories of 2021: Transformers Take Over, Models Balloon, Multimodal AI Takes Off, Governments Crack Down - The Batch | DeepLearning.AI

Jeff Dean长文展望:2021年之后,机器学习领域的五大潜力趋势

多模态常见应用分类

1、按照模态分类

模态分类

子分类

Language-Audio

(1.1)、Text-to-Speech Synthesis: 给定文本生成对应的声音

(1.2)、Audio Captioning:给定一段语音,生成一句话总结并描述主要内容。(不是语音识别)

Vision-Audio

(2.1)、Audio-Visual Speech Recognition(视听语音识别):给定某人的视频及语音进行语音识别。

(2.2)、Video Sound Separation(视频声源分离):给定视频和声音信号(包含多个声源),进行声源定位与分离。

(2.3)、Image Generation from Audio: 给定声音,生成与其相关的图像。

(2.4)、Speech-conditioned Face generation:给定一段话,生成说话人的视频。

(2.5)、Audio-Driven 3D Facial Animation:给定一段话与3D人脸模版,生成说话的人脸3D动画。

Vision-Language

(3.1)、Image/Video-Text Retrieval (图(视频)文检索): 图像/视频<-->文本的相互检索。

(3.2)、Image/Video Captioning(图像/视频描述):给定一个图像/视频,生成文本描述其主要内容。

(3.3)、Visual Question Answering(视觉问答):给定一个图像/视频与一个问题,预测答案。

(3.4)、Image/Video Generation from Text:给定文本,生成相应的图像或视频。

(3.5)、Multimodal Machine Translation:给定一种语言的文本与该文本对应的图像,翻译为另外一种语言。

(3.6)、Vision-and-Language Navigation(视觉-语言导航): 给定自然语言进行指导,使得智能体根据视觉传感器导航到特定的目标。

(3.7)、Multimodal Dialog(多模态对话): 给定图像,历史对话,以及与图像相关的问题,预测该问题的回答。

2、按照功能分类

模态分类

子分类

定位相关

(1.1)、Visual Grounding:给定一个图像与一段文本,定位到文本所描述的物体。

(1.2)、Temporal Language Localization: 给定一个视频即一段文本,定位到文本所描述的动作(预测起止时间)。

(1.3)、Video Summarization from text query:给定一段话(query)与一个视频,根据这段话的内容进行视频摘要,预测视频关键帧(或关键片段)组合为一个短的摘要视频。

(1.4)、Video Segmentation from Natural Language Query: 给定一段话(query)与一个视频,分割得到query所指示的物体。

(1.5)、Video-Language Inference: 给定视频(包括视频的一些字幕信息),还有一段文本假设(hypothesis),判断二者是否存在语义蕴含(二分类),即判断视频内容是否包含这段文本的语义。

(1.6)、Object Tracking from Natural Language Query: 给定一段视频和一些文本,进行定位匹配。

(1.7)、Language-guided Image/Video Editing: 一句话自动修图。给定一段指令(文本),自动进行图像/视频的编辑。

情感分析相关

Affect Computing (情感计算):使用语音、视觉(人脸表情)、文本信息、心电、脑电等模态进行情感识别。

其它

Medical Image:不同医疗图像模态如CT、MRI、PET

RGB-D模态:RGB图与深度图

参考文章多模态学习综述及最新方向 - 知乎

多模态模型案例

时间

发明者

模型名称

功能

2021年1月

OpenAI

CLIP&DALL-E

功能

  • DALL·E 可以基于短文本提示(如一句话或一段文字)生成对应的图像。以文搜图,按照文字描述去生成对应图片。使用艺术家萨尔瓦多 - 达利和皮克斯的瓦力的谐音来命名。
  • CLIP 则可以基于文本提示图片进行分类。但是,发布之后,有研究发现 CLIP 存在种族和性别偏见问题。

原理:在众多图像-文本对上,训练大规模自回归 transformer 可以通过文本 prompt 产生具有可控结果的高保真生成模型。

例如,当文本描述为 " 一个甜甜圈形状的时钟 " 被发送到该模型时,它就可以生成以下图像。

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人 | 在线可玩_量子位-CSDN博客

意义

(1)、开启了2021年多模态学习的新篇章

(2)、降低了深度学习需要的数据标注量。

(3)、CLIP的zero-shot learning技术使得在各种数据集上的表现都很好(包括没见过的数据集)。

2021年5月

Google

MUM

功能:多任务统一模型

原理:通过从 75 种不同语言中挖掘出的上下文信息对用户搜索结果进行优先排序。

2021年9月

百度

DocVQA

功能:文档理解,跨模态文档理解模型ERNIE-Layout。

意义:登顶DocVQA榜首

2021年11月

NVIDIA

GauGAN2

功能:根据输入的文本/简笔画生成对应逼真的风景图、输入图像并编辑部分内容。

原理:它在一个单一的模型中结合了分割映射、修复和文本到图像的生成,使其成为一个强大的多模态工具。

意义:可以用文字和图画的混合来创造逼真的艺术。

Demo:AI Demos | NVIDIA Research

2021年11月

Microsoft
&北大

NÜWA女娲

功能:实现文本/草图转图像、图像补全、文字指示修改图像/视频、文字/草图转视频、视频预测等任务,功能异常强大。

意义:在8种包含图像和视频处理的下游视觉任务上具有出色的合成效果。

2021年12月

NVIDIA

PoE GAN

功能:文字描述、图像分割、草图、风格都可以转化为图片,它还可以同时接受以上几种输入模态的任意两种组合,这便是PoE的含义。

原理:生成器使用全局PoE-Net将不同类型输入的变化混合起来。鉴别器中,作者提出了一种多模态投影鉴别器,将投影鉴别器推广到处理多个条件输入。

意义:PoE可以在单模态输入、多模态输入甚至无输入时生成图片。当使用单个输入模态进行测试时,PoE-GAN的表现优于之前专门为该模态设计的SOTA方法。

2022年1月

百度

ERNIE-ViLG

功能:图文双向生成。

原理:它通过自回归算法将图像生成和文本生成统一建模,实现文图双向生成。

意义:文心 ERNIE-ViLG 参数规模达到 100 亿,是目前为止全球最大规模中文跨模态生成模型。刷新文本生成图像、图像描述等多个跨模态生成任务最好效果。

Demo:

文心大模型-产业级知识增强大模型

2022年1月

Facebook
&Meta

AV-HuBERT

功能:这通过输入语音音频和唇语视频两种不同形式内容,输出对应文本。

原理:它是一个多模态的自监督学习算法,该模型通过结合人们说话过程中嘴唇和牙齿活动、语音方面的信息。AV-HuBERT可以捕捉到音频和视频间的微妙联系。这和人类本身感知语言的模式很相似。

意义:尤其是在嘈杂的环境下,通过读唇可以将语言识别的准确性最高提升6倍

2022年1月

Facebook
&Meta

data2vec

功能:应用于语音、图像和文本。

意义:在计算机视觉、语音任务上优于最佳单一用途算法,首个适用于多模态的高性能自监督算法,语音、图像文本全部SOTA。

相关文章

嘈杂场景语音识别准确率怎么提?脸书:看嘴唇


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
14天前
|
人工智能 运维 安全
阿里云通过ISO42001人工智能管理认证,引领AI治理推动协同共治
9月19日,在杭州云栖大会「AI治理与安全论坛」上,阿里云宣布通过人工智能技术的全生命周期管理ISO42001体系认证。该项认证由国际标准化组织(ISO)和国际电工委员会(IEC)制定,是第一部可认证的人工智能国际管理体系标准。
|
15天前
|
机器学习/深度学习 人工智能 算法
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
鸟类识别系统。本系统采用Python作为主要开发语言,通过使用加利福利亚大学开源的200种鸟类图像作为数据集。使用TensorFlow搭建ResNet50卷积神经网络算法模型,然后进行模型的迭代训练,得到一个识别精度较高的模型,然后在保存为本地的H5格式文件。在使用Django开发Web网页端操作界面,实现用户上传一张鸟类图像,识别其名称。
60 12
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
|
4天前
|
机器学习/深度学习 人工智能 搜索推荐
AI人工智能辅助的神经康复
人工智能辅助的神经康复是通过应用人工智能(AI)技术来改善神经系统损伤患者的康复过程。此领域结合了深度学习、数据分析和机器人技术,旨在提升康复效果、个性化治疗方案和监测进展。
23 12
|
2天前
|
机器学习/深度学习 人工智能 监控
AI与未来医疗:重塑健康产业的双刃剑随着科技的迅猛发展,人工智能(AI)正以前所未有的速度融入各行各业,其中医疗领域作为关系到人类生命健康的重要行业,自然也成为AI应用的焦点之一。本文将探讨AI在未来医疗中的潜力与挑战,分析其对健康产业可能带来的革命性变化。
在医疗领域,人工智能不仅仅是一种技术革新,更是一场关乎生死存亡的革命。从诊断到治疗,从后台数据分析到前端临床应用,AI正在全方位地改变传统医疗模式。然而,任何技术的发展都有其两面性,AI也不例外。本文通过深入分析,揭示AI在医疗领域的巨大潜力及其潜在风险,帮助读者更好地理解这一前沿技术对未来健康产业的影响。
|
14天前
|
机器学习/深度学习 人工智能 数据可视化
首篇虚拟现实+人工智能综述!浙大、港中深等发布AI医疗最新报告
【9月更文挑战第21天】近年来,AI驱动的虚拟现实(VR)技术革新了医疗领域,浙江大学等发布的报告系统性审视了这一融合趋势。报告提出三大应用分类——可视化增强、医疗数据处理与VR辅助干预,助力精准诊疗。然而,技术成熟度、数据安全及伦理问题仍待解决。这一跨学科研究为未来医疗科技奠定了基础。报告详情参见:&lt;https://www.ijcai.org/proceedings/2024/920&gt;。
44 4
|
13天前
|
机器学习/深度学习 人工智能 算法
量子计算与人工智能的融合:智能计算的新篇章
【9月更文挑战第22天】量子计算与人工智能的融合正开启智能计算的新篇章。通过利用量子计算的独特优势,人工智能领域将迎来前所未有的性能提升和全新可能性。随着技术的不断进步和应用场景的不断拓展,我们有理由相信,量子计算与人工智能的融合将引领一场科技革命,为人类社会的发展和进步做出更大贡献。
|
8天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能与大数据的融合应用##
随着科技的快速发展,人工智能(AI)和大数据技术已经深刻地改变了我们的生活。本文将探讨人工智能与大数据的基本概念、发展历程及其在多个领域的融合应用。同时,还将讨论这些技术所带来的优势与挑战,并展望未来的发展趋势。希望通过这篇文章,读者能够对人工智能与大数据有更深入的理解,并思考其对未来社会的影响。 ##
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的未来:深度学习与日常生活的融合
【9月更文挑战第26天】在这篇文章中,我们将一起探讨人工智能(AI)的一个子领域——深度学习,以及它如何影响我们的日常生活。通过简单易懂的语言和实际代码示例,我们将了解深度学习的基础知识,并看到它是如何被应用到诸如图像识别、自然语言处理等日常场景中的。无论你是技术新手还是有一定基础的爱好者,这篇文章都将为你提供有价值的见解和知识。
18 0
|
12天前
|
人工智能 搜索推荐 算法
人工智能与未来医疗:革命性的融合
本文探讨了人工智能技术在医疗领域的应用及其潜在的革命性影响。通过对当前AI技术的深入分析和未来发展趋势的预测,文章揭示了AI如何助力医学诊断、个性化治疗、患者监护等多个方面,进而提高整体医疗服务水平和效率。此外,还讨论了这一技术融合所带来的伦理和法律挑战,为相关从业者提供参考。
27 0
|
8天前
|
机器学习/深度学习 数据采集 人工智能
探索AI技术在文本生成中的应用与挑战
【9月更文挑战第26天】本文深入探讨了AI技术在文本生成领域的应用,并分析了其面临的挑战。通过介绍AI文本生成的基本原理、应用场景以及未来发展趋势,帮助读者全面了解该技术的潜力和局限性。同时,文章还提供了代码示例,展示了如何使用Python和相关库实现简单的文本生成模型。
33 9

热门文章

最新文章

下一篇
无影云桌面