MIT、IBM联合打造AI配音师:检测动作自动添加音效,视频「无声」胜「有声」

简介: 从无声视频中生成音乐?这听起来很难。由MIT-IBM 沃森人工智能实验室主任研究员淦创博士领导的研究小组在 ECCV 2020 的一篇论文中,提出了一种名为 “Foley Music” 的模型,仅根据音乐家的身体动作就能自动生成一段极具表现力的音乐。

说起计算机音乐的发展史,还要追溯到 1951 年,英国计算机科学家艾伦 · 图灵是第一位录制计算机生成音乐的人。近年来,深度神经网络的出现促使了利用大规模音乐数据进行训练来生成音乐的相关工作。

然而,音乐往往伴随着演奏者与乐器的互动,并通过细微的手势与乐器相互作用以产生独特的音乐。这就会出现一个有趣的问题:给定音乐家演奏乐器的无声视频片段,我们是否可以开发一种模型,能够根据音乐家的身体动作自动生成一段逼真的音乐?

这种功能将会为各种应用奠定基础,例如自动为视频添加声音效果,以避免繁琐的人工操作,或在虚拟现实中创造听觉沉浸式体验。但具体来说,如何实现呢?

研究概述

微信图片_20211204112551.jpg



为了解决这个问题,由MIT-IBM 沃森人工智能实验室主任研究员淦创博士领导的研究小组提出了一种名为 “Foley Music” 的模型,可以从无声视频中生成富有表现力的音乐。该模型将视频作为输入,检测视频中的人体骨架,识别其与乐器之间的交互作用,预测相应的 MIDI 文件。论文已入选计算机视觉顶会 ECCV 2020。


微信图片_20211204112609.png

点击查看原视频

首先,研究者确定了生成音乐的两个关键要素。对于视觉感知,采用身体和手指关键点作为视觉表征,从而可以显式地对身体部位和手部动作进行建模;对于音频表征,研究者提出使用 MIDI,可对每个音符事件的时间和强度信息进行编码,使用标准音频合成器,亦可轻松将 MIDI 转换为逼真的音乐波形。由此将音乐生成问题视为 Motion-MIDI 的转换问题,如图 1 所示。同时研究者还提出了 Graph-Transformer 模块来学习将它们关联起来的映射函数。

微信图片_20211204112615.jpg

图 1:任务定义。

为了评估生成音乐的质量,研究者进行了定性研究实验,通过正确性、噪声量、同步性和综合性指标进行衡量。实验结果证明,该方法的性能明显优于其他现有方法。更重要的是,由于 MIDI 是完全可解释和透明的,能够灵活地进行音乐编辑。研究者表示,该工作将为通过人体关键点和 MIDI 来探索视频和音乐之间的联系开辟未来的研究方向。

Graph-Transformer 模型

研究者分别选择了人体姿态和 MIDI 作为视觉和音频表征,并提出了一种 Graph-Transformer 模型,根据身体姿态特征预测 MIDI 事件,整体框架如图 2 所示。

视觉表征

该模型使用人体姿态特征来捕获身体运动线索。首先,从视频的每帧中检测身体和手指关键点,然后将其 2D 坐标根据时间堆叠为结构化视觉表征。在实际应用中,使用开源 OpenPose 工具箱提取身体关键点的 2D 坐标,并使用预训练手部检测模型和 OpenPose hand API 来预测手指关键点的坐标。总共获得了 25 个身体关键点,以及 21 个手部关键点。

音频表征

选择正确的音频表征对于成功生成富有表现力的音乐非常重要。研究者选择 MIDI 作为音频表征,主要由 note-on 和 note-off 事件组成,每个事件也定义了音高和强度。研究者使用音乐处理软件从视频的音轨中自动检测 MIDI。对于 6 秒钟的视频片段,通常包含大约 500 个 MIDI 事件。这些 MIDI 事件可以很容易地导入到标准合成器中生成音乐波形。

微信图片_20211204112620.jpg

图 2:整体架构。

视觉编码器

在从视频中提取的 2D 关键点坐标基础上,研究者采用 GCN 对身体和手部不同关键点之间的时空关系进行显式建模。与 ST-GCN 类似,首先,将人体骨架序列表示为无向时空图微信图片_20211204112630.jpg,其中节点对应于人体关键点,边反映了人体关键点的自然连通性。

每个节点的输入是检测到的人体关键点的 2D 坐标。为了对时空信息进行建模,研究者首先采用空间 GCN 对每帧上的姿态特征进行独立编码,然后对得到的张量采用时间卷积来聚合时间信息。编码后的姿态特征 P 定义为:

微信图片_20211204112633.jpg

其中,微信图片_20211204112639.jpg是输入特征;V 和C_n分别是关键点数和每个节点的特征维度;是邻接矩阵,根据身体和手指的关节连接定义;W_S 和 W_T 分别是空间 GCN 和时间卷积的权重矩阵。研究者通过 GCN 更新节点特征。最后对节点特征进行聚合得到编码姿态特征微信图片_20211204112647.jpg,其中, T_v 和 C_v 分别是时间维度和特征通道数。

MIDI 解码器

由于音乐信号表示为 MIDI 事件序列,因此研究者将根据人体运动生成音乐视为序列预测问题。为此,研究者使用 Transformer 模型的解码器部分,该部分已展示出在序列预测中捕获长期结构的强大能力。

研究者将此模型应用于运动 MIDI 转换问题。具体而言,给定视觉表征微信图片_20211204112656.jpg,Transformer 解码器负责预测 MIDI 事件序列微信图片_20211204112659.jpg其中 T_m 和 L 表示视频片段中包含的 MIDI 事件的总数以及词汇量。在每个时间步长,解码器都会将之前在 MIDI 事件上生成的特征编码和视觉姿态特征作为输入,并预测下一个 MIDI 事件。

Transformer 中的核心机制是自注意力模块。该模块首先将向量序列转换为 Query,Key 和 Value,之后输出 Value 的加权和,其中权重通过 Key 和 Query 点积获得

微信图片_20211204112705.jpg


与仅使用位置正弦波来表示时序信息的 Transformer 模型不同,研究者采用相对位置使注意力明确地知道序列中两个 token 之间的距离。这对于建模音乐至关重要,因为音乐具有丰富的和弦声音,并且相对差异与音长和音高息息相关。为了解决这个问题,研究者为每个 Query 和 Key 之间可能的成对距离学习一个有序相对位置嵌入R,如下所示:

微信图片_20211204112711.jpg


对于 MIDI 解码器,研究者首先使用具有相对位置嵌入的掩模自注意力模块来对输入的 MIDI 事件进行编码,其中 Query,Key 和 Value 均来自相同的特征编码。之后将掩模自注意力模块的输出微信图片_20211204112715.jpg和姿态特征微信图片_20211204112718.jpg传递到多头注意力模块中,其计算公式如下:

微信图片_20211204112721.jpg


其输出通过两层全连接层和 softmax 后得到下一个 token 在词汇表中的概率分布

实验结果

数据集

研究者在 URMP,AtinPiano 和 MUSIC 这三个乐器演奏视频数据集上进行了实验,其中包含手风琴、贝斯、巴松管、大提琴、吉他、钢琴、大号、尤克里里和小提琴共九种不同类别乐器的大约 1000 个演奏视频。

对比基准

研究者将本文模型与 SampleRNN,WaveNet 和 GAN-based Model 这三种现有方法进行了比较。公平起见,为所有基准提供的姿态特征是相同的。

定性评估

在 AMT 上通过四个评价指标定性比较生成音乐的感知质量。(1)正确性:生成音乐与视频内容相关;(2)噪音量:生成音乐包含噪音最小;(3)同步性:生成音乐在时间上与视频匹配;(4)综合性:总体质量最佳。

研究者向 AMT 工作人员展示了四个视频,这些视频具有相同的视频内容,但具有不同的声音,分别由本文方法和三个基准方法合成。AMT 工作人员需要分别根据以上指标从中选择出最佳的视频。

表 1 展示了不同乐器类别的综合性指标结果,该方法在所有乐器类别上均优于基准方法。

微信图片_20211204112725.png

表 1 综合性指标结果

图 3 分析了正确性,噪音量和同步性指标结果。可以观察到,在所有评价指标上,该方法也始终优于并远超基准方法。

微信图片_20211204112729.png

图 3 正确性,噪音量和同步性指标结果

这些结果证明了本文所提出方法的有效性,即 MIDI 有助于改善声音质量,语义对齐以及时间同步。


可视化结果

图 4 左侧展示了这一方法预测的 MIDI 和 GT 之间的对比。可以观察到,该方法所预测的 MIDI 与 GT 非常相似。图 4 右侧展示了不同方法生成的声谱图结果。可以发现该方法比其他基准方法生成了更多的结构化谐波分量。

微信图片_20211204112733.png

图 4:可视化结果。


音乐编辑

基于 MIDI 的可解释性和灵活性,可以通过 MIDI 文件轻松地进行音乐编辑,生成不同风格音乐,如图 5 所示。这对于以前使用波形或频谱图作为音频表示形式的系统而言难以实现。

微信图片_20211204112736.jpg

图 5:不同风格音乐。

相关文章
|
6天前
|
机器学习/深度学习 人工智能 算法
UCLA、MIT数学家推翻39年经典数学猜想!AI证明卡在99.99%,人类最终证伪
近日,加州大学洛杉矶分校和麻省理工学院的数学家团队成功推翻了存在39年的“上下铺猜想”(Bunkbed Conjecture),该猜想由1985年提出,涉及图论中顶点路径问题。尽管AI在研究中发挥了重要作用,但最终未能完成证明。人类数学家通过深入分析与创新思维,找到了推翻猜想的关键证据,展示了人类智慧在数学证明中的不可替代性。成果发表于arXiv,引发了关于AI在数学领域作用的广泛讨论。
117 89
|
4月前
|
JSON 人工智能 数据格式
AI计算机视觉笔记二十六:YOLOV8自训练关键点检测
本文档详细记录了使用YOLOv8训练关键点检测模型的过程。首先通过清华源安装YOLOv8,并验证安装。接着通过示例权重文件与测试图片`bus.jpg`演示预测流程。为准备训练数据,文档介绍了如何使用`labelme`标注工具进行关键点标注,并提供了一个Python脚本`labelme2yolo.py`将标注结果从JSON格式转换为YOLO所需的TXT格式。随后,通过Jupyter Notebook可视化标注结果确保准确性。最后,文档展示了如何组织数据集目录结构,并提供了训练与测试代码示例,包括配置文件`smoke.yaml`及训练脚本`train.py`,帮助读者完成自定义模型的训练与评估。
|
8天前
|
机器学习/深度学习 人工智能 安全
阿里云先知安全沙龙(武汉站) ——AI赋能软件漏洞检测,机遇, 挑战与展望
本文介绍了漏洞检测的发展历程、现状及未来展望。2023年全球披露的漏洞数量达26447个,同比增长5.2%,其中超过7000个具有利用代码,115个已被广泛利用,涉及多个知名软件和系统。文章探讨了从人工审计到AI技术的应用,强调了数据集质量对模型性能的重要性,并展示了不同检测模型的工作原理与实现方法。此外,还讨论了对抗攻击对模型的影响及提高模型可解释性的多种方法,展望了未来通过任务大模型实现自动化漏洞检测与修复的趋势。
|
22天前
|
机器学习/深度学习 人工智能 算法
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Meta Motivo 是 Meta 公司推出的 AI 模型,旨在控制数字智能体的全身动作,提升元宇宙体验的真实性。该模型通过无监督强化学习算法,能够实现零样本学习、行为模仿与生成、多任务泛化等功能,适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。
52 4
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
|
20天前
|
人工智能 小程序 API
【一步步开发AI运动小程序】十七、如何识别用户上传视频中的人体、运动、动作、姿态?
【云智AI运动识别小程序插件】提供人体、运动、姿态检测的AI能力,支持本地原生识别,无需后台服务,具有速度快、体验好、易集成等优点。本文介绍如何使用该插件实现用户上传视频的运动识别,包括视频解码抽帧和人体识别的实现方法。
|
25天前
|
人工智能 数据挖掘
AI长脑子了?LLM惊现人类脑叶结构并有数学代码分区,MIT大牛新作震惊学界!
麻省理工学院的一项新研究揭示了大型语言模型(LLM)内部概念空间的几何结构,与人脑类似。研究通过分析稀疏自编码器生成的高维向量,发现了概念空间在原子、大脑和星系三个层次上的独特结构,为理解LLM的内部机制提供了新视角。论文地址:https://arxiv.org/abs/2410.19750
67 12
|
1月前
|
数据采集 人工智能 小程序
【一步步开发AI运动小程序】十、姿态动作相似度比较
本文介绍如何利用“云智AI运动识别小程序插件”开发AI运动小程序,重点讲解姿态动作相似度比较功能的运用,包括样本动作帧的采集和姿态相似度的计算方法,以及在组合运动中的应用实例。
|
12天前
|
人工智能 安全 图形学
【AI落地应用实战】篡改检测技术前沿探索——从基于检测分割到大模型
在数字化洪流席卷全球的当下,视觉内容已成为信息交流与传播的核心媒介,然而,随着PS技术和AIGC技术的飞速发展,图像篡改给视觉内容安全带来了前所未有的挑战。 本文将探讨篡改检测技术的现实挑战,分享篡改检测技术前沿和最新应用成果。
|
2月前
|
人工智能 知识图谱
成熟的AI要学会自己搞研究!MIT推出科研特工
MIT推出科研特工SciAgents,结合生成式AI、本体表示和多代理建模,实现科学发现的自动化。通过大规模知识图谱和多代理系统,SciAgents能探索新领域、识别复杂模式,加速新材料发现,展现跨学科创新潜力。
47 12
|
3月前
|
机器学习/深度学习 人工智能 JSON
微信小程序原生AI运动(动作)检测识别解决方案
近年来,疫情限制了人们的出行,却推动了“AI运动”概念的兴起。AI运动已在运动锻炼、体育教学、线上主题活动等多个场景中广泛应用,受到互联网用户的欢迎。通过AI技术,用户可以在家中进行有效锻炼,学校也能远程监督学生的体育活动,同时,云上健身活动形式多样,适合单位组织。该方案成本低、易于集成和扩展,已成功应用于微信小程序。