论文Express | 把你的口哨变成莫扎特风,Facebook发布通用音乐迁移网络

简介:

Facebook还针对这个论文,在youtube上发布了一段炫酷的视频,引爆了一众音乐人和科技从业者。文摘菌也把这个视频带回了墙内,让我们也来一睹为快这个有趣的转化过程。

这段视频很好的诠释了这个网络是如何进行自动音色转化的

点击查看视频

4ea2b3665365b3de29c8d70409d397d30ae9e3d2

视频演示了这一通用的音乐迁移网络的转换效果。视频中演示了莫扎特的交响曲、海顿的弦乐四重奏,以及巴赫演奏的各种乐器,除了古典的音乐,甚至还包含了合唱团的声音、非洲音乐和吹口哨的声音。

你可以输入海顿的弦乐四重奏,然后输出莫扎特的交响乐曲、巴赫的清唱剧,亦或者是管风琴以及贝多芬的钢琴等风格多样的曲风。

视频里总共展示了21个样本,对乐器、人声、鼓声、交响、歌剧等各种风格的音乐进行了输入,输出的音乐有时候确实出乎你的意料。

这里用到的神奇魔法我们之前在图像领域已经使用过了。不久前,文摘菌刚刚介绍了英伟达发布的一篇很有趣的论文,通过迁移学习,将猫咪的图片转换生成狮子,老虎甚至汪星人的图像(点击查看报道)。

这次的小魔法依然是使用迁移网络进行的,和英伟达的研究不同,这次,风格迁移被用在了音乐界——不同曲风之间的转换上。

828d7b04915351cc254cbf5260170912335515f2

Facebook AI研究院的最新论文:一种通用的音乐迁移网络

不想啃生肉的同学,以下是论文精华内容:

本文提出了一种能在不同乐器,流派和风格之间实现音乐曲风迁移的方法。该方法基于一个多域WaveNet自编码器(注:WaveNet,谷歌公布的一种原始音频波形深度生成模型),一个共享编码器和一个经过训练的、端到端的隐式波形解码空间。

采用不同的训练数据集和大容量的网络,独立域的编码器甚至可以实现未经训练的音乐域内的曲风迁移。该方法具有无监督性,并且训练过程不依赖有监督训练中,目标域音频与输入音频之间的样本匹配。我们用NSynth数据集和一个由专业音乐家收集的数据集上评估了该方法,效果良好。

相关工作

域迁移

本文中,首先利用大量真实数据对自回归模型进行了训练(即teacher forcing算法),然后由该模型生成输出结果。我们仅在测试过程中进行了自回归推理,为了训练GAN网络,在实际生成音频时(机器输出的“假”音频),并没有使用自回归模型。

音频合成

在本文的编码-解码结构中,使用WaveNet 模型作为解码器的输出,并通过该模型将输出结果反向传播至编码器中。

与之间的研究结果不同,本文中的输入数据收集于消费类媒体,并且没有经过预先处理。我们的总体结构中增加了多解码器和用于训练退相干的辅助网络,并增加了重要的数据增强步骤。在前期工作中,为选择编码器和解码器选择相同的超参数,进一步增加了该方法的输出效果。

风格迁移

风格迁移的本质是,在输入和输出过程中,音频的“内容”保持不变,但音频的“风格”进行了改变。

本文中采用了目前较为成熟的经典分类方法,但是该方法仍不适用于单声道乐器(每次采集一个音符)。此类方法都是基于综合框架进行分析。首先,通过分析音频信号使用和声追踪方法提取出音调和音色,然后通过一个已知的音色模型,将其转换成另一种单声道乐器的音频。

论文方法

WaveNet 自编码器

模型中的编码器是一个完整的卷积网络,可以计算任意的长度的序列。该网络有三个区域,每个区域有10个残差层。每个残差层包含一个RELU非线性函数,一个随着核的尺寸而增加的卷积矩阵,进行二次计算的RELU函数,和一个1×1卷积矩阵,该矩阵用来表示第一次RELU函数计算之前激活函数的残差和。

该模型有128个固定宽度的通道,除了上面提到的三个区域,还有一个阶数是1×1附加区域。残差层下面是一个核大小为50毫秒(800个样本)的平均池,用来获得R64中的编码,并通过乘以12.5实现短时降采样。

8d229ce3ef00eebcd96182a2e5a555d6c3b870d2

模型结构

在编码过程中使用最近邻插值实现短时上采样,将音频调整到到原始比率,并作为WaveNet解码器的限制条件,通过对每个WaveNet层增加不同的阶数为1×1的附加层进行限制。

输入和输出的音频分别量化为8个比特的文件,然后利用mu-law法则进行编码,这也导致了一些音频质量的损失。该WaveNet解码器具有4个区域,每个区域都由10个残差层构成,因此该解码器一次可接收4093个样本,或者说时间步为250毫秒。

增强输入音频

为了提高编码器的泛化能力,并使它保留高级信息,我们使用专门的增强程序来改变音调。由此生成的音频,质量和源音频相差无几,只是略微有点跑调。具体来讲,我们将音频分割成长度为1秒的片段进行训练。在增强程序中,统一选择音频长度在0.25到0.5秒之间的片段,并使用Python中的librosa工具包生成-0.5到0.5之间的随机数,对音调进行调制。

训练过程和损失函数

在训练过程中,j代表不同的域,且j=1,2,……k。s^j表示输入样本,E表示共享编码器,D^j表示域j中的WaveNet解码器。C表示分类网络,O(s,r)表示将随机种子r用于增强程序中对样本s进行调制。

自编码器基于下列损失函数进行训练:

7342350a8b51cb7421fa8046a05503758171d96d

其中,L(o,y)是每个输出元素o与之相对应的目标元素之间的交叉熵损失。解码器D^j是一个自回归模型,根据输出结果E进行约束。在训练过程中,通过上一步的目标输出s^j对自回归模型进行调整。通过对分类网络C进行训练,使得分类损失最小化,其中分类损失为:

6ee2b2d738a3e11339a272b59daaef34d5935c3f

实验过程

训练过程

我们用六个域的古典音乐数据对网络进行了训练,分别是:

  • 莫扎特的46首交响乐,由卡尔·伯姆(Karl B Hm)指挥;

  • 海顿的27首弦乐四重奏,由Amadedus Quartet演奏;

  • 约翰·塞巴斯蒂安·巴赫(J.S.Bach)的管弦乐队,合唱团和独奏曲目;

  • 巴赫的管风琴音乐;

  • 贝多芬的32首钢琴奏鸣曲,由丹Daniel Barenboim演奏;

  • 巴赫的键盘音乐,用羽管键琴(Harpsichord)演奏。

通过将音轨(或音频文件)分为两个数据集,分别进行了模型的训练和测试。

迁移质量的评估

E表示由多种演奏背景的三个专业音乐家演奏的作品,他们都是从音乐学院毕业且在音乐理论和钢琴演奏上都有深厚的背景,同样也精通音乐改编。M表示由一位在音乐改编方面的专家演奏的作品,同时他也专业的音乐制作人、作曲家、钢琴家和录音工程师。A表示由一位音乐制作人演奏的作品,同时也是音乐剪辑师,并能熟练演奏键盘和其他乐器。

音乐改编的任务是,将5秒长的音频分成60个音乐片段,并分别用钢琴进行弹奏。音乐片段来自不同的数据集。其中20个片段来自巴赫的键盘作品,用羽管键琴演奏;另外20个片段则来自莫扎特的交响乐,属于管弦乐作品。

最后20个片段是三个不同领域音乐的组合——摇摆爵士乐,吉他即兴演奏音乐和中国乐器演奏的音乐,而且没有使用该数据集对模型进行训练。

60个音乐片段由通用编码器进行编码,并由经过Daniel Barenboim演奏的由贝多芬钢琴奏鸣曲训练的WaveNet进行解码。

我们使用平均意见值(Mean Opinion Scores (MOS))来评估音频质量,并通过使用CrowdMOS工具包采集了音频的MOS。评估过程中考虑两个标准:

  • 音频的质量;

  • 改编后的音频与源音频的相似度。

改编音频的MOS评分表

50a0682e4ce29b048706b7a32c7508ece344945a

实验结果如上图所示。结果表明,模型生成的音频质量低于由人类演奏的电子键盘的音频质量。

此外,从羽管键琴迁移生成的音频的MOS高于从管弦乐迁移生成的音频。令人惊喜的是,从混合域迁移生成的音频,其MOS高于其他任何域的迁移音频。在所有条件下,人类演奏家的音频质量均高于我们模型生成的音频,他们的演奏音频即将作为一个公共数据集进行公布。

接着,我们评估了不同条件下,人类演奏音频和模型生成音频与源音频的音色之间归一化相关性,其结果如下图所示。

改编音频的归一化相关系数

ba32a6ed949538e858248ce1704e70a77cbd2ad9

由上图可以看出,模型生成的音频的音色与源音频更接近,并且高于人类演奏家的得分。而且在动态时间规划(Dynamic Time Warping,DTW)方法评估下,差距将进步一缩小。

结论

我们的研究成果对一些高级任务提供了参考,如由机器实现音乐的改编和自动谱曲。对于第一项任务,通用编码器应该可以胜任,因为它能够以某种方式捕获所需的信息,正如上面的MOS评分表。对于第二项任务,我们已经得到了初步结果。通过减小隐式解码空间的大小,解码器变得更加“富有创造性”,输出的音频也会表现出自然而新颖的特性,换句话说,不考虑输出音频和原始音频之间的匹配关系,通用编码器也有望实现第二项任务。


文发布时间为:2018-05-24

本文作者:文摘菌

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”。

相关文章
|
4月前
|
人工智能 算法 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。
153 7
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
|
8月前
|
SQL Cloud Native API
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
934 146
|
6月前
|
SQL 缓存 Cloud Native
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
224 63
|
4月前
|
canal 负载均衡 智能网卡
阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中
阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
701 2
|
6月前
|
前端开发 Java 关系型数据库
基于ssm的网络直播带货管理系统,附源码+数据库+论文
该项目为网络直播带货网站,包含管理员和用户两个角色。管理员可进行主页、个人中心、用户管理、商品分类与信息管理、系统及订单管理;用户可浏览主页、管理个人中心、收藏和订单。系统基于Java开发,采用B/S架构,前端使用Vue、JSP等技术,后端为SSM框架,数据库为MySQL。项目运行环境为Windows,支持JDK8、Tomcat8.5。提供演示视频和详细文档截图。
151 10
|
6月前
|
canal 编解码 运维
SIGCOMM 2024 | 洛神云网络学术活动与论文分享
SIGCOMM 2024 | 洛神云网络学术活动与论文分享
331 6
|
7月前
|
SQL 缓存 Cloud Native
NSDI'24 | 云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
134 3
|
8月前
|
机器学习/深度学习 人工智能 搜索推荐
PaSa:字节跳动开源学术论文检索智能体,自动调用搜索引擎、浏览相关论文并追踪引文网络
PaSa 是字节跳动推出的基于强化学习的学术论文检索智能体,能够自动调用搜索引擎、阅读论文并追踪引文网络,帮助用户快速获取精准的学术文献。
561 15
|
6月前
|
负载均衡 数据中心 芯片
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
170 0
|
8月前
|
负载均衡 芯片 异构计算
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI‘24于4月16-18日在美国圣塔克拉拉市举办,阿里云飞天洛神云网络首次中稿NSDI,两篇论文入选。其中《LuoShen: A Hyper-Converged Programmable Gateway for Multi-Tenant Multi-Service Edge Clouds》提出超融合网关LuoShen,基于Tofino、FPGA和CPU的新型硬件形态,将公有云VPC设施部署到边缘机柜中,实现小型化、低成本和高性能。该方案使成本降低75%,空间占用减少87%,并提供1.2Tbps吞吐量,展示了强大的技术竞争力。

热门文章

最新文章