检索速度提高八倍,字节跳动发布最新音乐检索系统ByteCover2(1)

简介: 检索速度提高八倍,字节跳动发布最新音乐检索系统ByteCover2

翻唱识别(CSI)是音乐信息检索(MIR)领域的一项重要任务,在歌曲搜索,音乐分发,曲库整理,智能推荐等场景下有着重要作用,被誉为下一代音乐识别技术。


近期,字节跳动火山语音团队的最新音乐检索系统 ByteCover2 入选了 ICASSP 2022。这一系统主要面向翻唱识别(CSI)这一音乐信息检索(MIR)领域的一项重要任务,通过表征学习方法让其具备提取音乐核心特征的能力,并且该特征能够对种类繁多的音乐重演绎具有良好的鲁棒性,检索速度提高 8 倍。经 Da-Tacos 数据集上的评估,准确率远超其他方案的 SoTA 性能。

  • ByteCover2: 为高效翻唱识别系统设计的隐式嵌入降维方法


《BYTECOVER2: TOWARDS DIMENSIONALITY REDUCTION OF LATENT EMBEDDING FOR EFFICIENT COVER SONG IDENTIFICATION》

方法详述:翻唱识别往往需要对音乐中的一些常见变化具有鲁棒性,从而保证系统专注于对音乐旋律走向的建模。在设计翻唱识别系统时,有三种音乐变化通常会被重点考虑,即音乐调式偏移、音乐结构变化和音乐节奏变化。此外,抖音平台上每日新增千万量级的用户投稿,如何快速应对巨量查询需求,提高识别系统的整体吞吐量并同时确保识别准确性,也是亟待解决的问题;另外在设计特征时,如何在保障其他性质的前提下尽可能减小特征大小,从而减少存储空间,降低系统复杂度和成本,也是字节跳动内部开发翻唱识别时面临的挑战。

在 ByteCover 系统中,团队通过多任务学习范式联合 ResNet-IBN 模型,做到从音频输入中提取鲁棒且具备区分性的向量表征。针对效率优化问题,还提出了 PCA-FC 模块,实践证明该模块在保证 ByteCover2 模型性能不变甚至提高的前提下可将向量尺寸压缩至八分之一。

Bytecover 模型结构与训练流程

多任务学习提高音乐检索能力:通常在翻唱识别领域存在两种训练范式,分别是多分类学习和度量学习。前者将每个曲目视为一个独立类别,在特征层后加上全连接层,并通过交叉熵等分类损失对模型进行训练,训练完成后则去掉全连接层,使用特征层的输出作为歌曲的表征;后者则直接在特征层之上,使用 triplet loss 等度量学习损失训练网络。

总体来看两种训练范式各有优劣,团队通过实验发现,分类损失往往能提高模型对同曲目不同风格版本的检索能力,细致设计的度量学习损失则能提高翻唱网络对相似风格不同曲目音乐的区分能力。因此 ByteCover 对这两种学习范式进行了结合,并通过引入 BNNeck 模块,提高了两种损失的兼容性。

ResNet 网络与 IBN 正则化方法(ResNet & Instance-Batch Normalization):为了简化音乐特征提取的流程,加快特征提取速度,团队使用 CQT 频谱图作为模型的输入,而不使用在同期其他翻唱识别方法中常用的 cremaPCP 或其他更为复杂的特征,但此设计会天然地在输入特征层面上损害模型对音频频移的鲁棒性。

所以在选择卷积神经网络做了音乐表征提取网络,希望能利用卷积网络的平移不变性来实现模型对频移的不变性。实验证明,CQT 谱 + 普通 ResNet 的组合就已经在效率和性能上超过 cremaPCP+CNN 的设计。

深入探究,团队引入了 Instance-Batch Normalization 来从网络隐表示的层面进一步学习和风格无关的音乐特征,即特征图上不同通道间的均值方差等统计量与输入的风格化特征相关。IN 通过对特征图的通道维度做的归一化处理,一定程度上实现了在隐藏表征层面上去除风格化信息,从而提高翻唱识别模型对音色变化的鲁棒性。

特征降维模块(PCA-FC):通过测算,团队发现工业级别的翻唱系统大部分耗时集中在特征检索阶段,而这一阶段的时间消耗基本和曲库的大小以及特征向量的尺寸线性相关。曲库中歌曲的数目会随着业务的增长而不断增加,因此降低特征向量尺寸成为优化检索系统整体耗时的必由之路,而同期其他翻唱向量特征降维的工作往往采用一个全连接层来将高维向量投影到维度更低的空间。

实验结果发现,单纯使用全连接层进行降维会明显降低系统的检索能力,团队认为这种现象不仅因为更小的尺寸限制了向量的表征能力,性能的损失也来自于随机初始化的全连接层对特征各向同性的破坏。随后对数据可视化之后我们可以发现,降维后特征分布在一个锥形空间,表现出明显的各向异性,此种性质不利于使用余弦距离为度量的检索。

因此团队尝试使用 PCA 对特征向量进行降维操作并随后用 PCA 的变换矩阵初始化一个全连接层,把该层和特征提取网络连接进来并联合训练,并将模块称作 PCA-FC。实验结果显示, PCA FC 能显著提升降维模型的检索性能,在保持检索性能不变的前提下向量尺寸可以被压缩八倍。

结果展示一直以来 Da-Tacos 作为用来评估翻唱识别的基准测试数据集被使用,在该数据集上采用 1536 维的 ByteCover2 模型取得了远超其他方案的 SoTA 性能,全类平均正确率指标 (mAP) 达到 79.1%;而 ByteCover 系列以外的最好方法 Re-MOVE 的该项指标只有 52.5%,更加值得被提及的一点,128 维的 ByteCover2 模型甚至超过了 2048 维的 ByteCover1 和 Re-MOVE 方法。

对比结果
此外,ByteCover1 系统还参加了 2020 国际音频检索评测大赛(MIREX),过程中大幅刷新了翻唱识别赛道历年最好记录,mAP 指标达到 84%,是同年参加该竞赛的其他方案性能的 14 倍。


除了 ByteCover2,此次,字节跳动火山语音团队还有多篇论文被 ICASSP 2022 收录,内容涵盖智能音乐、音频合成、音频理解、超脑等多个方向,下面进行简单介绍。
智能音乐

  • HTS-AT:一种用于声音分类和检测的分层标记语义音频 Transformer 模型


《HTS-AT: A HIERARCHICAL TOKEN-SEMANTIC AUDIO TRANSFORMER FOR SOUND CLASSIFICATION AND DETECTION》


文章主要介绍了 HTS-AT,这是一种新颖的基于 Transformer 的声音事件检测模型。针对音频任务的特性,该结构能有效提高音频频谱信息在深度 Transformer 网络中的流动效率,提高了模型对声音事件的判别能力,并且通过降低输出特征图的大小,显著降低了模型地计算量与内存消耗。此外 HTS-AT 还引入了 Token Semantic 模块,使模型具备预测声音时间起始与终止点的能力,并且无需使用额外有标注数据进行训练。

综合以上技术,HTS-AT 在标准数据集 AudioSet 上的 mAP 指标达到 0.471, 是当前的该数据集上的最佳水平,并且参数与计算量都小于之前的最佳方法;另外在声音事件定位任务上,HTS-AT 无需额外标注数据,即达到有监督定位模型的性能水平。

HTS-AT 模型的结构


在音乐识别场景中,声音事件检测模型会挑选包含音乐的片段送入音乐检索系统,以此来提高整个系统的效率与准确性。

  • S3T: 针对音乐分类基于 Swin Transformer 的自监督预训练



相关文章
|
6月前
|
JSON API 数据格式
快手API接口:根据关键词获取海量商品列表的秘诀
快手API接口:根据关键词获取海量商品列表的秘诀
|
10月前
|
JavaScript 前端开发 开发工具
如何做到一站检索前沿主流 AIGC / GPT 文章?定时任务抓取文章!
如何做到一站检索前沿主流 AIGC / GPT 文章?定时任务抓取文章!
239 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
检索速度提高八倍,字节跳动发布最新音乐检索系统ByteCover2(2)
检索速度提高八倍,字节跳动发布最新音乐检索系统ByteCover2
|
12月前
|
机器学习/深度学习 人工智能 智能设计
基于扩散模型的3D智能创作引擎与内容投放算法最新实践
3D模型在智能设计领域以其可塑性,可编辑性有着属于自己的独特优势,扩展了2D设计的上限。但是其目前存在的局限性也是显而易见的:建模的效率,模型的数量,以及3D设计的成本。
203 0
|
机器学习/深度学习 编解码 自然语言处理
用语言直接检索百万视频,这是阿里TRECVID 视频检索冠军算法
利用自然语言检索百万视频,人物、场景、事件都不能放过,这就是既困难又吸引了众多研究者的视频检索任务。
967 0
用语言直接检索百万视频,这是阿里TRECVID 视频检索冠军算法
|
机器学习/深度学习 搜索推荐
《蘑菇街广告的排序:从历史数据学习到个性化强化学习》电子版地址
蘑菇街广告的排序:从历史数据学习到个性化强化学习
53 0
《蘑菇街广告的排序:从历史数据学习到个性化强化学习》电子版地址
|
机器学习/深度学习 人工智能 算法
多媒体搜索现状(下) | 学习笔记
快速学习多媒体搜索现状(下),介绍了多媒体搜索现状(下)系统机制, 以及在实际应用过程中如何使用。
134 0
多媒体搜索现状(下) | 学习笔记
|
机器学习/深度学习 算法 搜索推荐
多媒体搜索现状(上) | 学习笔记
快速学习多媒体搜索现状(上),介绍了多媒体搜索现状(上)系统机制, 以及在实际应用过程中如何使用。
85 0
多媒体搜索现状(上) | 学习笔记
|
机器学习/深度学习 存储 人工智能
毫秒级!千万人脸库快速比对,上亿商品图片检索,背后的极速检索用了什么神器? ⛵
为了让计算机理解、处理和表征非结构化数据,我们通常将其转换为密集向量,而海量向量数据的存储、管理和查询并不简单。本文介绍 Milvus 这个开源向量数据库管理平台的优势、架构和使用案例,了解其在简化『机器学习操作(MLOps)』流程中的应用
5006 2
毫秒级!千万人脸库快速比对,上亿商品图片检索,背后的极速检索用了什么神器? ⛵