检索速度提高八倍,字节跳动发布最新音乐检索系统ByteCover2(1)

简介: 检索速度提高八倍,字节跳动发布最新音乐检索系统ByteCover2

翻唱识别(CSI)是音乐信息检索(MIR)领域的一项重要任务,在歌曲搜索,音乐分发,曲库整理,智能推荐等场景下有着重要作用,被誉为下一代音乐识别技术。


近期,字节跳动火山语音团队的最新音乐检索系统 ByteCover2 入选了 ICASSP 2022。这一系统主要面向翻唱识别(CSI)这一音乐信息检索(MIR)领域的一项重要任务,通过表征学习方法让其具备提取音乐核心特征的能力,并且该特征能够对种类繁多的音乐重演绎具有良好的鲁棒性,检索速度提高 8 倍。经 Da-Tacos 数据集上的评估,准确率远超其他方案的 SoTA 性能。

  • ByteCover2: 为高效翻唱识别系统设计的隐式嵌入降维方法


《BYTECOVER2: TOWARDS DIMENSIONALITY REDUCTION OF LATENT EMBEDDING FOR EFFICIENT COVER SONG IDENTIFICATION》

方法详述:翻唱识别往往需要对音乐中的一些常见变化具有鲁棒性,从而保证系统专注于对音乐旋律走向的建模。在设计翻唱识别系统时,有三种音乐变化通常会被重点考虑,即音乐调式偏移、音乐结构变化和音乐节奏变化。此外,抖音平台上每日新增千万量级的用户投稿,如何快速应对巨量查询需求,提高识别系统的整体吞吐量并同时确保识别准确性,也是亟待解决的问题;另外在设计特征时,如何在保障其他性质的前提下尽可能减小特征大小,从而减少存储空间,降低系统复杂度和成本,也是字节跳动内部开发翻唱识别时面临的挑战。

在 ByteCover 系统中,团队通过多任务学习范式联合 ResNet-IBN 模型,做到从音频输入中提取鲁棒且具备区分性的向量表征。针对效率优化问题,还提出了 PCA-FC 模块,实践证明该模块在保证 ByteCover2 模型性能不变甚至提高的前提下可将向量尺寸压缩至八分之一。

Bytecover 模型结构与训练流程

多任务学习提高音乐检索能力:通常在翻唱识别领域存在两种训练范式,分别是多分类学习和度量学习。前者将每个曲目视为一个独立类别,在特征层后加上全连接层,并通过交叉熵等分类损失对模型进行训练,训练完成后则去掉全连接层,使用特征层的输出作为歌曲的表征;后者则直接在特征层之上,使用 triplet loss 等度量学习损失训练网络。

总体来看两种训练范式各有优劣,团队通过实验发现,分类损失往往能提高模型对同曲目不同风格版本的检索能力,细致设计的度量学习损失则能提高翻唱网络对相似风格不同曲目音乐的区分能力。因此 ByteCover 对这两种学习范式进行了结合,并通过引入 BNNeck 模块,提高了两种损失的兼容性。

ResNet 网络与 IBN 正则化方法(ResNet & Instance-Batch Normalization):为了简化音乐特征提取的流程,加快特征提取速度,团队使用 CQT 频谱图作为模型的输入,而不使用在同期其他翻唱识别方法中常用的 cremaPCP 或其他更为复杂的特征,但此设计会天然地在输入特征层面上损害模型对音频频移的鲁棒性。

所以在选择卷积神经网络做了音乐表征提取网络,希望能利用卷积网络的平移不变性来实现模型对频移的不变性。实验证明,CQT 谱 + 普通 ResNet 的组合就已经在效率和性能上超过 cremaPCP+CNN 的设计。

深入探究,团队引入了 Instance-Batch Normalization 来从网络隐表示的层面进一步学习和风格无关的音乐特征,即特征图上不同通道间的均值方差等统计量与输入的风格化特征相关。IN 通过对特征图的通道维度做的归一化处理,一定程度上实现了在隐藏表征层面上去除风格化信息,从而提高翻唱识别模型对音色变化的鲁棒性。

特征降维模块(PCA-FC):通过测算,团队发现工业级别的翻唱系统大部分耗时集中在特征检索阶段,而这一阶段的时间消耗基本和曲库的大小以及特征向量的尺寸线性相关。曲库中歌曲的数目会随着业务的增长而不断增加,因此降低特征向量尺寸成为优化检索系统整体耗时的必由之路,而同期其他翻唱向量特征降维的工作往往采用一个全连接层来将高维向量投影到维度更低的空间。

实验结果发现,单纯使用全连接层进行降维会明显降低系统的检索能力,团队认为这种现象不仅因为更小的尺寸限制了向量的表征能力,性能的损失也来自于随机初始化的全连接层对特征各向同性的破坏。随后对数据可视化之后我们可以发现,降维后特征分布在一个锥形空间,表现出明显的各向异性,此种性质不利于使用余弦距离为度量的检索。

因此团队尝试使用 PCA 对特征向量进行降维操作并随后用 PCA 的变换矩阵初始化一个全连接层,把该层和特征提取网络连接进来并联合训练,并将模块称作 PCA-FC。实验结果显示, PCA FC 能显著提升降维模型的检索性能,在保持检索性能不变的前提下向量尺寸可以被压缩八倍。

结果展示一直以来 Da-Tacos 作为用来评估翻唱识别的基准测试数据集被使用,在该数据集上采用 1536 维的 ByteCover2 模型取得了远超其他方案的 SoTA 性能,全类平均正确率指标 (mAP) 达到 79.1%;而 ByteCover 系列以外的最好方法 Re-MOVE 的该项指标只有 52.5%,更加值得被提及的一点,128 维的 ByteCover2 模型甚至超过了 2048 维的 ByteCover1 和 Re-MOVE 方法。

对比结果
此外,ByteCover1 系统还参加了 2020 国际音频检索评测大赛(MIREX),过程中大幅刷新了翻唱识别赛道历年最好记录,mAP 指标达到 84%,是同年参加该竞赛的其他方案性能的 14 倍。


除了 ByteCover2,此次,字节跳动火山语音团队还有多篇论文被 ICASSP 2022 收录,内容涵盖智能音乐、音频合成、音频理解、超脑等多个方向,下面进行简单介绍。
智能音乐

  • HTS-AT:一种用于声音分类和检测的分层标记语义音频 Transformer 模型


《HTS-AT: A HIERARCHICAL TOKEN-SEMANTIC AUDIO TRANSFORMER FOR SOUND CLASSIFICATION AND DETECTION》


文章主要介绍了 HTS-AT,这是一种新颖的基于 Transformer 的声音事件检测模型。针对音频任务的特性,该结构能有效提高音频频谱信息在深度 Transformer 网络中的流动效率,提高了模型对声音事件的判别能力,并且通过降低输出特征图的大小,显著降低了模型地计算量与内存消耗。此外 HTS-AT 还引入了 Token Semantic 模块,使模型具备预测声音时间起始与终止点的能力,并且无需使用额外有标注数据进行训练。

综合以上技术,HTS-AT 在标准数据集 AudioSet 上的 mAP 指标达到 0.471, 是当前的该数据集上的最佳水平,并且参数与计算量都小于之前的最佳方法;另外在声音事件定位任务上,HTS-AT 无需额外标注数据,即达到有监督定位模型的性能水平。

HTS-AT 模型的结构


在音乐识别场景中,声音事件检测模型会挑选包含音乐的片段送入音乐检索系统,以此来提高整个系统的效率与准确性。

  • S3T: 针对音乐分类基于 Swin Transformer 的自监督预训练



相关文章
|
机器学习/深度学习 自然语言处理 算法
|
机器学习/深度学习 编解码
ICCV 2023 超分辨率(Super-Resolution)论文汇总
ICCV 2023 超分辨率(Super-Resolution)论文汇总
735 0
|
并行计算 PyTorch 算法框架/工具
Importing the numpy C-extensions failed.
Importing the numpy C-extensions failed.
1835 0
Importing the numpy C-extensions failed.
|
9月前
|
数据采集 机器学习/深度学习 人工智能
智能运维在IT管理中的实践与探索
【10月更文挑战第21天】 本文深入探讨了智能运维(AIOps)技术在现代IT管理中的应用,通过分析其核心组件、实施策略及面临的挑战,揭示了智能运维如何助力企业实现自动化监控、故障预测与快速响应,从而提升整体运维效率与系统稳定性。文章还结合具体案例,展示了智能运维在实际环境中的显著成效。
166 4
|
10月前
|
存储 NoSQL 分布式数据库
微服务架构下的数据库设计与优化策略####
本文深入探讨了在微服务架构下,如何进行高效的数据库设计与优化,以确保系统的可扩展性、低延迟与高并发处理能力。不同于传统单一数据库模式,微服务架构要求更细粒度的服务划分,这对数据库设计提出了新的挑战。本文将从数据库分片、复制、事务管理及性能调优等方面阐述最佳实践,旨在为开发者提供一套系统性的解决方案框架。 ####
|
算法 数据可视化 搜索推荐
基于python的k-means聚类分析算法,对文本、数据等进行聚类,有轮廓系数和手肘法检验
本文详细介绍了基于Python实现的k-means聚类分析算法,包括数据准备、预处理、标准化、聚类数目确定、聚类分析、降维可视化以及结果输出的完整流程,并应用该算法对文本数据进行聚类分析,展示了轮廓系数法和手肘法检验确定最佳聚类数目的方法。
425 0
|
云安全 安全 Linux
阿里云安全证书购买和使用流程
阿里云安全证书是阿里云平台上的一种安全认证方式,它采用了国际上广泛认可的SSL证书标准,为网站提供安全加密的HTTPS连接。通过阿里云安全证书的申请和使用,可以实现网站的身份验证和数据传输加密,有效地保护网站的安全性和机密性,提高用户的信任度和网站的可信度。 阿里云安全证书具有多种优势。 首先,它具有极高的安全性,能够防止网络攻击和数据泄露等安全风险。 其次,它支持多种域名,可以为不同的网站和业务提供个性化的安全认证。 此外,阿里云安全证书还具有快速申请和部署的优点,可以大大缩短网站的安全认证周期。 同时,阿里云还提供了专业的技术支持和服务,保障了网站的安全稳定运行。
|
SQL 关系型数据库 MySQL
MySQL删除表数据、清空表命令(truncate、drop、delete 区别)
MySQL删除表数据、清空表命令(truncate、drop、delete区别) 使用原则总结如下: 当你不需要该表时(删除数据和结构),用drop; 当你仍要保留该表、仅删除所有数据表内容时,用truncate; 当你要删除部分记录、且希望能回滚的话,用delete;
|
自然语言处理 语音技术 Docker
开源上新|FunASR离线文件转写软件包3.0
开源上新|FunASR离线文件转写软件包3.0
|
缓存 JavaScript 前端开发
vue:vue2与vue3的区别
vue:vue2与vue3的区别
442 0