《S3T: SELF-SUPERVISED PRE-TRAINING WITH SWIN TRANSFORMER FOR MUSIC CLASSIFICATION》
该篇文章提出了一种创新的、基于层级式 Transformer 的自监督音乐预训练算法 S3T。S3T 使用了大规模音乐预训练配合少量标签数据微调的范式,充分利用大量无标签的音乐数据,通过挖掘时域和频域的信息,学习具有较强泛化性的通用音乐表征。S3T 在多个下游任务上均取得很好效果,特别是仅使用 10% 的标签数据进行微调效果便能超过使用以往全量标签数据训练的模型,大幅降低了人工数据标注的成本。
S3T 模型结构与训练流程
音乐自监督学习无需大量人工标签便可利用大量音乐数据充分挖掘其自身的表征,且拥有较强的通用性。本文提出的音乐表征自监督学习,为音乐理解构筑了基础。S3T 目前已经应用在音乐标签、音乐指纹等场景,微调后的 S3T 可以为音乐打上风格、语种、情绪等标签,可靠的音乐标签可以进一步服务音乐推荐系统,使其精准地向来自不同地区的用户推送合适的音乐。
音频合成
- 基于服装风格迁移实现场景感知下的人物视频生成
《Towards Using Clothes Style Transfer for Scenario-aware Person Video Generation》
该方向致力于解决视频中人物个性化穿搭和背景场景自由的选择问题。创新上,设计了多个解耦 encoder 学习人物不同的属性(身份,衣服和姿态),通过共享 decoder 融合多层面信息。
不同于图片任务,视频需要学习帧之间的变化,所以设计了帧间判别器(Inner-frame Discriminator)大幅度提升了稳定性。具体来说,在模型生成的结果上应用掩码(mask),人物可切换到任意场景上。工作在公开数据集 TEDXPeople,相对 baseline 系统(CVPR2021)视频中衣服个性化的多项客观指标均有显著改善,可以达到 SOTA 效果:SSIM +0.047, PSNR +4.6, FID(越小越好) -0.4, FVD(越小越好) -0.543。
场景感知的服装风格迁移模型框架
在数字人多模态生成的场景和业务中,数字人主播衣服的个性化穿搭和场景自由的选择,为用户提供了自主可控的个性化能力,可大幅增加数字人生态的多样性。
音频理解
- 基于细粒度语境知识选择的端到端(语境)语音识别提升方法
《IMPROVING END-TO-END CONTEXTUAL SPEECH RECOGNITION WITH FINE-GRAINED CONTEXTUAL KNOWLEDGE SELECTION》
该工作在一种被称为协同解码(Collaborative Decoding, ColDec)的语音识别定制化 / 个性化方法的基础上,提出了细粒度语境知识选择机制(Fine-grained Contextual Knowledge Selection),来进一步增强该方法在大热词列表和较多干扰热词情境下的语音识别定制化性能。在先前工作中,一种被称为协同解码(Collaborative Decoding)的语音识别定制化技术有效地提升了定制化识别性能。
本文针对其在大热词列表和较多干扰热词情境下的性能衰减问题,提出了细粒度语境知识选择机制,进一步增强了协同解码技术在定制化场景下的能力。在公开数据集 Librispeech 上,本文方法在基础 CIF 语音识别模型的 test-clean 2.12% 的 WER 基础上,进一步为 WER 带来了约 5% 的相对下降;在内部 16w 小时工业级 ASR 数据集训练的语音识别模型的基础上,本文方法在真实会议测试集上为 CER 带来了最高约 16% 的相对下降。
应用场景方面,该方法可被用于语音识别定制化,例如在智能语音助手和在线视频会议等应用场景中,许多同背景相关的关键短语、个性化信息、热词等内容都较难识别。此外在移动端智能语音助手的应用场景下,联系人列表中的联系人姓名,频繁出没的地点位置等个性化信息;在线会议场景下,参会人员的姓名,会议主题相关的专业术语等,针对性地提升这些定制化和个性化文本内容的语音识别性能,在实际应用场景中有重要意义。
- 非自回归 Transformer 自动语音识别的最小词误差训练
《MINIMUM WORD ERROR TRAINING FOR NON-AUTOREGRESSIVE TRANSFORMER-BASED CODE-SWITCHING ASR》
这篇论文由字节跳动和南洋理工大学(NTU)共同完成。近年来由于基于非自回归 Transformer(NAT)的自动语音识别(ASR)框架的以下优点,分别是 “当前的输出与历史的输出无关” 以及“其推理速度非常快”,其在业界日益受到重视。
对此,团队对于其在语码转换语音识别任务(CSSR)上的性能有所期待。另外据不完全了解,似乎并没有出现将最小词错率(MWER)准则应用于 NAT 模型的先例,所以该工作在一定程度上填补了此项空白,且在 SEAME 语码转换数据集上得到了验证。
本文的贡献主要在以下两个方面:1、我们在语码转换的场景下,提出了多种 CTC 掩蔽的方式训练 NAT 模型;2、我们在 MWER 训练准则下,提出了多种 N-best 假设的生成方法。
发现及结论分别是:1、无论在单语言还是跨语言的场景下,上下文相关的场景信息非常重要,而 NAT 没有历史信息,NAT 模型相比自回归的 Transformer(AT)得到了一致性更差的结果;2、严重受限于 N-best 假设的生成方法,在 NAT 模型上进行基于 N-best 的 MWER 训练只得到了细微的提升,所以如何生成更丰富的 N-best 有待进一步研究。
- 使用梯度掩码改进端到端语音识别的伪标签训练
《IMPROVING PSEUDO-LABEL TRAINING FOR END-TO-END SPEECH RECOGNITION USING GRADIENT MASK》
一直以来,打伪标签在自监督学习中都是最重要的方法,最近在语音识别领域也展现出极好的效果,但是自监督学习对伪标签的质量极其敏感,主要是因为伪标签中的错误或者噪声常常会导致模型训练的不稳定并最终收敛到非最佳的状态,特别是对于 e2e 的模型比如 RNNT。
对此,该论文提出了 Gradient-mask 的方法来应对以上问题。此方法在训练过程中抹去了 encoder 中可见 input 的对应梯度,从而鼓励模型从不可见的部分进行推测,并且能有效降低模型对 corrupted label 的 overfit。
应用场景方面,此方法可以有效应对模型 overfit 到 corrupted label 并提升模型训练的效果,例如半监督自学习中,因为 domain 不 match 等原因导致 pseudo-label 质量过差,以及已知一部分数据标注质量过差的问题。
- ICASSP 2022 多方会议转录挑战赛的火山语音系统
《THE VOLCSPEECH SYSTEM FOR THE ICASSP 2022 MULTI-CHANNEL MULTI-PARTY MEETING TRANSCRIPTION CHALLENGE》
会议场景是语音识别和说话人日志技术应用中最有价值和挑战的场景之一,会议场景包含了丰富的说话风格和复杂的声学条件,需要考虑重叠语音、未知数量说话人、远场信号、噪音、混响等挑战。
ICASSP 2022 多通道多方会议转录挑战(M2MeT),提供了 120 小时真实记录的中文会议数据,包含 8 通道麦克风远场数据和对应耳机麦克风采集的近场数据。M2MeT 挑战赛包括多说话人语音识别和说话人日志两个赛道,团队在限定训练数据子赛道上分别获得第二名和第四名。
针对多说话人语音识别赛道,团队提出一种神经网络前端模块和语音识别模块端到端联合训练的方法,输入 8 通道音频输出多说话人识别文本,除此之外加入了丰富的 8 通道数据仿真,在测试集上和官方基线相比 CER 相对下降 32.6%。
在说话人日志赛道中,结合前端信号处理技术,团队提出一种融合声源定位信息的说话人日志方法,提高识别准确率;同时针对竞赛数据中存在的说话人重叠问题,提出一种多通道融合算法,减少重叠部分的说话人漏检,最后采用修改的 DOVER-Lap 算法对多套系统进行融合,最终在测试集上的 DER(说话人日志错误率)相比官方基线相对下降 53.7%。该技术可以被用在会议室多通道麦克风场景下,生成包含说话人信息的多说话人语音转录结果。
超脑方向
- 基于稀疏共享子网络的跨语言语音表征学习
《LANGUAGE ADAPTIVE CROSS-LINGUAL SPEECH REPRESENTATION LEARNING WITH SPARSE SHARING SUB-NETWORKS》
该工作提出了一种基于稀疏共享结构的多语言语音表征学习方法,即从模型中划分出多个稀疏子网络来分别对不同语言进行建模,进而实现语言自适应训练,每个语言的子网络都通过裁剪不重要的参数进行提取。
基于此,文中探索了一种基于彩票假设 (Lottery Ticket Hypothesis) 的提取方法以及另一种基于一阶泰勒展开的快速提取方法。在下游多语言语音识别任务上,所提出的方法可以大幅降低基线 XLSR 模型的错误率,并超过 Gating Network、Adapter 等其他自适应训练方法。
基于稀疏共享结构的多语言预训练流程
在国际化背景下,为了满足不同语言的字幕、审核和翻译等需求,需要针对各个语言去搭建语音识别系统。多语言语音识别的目标是用单一模型去支持多个语言的语音识别,可以有效的减轻部署和维护的成本,并能在一些低资源场景下提升识别效果,具有非常重要的意义。
关于字节跳动火山语音团队
字节跳动火山语音团队,原字节跳动 AI Lab Speech & Audio 智能语音与音频团队,致力于为公司各个业务提供音频理解、音频合成、对话交互、音乐检索和智能教学等多种 AI 能力与方案。自 2017 年成立以来,团队专注研发行业领先的 AI 智能语音技术,为今日头条、抖音、剪映、西瓜视频、番茄小说、飞书办公套件等字节跳动旗下的重量级产品提供了各类 AI 解决方案,不断探索 AI 与业务场景的高效结合,以实现更大的用户价值,截至目前团队已服务上百个业务合作伙伴。伴随字节跳动业务的快速发展,团队的语音识别和语音合成覆盖了多种语言和方言,已有多篇论文入选各类 AI 顶级会议,未来希望继续发展 70 + 语言和 20 + 方言,用于满足内容创作与交流平台的需求。