一文概述联邦持续学习最新研究进展（3）-阿里云开发者社区

5、FedSpeech: Federated Text-to-Speech with Continual Learning

联邦学习可以在严格的隐私限制下对机器学习模型进行协作训练，而联邦文本到语音的应用目的是利用存储在本地设备中的少量音频训练样本合成多个用户的自然语音。然而，联邦文本到语音面临着几个挑战：每个说话人的训练样本很少，训练样本都存储在每个用户的本地设备中，而且全局模型容易受到各种攻击。本文提出了一个新颖的联邦学习架构，称为联邦多语者文本到语音 TTS 系统 Fed-Speech，基于持续学习方法来克服上述困难。具体如下：1）通过选择性掩码，FedSpeech 可以有效地从协作训练中获益，以减少有限训练数据的影响。2）使用渐进式修剪掩码来分离不同说话人的参数，以克服灾难性遗忘问题。因此，FedSpeech 避免了所有说话人的语调变化问题。3) 引入私有说话人嵌入，加上上述两类掩码，以保护隐私并避免对说话人的各种攻击。在缩小的 VCTK 数据集上的实验（每个说话人的训练集减少到四分之一，以模拟低资源的语言场景）表明，FedSpeech 在语音质量方面几乎可以与上限、多任务训练相匹配，甚至在说话人相似性实验中明显优于所有系统。

5.1 模型结构

FedSpeech 的整体模型结构如图 12 所示。编码器将音素嵌入序列转换为音素隐序列，然后在隐序列中加入不同的差异信息，如持续时间和语调，最后由旋律谱解码器将适应的隐序列转换为旋律谱序列。采用前馈转化器（Feed-forward Transformer）模块，它是 FastSpeech 中自注意力层和 1D-convolution 前馈网络的叠加，作为编码器和旋律谱图解码器的基本结构。此外，还采用了一个音高预测器和一个持续时间预测器来引入更多的信息。每个网络都包括一个具有 ReLU 激活的 2 层一维卷积网络，然后是层归一化和 DropOut 层，以及一个额外的线性层，将隐状态投射到输出序列中。在训练阶段，将从录音中提取的持续时间和语调的真实值作为输入到隐序列中以预测目标语音。同时，用真实的时长和音高值作为目标来训练预测器。使用这些输出进行推理，以合成目标语音。

图 12. FedSpeech 的整体架构。+ 表示元素相加的操作

为了通过从潜在空间估计说话人的特征来控制语音并保护隐私，作者引入了一个私有说话人模块，它是一个可训练的查找表，将说话人的身份号码 S_id 作为输入，并生成说话人表示 R={r_1, r_2, ..., r_n}，其中 n 是模型的隐空间大小。然后，将说话人表示 R 传递到编码器的输出端，作为额外的关键信息来控制训练和推理中的语调特征。考虑到隐私问题，每个说话人都会训练并保持自己的模块参数集，这样其他人即使用他的 S_id 也无法合成他的声音。

图 13. 用 FedSpeech 进行的两轮训练过程。在第一轮中，逐步修剪掩码以隔离每个说话人的权重。如果为某个说话人保留的权重小于阈值，模型就会扩大。在第二轮，以 speaker 2 为例。选择性掩码的训练是为了重新利用为其他说话人保留的权重中的知识

本文未采用联邦聚合训练的方法，因为这种方法存在灾难性遗忘问题。如图 13 所示，作者采用了持续学习中常用的连续训练设置。在经典设置的基础上，本文提出了两轮的顺序训练。在第一轮训练中，模型分别学习并固定每个说话人的一部分权重，这样在第二轮训练中，可以有选择地重用前一个和后一个说话人的知识。

具体来说，在第一轮训练中，计算得到图 13 中的渐进修剪掩码以隔离每个说话人的参数。将从 1 到 N 的 speaker 表示为 S_1:N。S_1:N 的任务表示为 T_1:N。以 S_t 为例。当 T_t 开始时，首先将全局模型 M_g 发送给 S_t，并使用他的私有数据进行训练，直到收敛。将第 i 层的学习权重矩阵表示为 (W^l_i)_1。然后，逐渐修剪每层 (W^l_i)_1 中最小的权重的一部分，将其设置为 0，并重新训练其他权重以恢复性能。最后，将权重划分为三部分：1）后来的 speaker S_t+1:N 释放的零值权重；2）由以前的 speaker S_1:t-1 保留的固定权重 (W^1:t-1)_S；3）由 S_t 保留的权重 W^t_S。如果后来的 speaker S_t+1:N 的释放权重小于阈值 λ，将模型的隐藏大小扩展为 μ。修剪状态存储在渐进修剪掩码中，表示为 m_p。然后固定 W^t_S，并将 m_p 和 M_g（除了 private speaker 模块）发送到下一个 speaker S_t+1 的设备上，继续进行顺序训练。当第一轮结束时，每个说话人都保留了某一部分权重，表示为 (W^1:N)_S，由 m_p 表示。由于每个任务的权重都是固定的，每个说话人都可以在推理中完美地保留他们的语调。最后，将 m_p 和 Mg 发送到 S_1:N 的设备上。因此，每个说话人都有 m_p、M_g 和他所保留的 private speaker 模块的参数。

在第二轮训练中，引入选择性掩码来转移说话者的知识，以解决数据稀缺的问题。将图 13 中的选择性掩码训练为自动选择说话人保留的有用权重。作者提出了一个修改后的选择程序，从所有任务中选择权重，这对 federated TTS 任务中的每个 speaker（特别是对更多的 previous speakers）都是更公平的。对于一个特定的说话人 S_t，两轮训练放弃了 W^t_S 和选择性掩码的联邦训练，这导致了轻微的性能下降。但是对于每个 speaker，我们使其有可能从之前和之后的任务中选择权重，从而在整体上显著改善了性能。

假设当第一轮结束时，M_g 的权重分成几个部分 (W^1:N)_S，这些部分被 S_1:N 保存。为了在保持隐私的同时从协作训练中获益，作者引入了一个可学习的掩码 m_b∈{0，1} 来转移由其他说话人保留的参数的知识。本文使用 piggyback 方法，学习一个实值掩码 m_s，并应用一个阈值进行二值化处理以构建 m_b。对于某个说话人 S_t 来说，掩码 (m^t)_b 是在他的本地数据集上训练出来的，通过以下方式从其他说话人位置选择权重：

以一维卷积层中的选择性掩码的训练过程为例进行描述。在任务 t，M_g（即 W^1:N_S）是固定的。将二进制掩码表示为 m^t_b。那么，输入 - 输出关系的方程为：

在反向传播过程中，m^t_b 是不可分的。所以引入实值的选择性掩码，表示为 (m^t)_s。将 σ 表示为选择的阈值。在训练二进制掩码 (m^t)_b 时，在后向传递中更新实值掩码 (m^t)_s；然后用应用于 (m^t)_s 的二进制函数 β 对 (m^t)_b 进行量化，并在前向传递中使用。训练结束后，丢弃 (m^t)_s，只存储 (m^t)_b 用于推理。将 m^t_s 的方程表述为：

为了简单起见，作者用 S_t 的例子来描述推理阶段。现在 S_t 有 m_p、(m^t)_b、M_g 和本地保存的说话人模块的参数。使用 m_p 挑选权重 W^t_S，并使用 (m^t)_b 选择性地重复使用 (W^1:t-1)_S∪(W^t+1:N)_S 中的权重。为了不伤害 S_t 的语调，将未使用的权重固定为零。用 FedSpeech 进行的两轮训练的总体过程见算法 1。

5.2 实验结果分析

作者在 VCTK 数据集上进行了实验，该数据集包含了约 44 小时的语音，由 109 位具有不同口音的英语母语者说出来。每个说话人读出了约 400 个句子，其中大部分是从报纸上选出来的，再加上《彩虹传》和一个旨在识别说话人口音的 elicitation 段落。为了模拟低资源语言场景，随机选择并将每个说话人的样本分成 3 组：100 个样本用于训练，20 个样本用于验证，20 个样本用于测试。作者随机选择了 10 位 speaker，分别表示为任务 1 至 10，进行评估。为了缓解发音错误的问题，作者用一个开源的字母到音素的转换工具将文本序列转换成音素序列。作者将原始波形转换为 mel-spectrograms，并将帧大小和跳跃大小设置为 1024 和 256，采样率为 22050。

作者在测试集上评估 MOS（mean opinion score）来衡量音频质量。不同模型之间的设置和文本内容是一致的，以排除其他干扰因素，只考察音频质量。每个音频都由 10 个英语为母语的人进行评判。作者将本文模型生成的音频样本的 MOS 与其他系统进行比较，其中包括：1）GT，VCTK 中的 ground truth 音频。2) GT (Mel + PWG), 首先将 ground-truth 音频转换为 Mel-spectrograms, 然后使用 ParallelWaveGAN (PWG) 将 Mel-spectrograms 转换为音频；3) Multi-task, 无隐私限制的联邦训练；4) Scratch, 从头开始独立学习每个任务；5) Finetune, 从随机选择的前一个模型进行微调并重复 5 次（对于任务 1, Finetune 等同于 Scratch）。6）FedAvg，聚集本地信息（如梯度或模型参数）并训练一个全局模型。7）CPG，一种用于持续学习的参数隔离方法。作者把 3）表示为上界，其他的表示为基线。相应地，3)、4)、5)、6)、7) 和 FedSpeech 中的所有系统都使用预先训练好的 PWG 作为声码器进行公平比较。MOS 结果显示在表 9 中。从表中我们可以看出，与所有基线相比，FedSpeech 取得了最高的 MOS。值得一提的是 FedSpeech 的表现优于 CPG，这说明了有选择地重用以前和以后的 speaker 的知识的有效性。此外，FedAvg 的结果明显比其他方法差，这意味着来自其他 speaker 的梯度极大地影响了每个 speaker 的语气。此外，FedSpeech 在 VCTK 上的 MOS 值接近于多任务训练（上限）。这些结果证明了 FedSpeech 在联邦多语者 TTS 任务中的优势。

表 9. MOS 与 95% 的置信区间。

作者在测试集上进行说话人相似度评估，以衡量合成音频和 ground-truth 音频之间的相似度。为了排除其他干扰因素，作者在不同的模型中保持文本内容的一致性。对于每项任务，作者利用编码器推导出总结说话人声音特征的高级表示向量。具体来说，编码器是一个带有投影的 3 层 LSTM，它为提取说话人的语调嵌入进行了预训练。余弦相似度是衡量说话人表述向量相似度的标准，其定义为 cos sim (A, B) =A - B/kAk kBk。其结果范围从 - 1 到 1，数值越大，说明向量越相似。作者计算合成音频的说话人表示向量和 ground-truth 音频之间的余弦相似度作为评价标准。

最终实验结果显示在表 10 中。FedSpeech 的平均得分最高，甚至高于多任务的上限。这意味着 FedSpeech 可以在推理阶段更好地保留每个说话人的声音，并证明了参数隔离的有效性。此外，在任务 1 中，FedSpeech 的结果明显高于 CPG。可以看出，有选择地重用前一个和后一个说话人的知识给说话人带来了很大的好处，因此，在联邦多语者 TTS 任务中，所有的说话人都能获得更好的声音。

表 10. 基线和 FedSpeech 之间说话人相似度的比较。平均值是指 10 个任务的平均值，γ 是指与 256 个隐大小的 FedSpeech 相比的模型扩展率

为了测量音频质量，作者进行了 MOS 评估，每个音频由 10 个英语母语者进行评判。如表 11 所示，去除渐进修剪掩码或去除选择性掩码都不会导致明显的质量下降，这意味着选择性掩码有能力自动选择渐进修剪掩码所保留的权重。然而，去除这两种类型的掩码会导致灾难性的质量下降。此外，作者还进行了说话人相似性评估。如表 11 所示，稍微去除这些选择性掩码或渐进修剪掩码会导致轻微的性能下降，而去除这两个掩码则会导致灾难性的下降。可以看出，渐进修剪掩码完美地保留了每个说话人的语调。此外，选择性掩码有能力自动选择渐进修剪掩码所保留的权重，将它们结合起来会导致更好的结果。

表 11. 在消融实验中 MOS 和说话人相似度的比较。SM 指的是选择性掩码，GPM 指的是渐进修剪掩码，相似度是余弦相似度

对于未来的工作，作者提出将继续提高合成语音的质量，并提出新的掩码策略来压缩模型和加快训练速度。此外，他们还将把 FedSpeech 应用于 zero-shot 的 multi-speaker 设置，通过使用 private speaker 模块来生成掩码。

6、本文小结

在这篇文章中，我们浅析了四篇联邦连续学习相关的最新论文。这四篇文章的重点都是解决联邦学习框架下不同客户端间相互干扰的问题，具体选择了将参数分解为全局参数和本地参数、着重考虑设备上存储数据的类别意识和类别语义、增加知识蒸馏以平衡不同数据域关系等方法，在论文给出的场景中都获得不错的效果。不过，这些文章都没有着重分析这种方法可能造成的通信代价。关于联邦持续学习的实用性还有待更进一步的研究，以更好的满足当前数据隐私保护高要求条件下的数据分析和应用需求。

本文参考引用的文献

[1] 韩亚楠，刘建伟，罗雄麟，连续学习研究进展，计算机研究与发展，59 (6)：1213-1239，2022，https://crad.ict.ac.cn/article/exportPdf?id=4646

[2] Federated Continual Learning with Weighted Inter-client Transfer，https://arxiv.org/pdf/2003.03196.pdf

[3] Federated Class Incremental Learning, CVPR 2022，https://arxiv.org/abs/2203.11473

[4] Learn from Others and Be Yourself in Heterogeneous Federated Learning, CVPR 2022, https://openaccess.thecvf.com/content/CVPR2022/papers/Huang_Learn_From_Others_and_Be_Yourself_in_Heterogeneous_Federated_Learning_CVPR_2022_paper.pdf

[5] FedSpeech: Federated Text-to-Speech with Continual Learning,2021，https://arxiv.org/abs/2110.07216

[6] Gepperth A, Karaoguz C．A bioＧinspired incremental learning architecture for applied perceptual problems．Cognitive Computation,2015, 8 (5): 924-934

[7] Parisi G I, Tani J, Weber C, etal．Life long learning of spatio temporal representations with dualＧmemory recurrent selfＧorganization．Frontiers in Neurorobotics, 2018, 12 (1), 78-86

[8] Ramapuram J, Gregorova M, Kalousis A．Life long generative modeling．arXiv preprint, arXiv:1705.09847,2017

[9] Rusu A A, Rabinowitz N C, Desjardins G．Progressive neural networks．arXiv preprint, arXiv:160604671, 2016

[10] McCulloch W S, Pitts W．Alogical calculus of the ideas immanent in nervous activity．The Bulletin of Mathematical Biophysics,1943,5 (4): 115-133

[11] FurlanelloT, Zhao Jiaping, Saxe A M, etal．Active long term memory networks．arXiv preprint, arXiv:1606.02355,2016

[12] Zenke F, Poole B, Gangguli S．Continual learning through synaptic intelligence. Proc of the 34th Int Conf on Machine Learning．NewYork: ACM,2017:3987-3995

一文概述联邦持续学习最新研究进展（3）

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件