在人工智能领域,语音翻译系统一直面临着数据稀缺和语音与文本模态间差异的挑战。传统方法依赖于级联模型,但存在错误传播和架构复杂问题。为克服限制,研究者开始探索端到端模型,省去中间转录步骤。然而,端到端模型需要大量并行语音翻译数据。
为解决数据稀缺,研究者尝试多种策略,如利用更丰富的数据、预训练和多任务学习。但仍需一些语音翻译数据。为进一步缩小模态差距,研究者提出共享编码器和优化距离度量方法。然而,这些方法仍需一些语音翻译数据。
为克服限制,研究者提出一种名为ZeroSwot的新型零数据训练方法。该方法以零数据方式弥合模态差距,仅需ASR和MT数据。通过最优传输,研究者训练语音编码器,使其产生与多语言MT模型相似的表示,实现对所有支持的目标语言的零数据ST推理。ZeroSwot通过替换MT模型的嵌入层来实现零数据ST。
ZeroSwot的核心在于其新颖的CTC压缩和最优传输方法。研究者首先使用WAV2VEC 2.0初始化语音编码器,然后通过CTC模块和压缩适配器将语音表示压缩到与MT模型的子词单元对齐。该方法在实验中表现优于现有的零数据模型和监督模型。
ZeroSwot与现有的端到端语音翻译方法不同。它利用预训练的MT模型,并通过优化Wasserstein距离来对齐语音和文本表示。在预训练和微调阶段都表现出优越性。此外,ZeroSwot在多语言能力上有优势,在FLEURS数据集上支持88种目标语言的翻译。
在实验中,ZeroSwot使用Common Voice、MUST-C V1.0和LibriSpeech数据集进行训练,并在MUST-C V1.0、COVOST 2和FLEURS数据集上进行了评估。模型架构包括语音和文本两个分支,其中文本分支的参数在训练过程中保持冻结。语音分支包括声学编码器、CTC模块、压缩适配器、语音嵌入器和语义编码器。在训练过程中使用了AdamW优化器,并应用了dropout和掩蔽技术。
ZeroSwot在MUST-C V1.0数据集上的表现显著优于其他方法。在COVOST 2数据集上,在零数据ST情况下,甚至超过了先前的最佳结果。在大型模型中,其表现与SEAMLESSM4T相当,但在某些方面仍然优于后者。此外,在效率上也优于级联ST系统。
在压缩适配器方面,研究者提出了一种新的基于子词的压缩方法,长度和表示上优于现有方法。通过实验,发现适当的标记化和压缩可以提高翻译质量,并缩小语音和文本表示的长度差距。
ZeroSwot在FLEURS数据集上的表现证明了其在大规模多语言翻译任务中的潜力。尽管是零数据ST系统,但与使用大量音频数据的系统相比,仍然具有竞争力。
尽管ZeroSwot取得了先进的结果,但仍存在一些局限性。由于语音编码器模仿MT模型的表示空间,不会保留声学信息,可能限制了在某些情况下的正确翻译能力。此外,需要ASR数据来训练语音编码器,限制了在仅口语的语言中使用。未来研究可探索在源语言非英语情况下的测试。
ZeroSwot通过创新的零数据训练方法,成功地弥合了语音和文本之间的模态差距,并在多个数据集上取得了显著的性能提升。这为低资源语言的语音翻译和端到端语音翻译的研究提供了新的视角和可能性。未来的研究将继续探索在低资源场景和语音到语音翻译中的应用。