ZeroSwot:零数据训练,成功突破语音翻译难题

本文涉及的产品
图片翻译,图片翻译 100张
文档翻译,文档翻译 1千页
文本翻译,文本翻译 100万字符
简介: 【2月更文挑战第16天】ZeroSwot:零数据训练,成功突破语音翻译难题

9e58d8a3cac1210e7f504cb4c95d603e.jpeg
在人工智能领域,语音翻译系统一直面临着数据稀缺和语音与文本模态间差异的挑战。传统方法依赖于级联模型,但存在错误传播和架构复杂问题。为克服限制,研究者开始探索端到端模型,省去中间转录步骤。然而,端到端模型需要大量并行语音翻译数据。

为解决数据稀缺,研究者尝试多种策略,如利用更丰富的数据、预训练和多任务学习。但仍需一些语音翻译数据。为进一步缩小模态差距,研究者提出共享编码器和优化距离度量方法。然而,这些方法仍需一些语音翻译数据。

为克服限制,研究者提出一种名为ZeroSwot的新型零数据训练方法。该方法以零数据方式弥合模态差距,仅需ASR和MT数据。通过最优传输,研究者训练语音编码器,使其产生与多语言MT模型相似的表示,实现对所有支持的目标语言的零数据ST推理。ZeroSwot通过替换MT模型的嵌入层来实现零数据ST。

ZeroSwot的核心在于其新颖的CTC压缩和最优传输方法。研究者首先使用WAV2VEC 2.0初始化语音编码器,然后通过CTC模块和压缩适配器将语音表示压缩到与MT模型的子词单元对齐。该方法在实验中表现优于现有的零数据模型和监督模型。

ZeroSwot与现有的端到端语音翻译方法不同。它利用预训练的MT模型,并通过优化Wasserstein距离来对齐语音和文本表示。在预训练和微调阶段都表现出优越性。此外,ZeroSwot在多语言能力上有优势,在FLEURS数据集上支持88种目标语言的翻译。

在实验中,ZeroSwot使用Common Voice、MUST-C V1.0和LibriSpeech数据集进行训练,并在MUST-C V1.0、COVOST 2和FLEURS数据集上进行了评估。模型架构包括语音和文本两个分支,其中文本分支的参数在训练过程中保持冻结。语音分支包括声学编码器、CTC模块、压缩适配器、语音嵌入器和语义编码器。在训练过程中使用了AdamW优化器,并应用了dropout和掩蔽技术。

ZeroSwot在MUST-C V1.0数据集上的表现显著优于其他方法。在COVOST 2数据集上,在零数据ST情况下,甚至超过了先前的最佳结果。在大型模型中,其表现与SEAMLESSM4T相当,但在某些方面仍然优于后者。此外,在效率上也优于级联ST系统。

在压缩适配器方面,研究者提出了一种新的基于子词的压缩方法,长度和表示上优于现有方法。通过实验,发现适当的标记化和压缩可以提高翻译质量,并缩小语音和文本表示的长度差距。

ZeroSwot在FLEURS数据集上的表现证明了其在大规模多语言翻译任务中的潜力。尽管是零数据ST系统,但与使用大量音频数据的系统相比,仍然具有竞争力。

尽管ZeroSwot取得了先进的结果,但仍存在一些局限性。由于语音编码器模仿MT模型的表示空间,不会保留声学信息,可能限制了在某些情况下的正确翻译能力。此外,需要ASR数据来训练语音编码器,限制了在仅口语的语言中使用。未来研究可探索在源语言非英语情况下的测试。

ZeroSwot通过创新的零数据训练方法,成功地弥合了语音和文本之间的模态差距,并在多个数据集上取得了显著的性能提升。这为低资源语言的语音翻译和端到端语音翻译的研究提供了新的视角和可能性。未来的研究将继续探索在低资源场景和语音到语音翻译中的应用。

目录
相关文章
|
4天前
|
数据采集 人工智能 自然语言处理
关于大模型语料的迷思
随着大模型发展的不断深入,我们越来越关注到语料质量对模型能力的影响,语料中的偏差和主观性会导致生成内容不准确或带有偏见。智能引擎事业部是阿里内部深耕多年的AI工程团队,为内部业务提供了完整的大模型工程体系,持续关注大模型训推性能、成本、研发范式等关键问题。本文将基于我们的思考,探讨大模型语料的复杂性及其背后的思维过程。
|
2月前
|
机器学习/深度学习 人工智能 编解码
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
【9月更文挑战第2天】深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
|
1月前
|
自然语言处理 语音技术
交大x-lance跨媒体语言智能实验室等联合开源F5-TTS!零样本语音复刻,生成流畅,情感丰富!
上海交大x-lance跨媒体语言智能实验室联合剑桥大学、吉利汽车研究院(宁波)公司开源了一种基于流匹配的扩散变换器(Diffusion Transformer,DiT)的完全非自回归TTS模型-F5-TTS。
|
2月前
|
机器学习/深度学习 自然语言处理 语音技术
FunAudioLLM与其他语音模型多维度对比简析
FunAudioLLM与其他语音模型多维度对比简析
111 13
|
3月前
|
人工智能 算法
通义语音AI技术问题之预训练语言模型句子嵌入存在的各向异性问题如何解决
通义语音AI技术问题之预训练语言模型句子嵌入存在的各向异性问题如何解决
28 5
|
3月前
|
人工智能 UED
通义语音AI技术问题之预训练语言模型的主题分割效果的提升如何解决
通义语音AI技术问题之预训练语言模型的主题分割效果的提升如何解决
35 5
|
3月前
|
人工智能 数据挖掘 语音技术
通义语音AI技术问题之说话人识别的两种类型分类如何解决
通义语音AI技术问题之说话人识别的两种类型分类如何解决
67 5
|
3月前
|
人工智能 内存技术
通义语音AI技术问题之预训练模型的推理与微调如何解决
通义语音AI技术问题之预训练模型的推理与微调如何解决
42 4
|
3月前
|
人工智能 语音技术
通义语音AI技术问题之Qwen-Audio对多任务预训练中的干扰问题如何解决
通义语音AI技术问题之Qwen-Audio对多任务预训练中的干扰问题如何解决
38 2
|
3月前
|
人工智能 语音技术
通义语音AI技术问题之语义VAD模型对于传统VAD模型的问题如何解决
通义语音AI技术问题之语义VAD模型对于传统VAD模型的问题如何解决
159 0
下一篇
无影云桌面