语音顶会Interspeech 论文解读｜Constrained output embeddings for end-to-end code-switching speech recognition with only monolingual data-阿里云开发者社区

语音顶会Interspeech 论文解读｜Constrained output embeddings for end-to-end code-switching speech recognition with only monolingual data

2019-09-11 1250

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Interspeech是世界上规模最大，最全面的顶级语音领域会议，本文为 Nanyang Technological University等学校联合作者的入选论文

2019年，国际语音交流协会INTERSPEECH第20届年会将于9月15日至19日在奥地利格拉茨举行。Interspeech是世界上规模最大，最全面的顶级语音领域会议，近2000名一线业界和学界人士将会参与包括主题演讲，Tutorial，论文讲解和主会展览等活动，本次阿里论文有8篇入选，本文为 Nanyang Technological University等学校联合作者的入选论文《Constrained output embeddings for end-to-end code-switching speech recognition with only monolingual data》

点击下载论文

文章解读

Code-switching (CS) 是在一个对话中同时使用多于一种语言。它对许多语音和语言处理的应用程序构成非常严重的挑战。最近，端到端的CS语音识别（E2E-CS-ASR）取得了令人印象深刻的进展，获得了越来越多的关注，但这些改进主要是针对有足够多的CS语音和文本数据的条件下来实现的。对于绝大多数语言来说，获得大量的CS数据仍然是一个重大的挑战。在这项工作中，我们的目标是仅仅应用两种单一语言语音数据，在没有任何的CS语音和文本数据的条件下来实现端到端的CS语音识别（E2E-CS-ASR），这种目标设置对于许多低资源的CS语音识别尤其重要。
由于缺乏CS训练数据，E2E-CS-ASR模型很难学习到跨语言之间转换关系，因此单语言的输出token embedding将彼此分离。图1 (a) 给出了观察到的这种现象。也就是不同语言的输出token embedding的分布是不同的，是彼此分开的，这就不利于E2E-CS-ASR模型在不同语言之间切换。

图 1. 中文和英文输出token embedding分布的PCA可视化

为了解决这个问题，我们提出对输出token embedding加以额外的约束，使其在不同语言上的分布相似。具体来说，我们使用Jensen-Shannon散度和余弦距离进行限制。公式（1）和公式（2）分别给出了Jensen-Shannon散度和余弦距离，公式（3）和公式（4）分别给出了结合Jensen-Shannon散度限制和余弦距离限制的优化目标损失函数。
L_JSD=tr(∑_1^(-1) ∑_2+∑_1 ∑_2^(-1) )+(μ_1-μ_2 )^T (∑_1^(-1)+∑_2^(-1) )(μ_1-μ_2 )-2z (1)
L_CD=1-(C_1∙C_2)/‖C_1 ‖‖C_2 ‖ (2)
L_MTL=λL_CTC+(1-λ)(αL_ATT+(1-α)L_JSD ) (3)
L_MTL=λL_CTC+(1-λ)(αL_ATT+(1-α)L_CD ) (4)

假设每种单一语言的输出token embedding的分布服从正态分布，且L_1~Norm(μ_1,∑_1 )，L_2~Norm(μ_2,∑_2 )。公式（1）～公式（4）中，z是维数，c_1，c_2分别是语言L_1和语言L_2的输出token embedding的质心。L_ATT是基于attention decoder的损失函数，L_CTC是CTC decoder的损失函数，L_MTL是多任务学习的损失函数。
Jensen-Shannon散度限制将强迫每个单语言的输出token embedding拥有相似的分布，而余弦距离限制可以使两个分布的质心彼此接近。此外，强加的约束将充当正规化项以防止模型训练的过度拟合。在中英CS的语料库 SEAME上的实验结果表明，提出的方法是有效的，有绝对4.5% CS语音识别混合错误率的下降。
通过结合不同限制，单一语言的输出token embedding的空间分布也有了明显的变化，如图1 (b)~(d) 所示。CD限制（即，余弦距离限制）和JSD限制（Jensen-Shannon散度限制）的结合使得单语输出token embedding分布更加相似。正是这种变化，使得基于两种单语训练的E2E-CS-ASR在CS测试集上有混合错误率的下降。

文章摘要

In spite of recent progress in code-switching speech recognition, the lack of code-switch data still remains a major challenge. Different from the previous works which highly rely on the availability of code-switch data, we aim to build an endto-end code-switching automatic speech recognition (E2E-CSASR) system using only monolingual data. While greatly mitigating the code-switch data scarcity problem, the E2E-CS-ASR will fail to learn language switch-points due to the absence of cross-lingual signal. Indeed, we investigate the E2E-CS-ASR model and found that the embedding feature representations of output tokens of code-switching languages are concentrated in disjoint clusters. We hypothesize that a gap between these clusters hinders the E2E-CS-ASR from switching between languages, leading to sub-optimal performance. To address this issue, we propose embedding feature matching approaches based on Jensen-Shannon divergence and cosine distance constraints.
The proposed constraints will act as a cross-lingual signal enforcing the disjoint clusters to be similar. The experiment results performed on Mandarin-English code-switching language pair from the SEAME corpus demonstrate high effectiveness of
the proposed method.
Index Terms: code-mixing, code-switching, feature matching,
speech recognition, end-to-end

阿里云开发者社区整理

语音顶会Interspeech 论文解读｜Constrained output embeddings for end-to-end code-switching speech recognition with only monolingual data

点击下载论文

文章解读

文章摘要

阿里论文

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

语音顶会Interspeech 论文解读｜Constrained output embeddings for end-to-end code-switching speech recognition with only monolingual data

文章解读

文章摘要

阿里论文

热门文章

最新文章

相关电子书