儿童是如何同时学习多种语言的?
儿童可以通过观察自己的环境并与他人互动来学习多种语言,而无需任何明确的监督或指导。他们在观察相同情况时不会同时听到一个句子及其翻译;
相反,他们通过视觉上的相似性来沟通多种语言:星期一听到“狗在吃东西”、与星期五听到“dog is eating”时看到的东西相似,那么小孩就知道,这两句话是同一个意思。
虽然世界范围内对“狗”的称呼有成百上千种语言,但是在视觉领域,它们所指代的是同样的一只狗。
这就启发了我们可以如何训练深度学习:直接让算法“听”和“看”,从相似的场景中学习不同语言之间是如何翻译的。
学名叫做:“无成对语料库的、基于视觉的无监督多模态翻译系统”。
近日,来自DeepMind、牛津大学以及卡内基梅隆的研究者合作发表了论文《Visual Grounding in Video for Unsupervised Word Translation》,用视觉基础改善无监督的单词映射。
已有工作的不足:基于文本,成对语料库不普适
已有的各种无监督的基于文本的单词对齐方法,有自身的问题。他们使用相同的视频或图像与多种语言的字幕相关联,也就是说,他们利用了成对的语料库。
这种思路有两个问题:一是制作大量的成对语料库成本高昂,二是当语言(或其训练语料库)区别更大时,比如说在对越南语和德语、而不是英语和德语进行词意配对时,它们就不够鲁棒。
怎么模仿儿童学语言?我们给算法看视频
视频里,来自不同国家/地区的人们在做某种工作,同时用母语解释自己在干什么。比如,我们可以让算法在Youtube上观看韩语或英语的榨橙汁的视频。
教学视频在视觉上往往看起来相似,并且所讲的基本概念通常是相同的。我们对这类视频使用自动语音识别,获得了大量的相应字幕。
如上图所示,我们提出了一个模型,该模型通过视频映射两种语言。对于英语和法语,该模型仅通过观看视频即可正确翻译28.0%的常见单词和45.3%的视觉单词。与此相比,基于检索的基线(不共享视觉表示)对于普通单词和视觉单词只有12.5%和18.6%。也就是说,新模型把翻译成功率提高了两倍以上。
这种方法的困难:Up主经常在视频里瞎聊
通过教学视频映射语言的方法也面临挑战:YouTube博主经常谈论与当前图像没有关联的随机主题,比如用户数量,还有和观众的互动。
因此,视频中的语音与场景只有松散的联系。两种语言的视频都是这样,这使得错误更加复杂。
此外,视觉上相似的视频在语义上可能并不相似。
通过使用视频的相似性来构建平行文本语料库无法解决这一挑战。视频检索基准的两种常见故障示例如下:
在第一行中,两个视频在视觉上相关,都是在编织,但他们正在说的话并不匹配,左边在说“针脚有色彩的顺序”,右边在说“我们把小绒球加进去”,所以没法做词意匹配。
在下面两幅图中,视频都是关于食物的,但左边字幕与视觉内容无关,在说“谢谢观看,再见”。
实验结果:新模型受数据量影响小,更鲁棒
新模型翻译质量如何?与Random Chance和Video Retrieval这两个基线相比有极大提升,且比基础模型也有很大提升:
表1:在英法词典和简单词汇(Simple Words)上,该模型(MUVE)和基准的性能(如Recall @ 1)。
那基于文本的单词翻译方法,新模型能否提升呢?使用了在HowToW-Text上训练的单词嵌入方法,作者实验了三种无监督方法和一种有监督方法。对比英语和法语、韩语和日语之间的翻译结果,本文提出的MUVE方法最优:
表2:MUVE和基于文本的方法在不同语言对中的性能。MUVE在词典数据集上报告Recall @ 1。所有方法都使用在HowToW-Text上针对其各自语言训练的词嵌入。
这些结果证实了先前的研究结果,即基于文本的方法更适合于类似的语言(如英语和法语),并表明在这种情况下,在视觉域中的逐字翻译是特别有效的。
表3:不同方法对训练语料库的相似性的鲁棒性。
结果显示,当语料库相似时(比如英语和法语),所有的方法都表现良好。当语料库不相似时,MUVE明显优于其他方法,也更加鲁棒。
表4:在给出英语查询的情况下,Human Queries数据集上法语排名前2的检索结果。
研究人员测试了不同训练数据量模型的表现,分别为100%、10%、1%数据训练,
当训练语料不足时,MUVE表现更好:
图5:MUSE、VecMap和MUVE不同数量数据在英法字典中的Recall@10。
当单词量变化时,MUVE性能没有明显下降,其他方法受影响较大:
图6:测试英语和法语预先训练的单词嵌入,单词量急剧减少时,MUVE仍然更鲁棒。
图7:左:视频中的一帧,模型选择与英语查询最相关。右:以视频为条件的法语排名前2位的预测。视觉基础为翻译提供了一个微弱但有用的信号。
结论:基于视觉比基于文本的方法更优
新模型对以下三个方面比较敏感:
1.两种语言不同的程度(例如,相比于朝鲜语,英语更像法语),
2.两种语言的训练语料库的差异(例如,英语和法语的维基百科非常相似),
3.训练量数据。
本研究贡献有三个方面:
1.提出了一种新方法:仅使用未配对的教学视频在视觉域中映射语言,
2.证明了新方法可有效地以无监督的方式通过视觉将不同语言的单词连接起来,
3.它可以作为现有单词映射技术的良好初始化,解决了基于文本的方法的许多缺点。
论文地址:
https://arxiv.org/pdf/2003.05078.pdf