模拟儿童学习多语言,Deepmind让DL看视频就学会翻译

简介: 小孩儿是怎么学多种语言的?只通过观察,就同时掌握了不同语言。如何让DL也做到这一点?Deepmind团队开发出了一个无监督的单词翻译多模态模型,只通过视觉就学习语言翻译!

微信图片_20220108191223.png


儿童是如何同时学习多种语言的?


儿童可以通过观察自己的环境并与他人互动来学习多种语言,而无需任何明确的监督或指导。他们在观察相同情况时不会同时听到一个句子及其翻译;

 

相反,他们通过视觉上的相似性来沟通多种语言:星期一听到“狗在吃东西”、与星期五听到“dog is eating”时看到的东西相似,那么小孩就知道,这两句话是同一个意思。

 

微信图片_20220108191226.png


虽然世界范围内对“狗”的称呼有成百上千种语言,但是在视觉领域,它们所指代的是同样的一只狗。


这就启发了我们可以如何训练深度学习:直接让算法“听”和“看”,从相似的场景中学习不同语言之间是如何翻译的。


学名叫做:“无成对语料库的、基于视觉的无监督多模态翻译系统”


近日,来自DeepMind、牛津大学以及卡内基梅隆的研究者合作发表了论文《Visual Grounding in Video for Unsupervised Word Translation》,用视觉基础改善无监督的单词映射。


已有工作的不足:基于文本,成对语料库不普适


已有的各种无监督的基于文本的单词对齐方法,有自身的问题。他们使用相同的视频或图像与多种语言的字幕相关联,也就是说,他们利用了成对的语料库


这种思路有两个问题:一是制作大量的成对语料库成本高昂二是当语言(或其训练语料库)区别更大时,比如说在对越南语和德语、而不是英语和德语进行词意配对时,它们就不够鲁棒


怎么模仿儿童学语言?我们给算法看视频


视频里,来自不同国家/地区的人们在做某种工作,同时用母语解释自己在干什么。比如,我们可以让算法在Youtube上观看韩语或英语的榨橙汁的视频。

 

教学视频在视觉上往往看起来相似,并且所讲的基本概念通常是相同的。我们对这类视频使用自动语音识别,获得了大量的相应字幕。

 

微信图片_20220108191229.png

如上图所示,我们提出了一个模型,该模型通过视频映射两种语言。对于英语和法语,该模型仅通过观看视频即可正确翻译28.0%的常见单词和45.3%的视觉单词。与此相比,基于检索的基线(不共享视觉表示)对于普通单词和视觉单词只有12.5%和18.6%。也就是说,新模型把翻译成功率提高了两倍以上


这种方法的困难:Up主经常在视频里瞎聊


通过教学视频映射语言的方法也面临挑战:YouTube博主经常谈论与当前图像没有关联的随机主题,比如用户数量,还有和观众的互动。


此,视频中的语音与场景只有松散的联系。两种语言的视频都是这样,这使得错误更加复杂。


此外,视觉上相似的视频在语义上可能并不相似。


通过使用视频的相似性来构建平行文本语料库无法解决这一挑战。视频检索基准的两种常见故障示例如下:


微信图片_20220108191231.png


在第一行中,两个视频在视觉上相关,都是在编织,但他们正在说的话并不匹配,左边在说“针脚有色彩的顺序”,右边在说“我们把小绒球加进去”,所以没法做词意匹配。


在下面两幅图中,视频都是关于食物的,但左边字幕与视觉内容无关,在说“谢谢观看,再见”。


实验结果:新模型受数据量影响小,更鲁棒


新模型翻译质量如何?Random ChanceVideo Retrieval这两个基线相比有极大提升,且比基础模型也有很大提升


微信图片_20220108191233.png

表1:在英法词典和简单词汇(Simple Words)上,该模型(MUVE)和基准的性能(如Recall @ 1)。


那基于文本的单词翻译方法,新模型能否提升呢?使用了在HowToW-Text上训练的单词嵌入方法作者实验了三种无监督方法和一种有监督方法。对比英语和法语、韩语和日语之间的翻译结果,本文提出的MUVE方法最优


微信图片_20220108191235.png

表2:MUVE和基于文本的方法在不同语言对中的性能。MUVE在词典数据集上报告Recall @ 1。所有方法都使用在HowToW-Text上针对其各自语言训练的词嵌入。


这些结果证实了先前的研究结果,即基于文本的方法更适合于类似的语言(如英语和法语),并表明在这种情况下,在视觉域中的逐字翻译是特别有效的


微信图片_20220108191237.png


表3:不同方法对训练语料库的相似性的鲁棒性。


结果显示,当语料库相似时(比如英语和法语),所有的方法都表现良好。当语料库不相似时,MUVE明显优于其他方法,也更加鲁棒


微信图片_20220108191239.png

表4:在给出英语查询的情况下,Human Queries数据集上法语排名前2的检索结果。


研究人员测试了不同训练数据量模型的表现,分别为100%、10%、1%数据训练

训练语料不足时,MUVE表现更好


微信图片_20220108191241.png


图5:MUSE、VecMap和MUVE不同数量数据在英法字典中的Recall@10。


当单词量变化时,MUVE性能没有明显下降,其他方法受影响较大:


微信图片_20220108191243.png


图6:测试英语和法语预先训练的单词嵌入,单词量急剧减少时,MUVE仍然更鲁棒。


微信图片_20220108191245.png


图7:左:视频中的一帧,模型选择与英语查询最相关。右:以视频为条件的法语排名前2位的预测。视觉基础为翻译提供了一个微弱但有用的信号。


结论:基于视觉比基于文本的方法更优


新模型对以下三个方面比较敏感


1.两种语言不同的程度(例如,相比于朝鲜语,英语更像法语),

2.两种语言的训练语料库的差异(例如,英语和法语的维基百科非常相似),

3.训练量数据

 

本研究贡献有三个方面:


1.提出了一种新方法:仅使用未配对的教学视频在视觉域中映射语言


2.证明了新方法可有效地以无监督的方式通过视觉将不同语言的单词连接起来


3.它可以作为现有单词映射技术的良好初始化,解决了基于文本的方法的许多缺点


论文地址:

https://arxiv.org/pdf/2003.05078.pdf


相关文章
|
8月前
|
数据采集 人工智能 自然语言处理
学术界的期刊编辑如何识别通过 ChatGPT 编写出来的论文?
学术界的期刊编辑如何识别通过 ChatGPT 编写出来的论文?
91 0
学术界的期刊编辑如何识别通过 ChatGPT 编写出来的论文?
|
10月前
|
人工智能 API C++
【AI绘画大比拼】通义万相VS文心一格:探索十种风格下的绘画生成差异!
近日,通义大模型家族的新成员——通义万相已在人工智能大会上亮相。其中,通义万相的强大的“文生图”功能,不禁让我想到了去年八月由百度依托飞桨、文心大模型的技术创新推出的“AI作画”首款产品——文心一格。 那么,在类似的Prompt下,两款产品的表现将会如何呢?今天就让我们就十种风格下二者生成图像的表现力,来看看这两款产品的差异。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT学python——制作自己的AI模型(一)初步了解
ChatGPT学python——制作自己的AI模型(一)初步了解
|
5月前
|
人工智能 前端开发 PyTorch
构建自己 AI 翻译助手取代谷歌翻译
构建自己 AI 翻译助手取代谷歌翻译
70 0
|
10月前
|
机器学习/深度学习 云安全 人工智能
文心千帆:PPT 制作、数字人主播等应用场景惊艳到我了,下面给ERNIE-Bot|BLOOMZ大模型调优、RLHF训练详细教程
文心千帆:PPT 制作、数字人主播等应用场景惊艳到我了,下面给ERNIE-Bot|BLOOMZ大模型调优、RLHF训练详细教程
文心千帆:PPT 制作、数字人主播等应用场景惊艳到我了,下面给ERNIE-Bot|BLOOMZ大模型调优、RLHF训练详细教程
|
12月前
|
数据采集 机器学习/深度学习 人工智能
Meta用《圣经》训练超多语言模型:识别1107种、辨认4017种语言
Meta用《圣经》训练超多语言模型:识别1107种、辨认4017种语言
|
人工智能 自然语言处理 机器人
谷歌推出AI写作助手Wordcraft,仅需少量样本学习和对话就能对文章进行续写改写(上)
写故事没灵感?有AI啊!谷歌提出文本编辑器Wordcraft,内置人工智能,使用少量样本学习和对话就能支持各种用户交互,还可以帮助用户进行故事规划、写作和编辑,再也不用担心被催更啦!
2747 0
谷歌推出AI写作助手Wordcraft,仅需少量样本学习和对话就能对文章进行续写改写(上)
|
12月前
|
自然语言处理 区块链
长文本生成更流畅,斯坦福研究者引入时间控制方法,论文入选ICLR 2022
长文本生成更流畅,斯坦福研究者引入时间控制方法,论文入选ICLR 2022
|
12月前
|
数据采集 机器学习/深度学习 自然语言处理
顺手训了一个史上最大ViT?Google升级视觉语言模型PaLI:支持100+种语言
顺手训了一个史上最大ViT?Google升级视觉语言模型PaLI:支持100+种语言
162 0
|
12月前
|
人工智能 自然语言处理 计算机视觉
这个懂中文的AI高手,画出的高山明月太惊艳!中英双语AltDiffusion模型已开源
这个懂中文的AI高手,画出的高山明月太惊艳!中英双语AltDiffusion模型已开源
122 0