模拟儿童学习多语言,Deepmind让DL看视频就学会翻译

简介: 小孩儿是怎么学多种语言的?只通过观察,就同时掌握了不同语言。如何让DL也做到这一点?Deepmind团队开发出了一个无监督的单词翻译多模态模型,只通过视觉就学习语言翻译!

微信图片_20220108191223.png


儿童是如何同时学习多种语言的?


儿童可以通过观察自己的环境并与他人互动来学习多种语言,而无需任何明确的监督或指导。他们在观察相同情况时不会同时听到一个句子及其翻译;

 

相反,他们通过视觉上的相似性来沟通多种语言:星期一听到“狗在吃东西”、与星期五听到“dog is eating”时看到的东西相似,那么小孩就知道,这两句话是同一个意思。

 

微信图片_20220108191226.png


虽然世界范围内对“狗”的称呼有成百上千种语言,但是在视觉领域,它们所指代的是同样的一只狗。


这就启发了我们可以如何训练深度学习:直接让算法“听”和“看”,从相似的场景中学习不同语言之间是如何翻译的。


学名叫做:“无成对语料库的、基于视觉的无监督多模态翻译系统”


近日,来自DeepMind、牛津大学以及卡内基梅隆的研究者合作发表了论文《Visual Grounding in Video for Unsupervised Word Translation》,用视觉基础改善无监督的单词映射。


已有工作的不足:基于文本,成对语料库不普适


已有的各种无监督的基于文本的单词对齐方法,有自身的问题。他们使用相同的视频或图像与多种语言的字幕相关联,也就是说,他们利用了成对的语料库


这种思路有两个问题:一是制作大量的成对语料库成本高昂二是当语言(或其训练语料库)区别更大时,比如说在对越南语和德语、而不是英语和德语进行词意配对时,它们就不够鲁棒


怎么模仿儿童学语言?我们给算法看视频


视频里,来自不同国家/地区的人们在做某种工作,同时用母语解释自己在干什么。比如,我们可以让算法在Youtube上观看韩语或英语的榨橙汁的视频。

 

教学视频在视觉上往往看起来相似,并且所讲的基本概念通常是相同的。我们对这类视频使用自动语音识别,获得了大量的相应字幕。

 

微信图片_20220108191229.png

如上图所示,我们提出了一个模型,该模型通过视频映射两种语言。对于英语和法语,该模型仅通过观看视频即可正确翻译28.0%的常见单词和45.3%的视觉单词。与此相比,基于检索的基线(不共享视觉表示)对于普通单词和视觉单词只有12.5%和18.6%。也就是说,新模型把翻译成功率提高了两倍以上


这种方法的困难:Up主经常在视频里瞎聊


通过教学视频映射语言的方法也面临挑战:YouTube博主经常谈论与当前图像没有关联的随机主题,比如用户数量,还有和观众的互动。


此,视频中的语音与场景只有松散的联系。两种语言的视频都是这样,这使得错误更加复杂。


此外,视觉上相似的视频在语义上可能并不相似。


通过使用视频的相似性来构建平行文本语料库无法解决这一挑战。视频检索基准的两种常见故障示例如下:


微信图片_20220108191231.png


在第一行中,两个视频在视觉上相关,都是在编织,但他们正在说的话并不匹配,左边在说“针脚有色彩的顺序”,右边在说“我们把小绒球加进去”,所以没法做词意匹配。


在下面两幅图中,视频都是关于食物的,但左边字幕与视觉内容无关,在说“谢谢观看,再见”。


实验结果:新模型受数据量影响小,更鲁棒


新模型翻译质量如何?Random ChanceVideo Retrieval这两个基线相比有极大提升,且比基础模型也有很大提升


微信图片_20220108191233.png

表1:在英法词典和简单词汇(Simple Words)上,该模型(MUVE)和基准的性能(如Recall @ 1)。


那基于文本的单词翻译方法,新模型能否提升呢?使用了在HowToW-Text上训练的单词嵌入方法作者实验了三种无监督方法和一种有监督方法。对比英语和法语、韩语和日语之间的翻译结果,本文提出的MUVE方法最优


微信图片_20220108191235.png

表2:MUVE和基于文本的方法在不同语言对中的性能。MUVE在词典数据集上报告Recall @ 1。所有方法都使用在HowToW-Text上针对其各自语言训练的词嵌入。


这些结果证实了先前的研究结果,即基于文本的方法更适合于类似的语言(如英语和法语),并表明在这种情况下,在视觉域中的逐字翻译是特别有效的


微信图片_20220108191237.png


表3:不同方法对训练语料库的相似性的鲁棒性。


结果显示,当语料库相似时(比如英语和法语),所有的方法都表现良好。当语料库不相似时,MUVE明显优于其他方法,也更加鲁棒


微信图片_20220108191239.png

表4:在给出英语查询的情况下,Human Queries数据集上法语排名前2的检索结果。


研究人员测试了不同训练数据量模型的表现,分别为100%、10%、1%数据训练

训练语料不足时,MUVE表现更好


微信图片_20220108191241.png


图5:MUSE、VecMap和MUVE不同数量数据在英法字典中的Recall@10。


当单词量变化时,MUVE性能没有明显下降,其他方法受影响较大:


微信图片_20220108191243.png


图6:测试英语和法语预先训练的单词嵌入,单词量急剧减少时,MUVE仍然更鲁棒。


微信图片_20220108191245.png


图7:左:视频中的一帧,模型选择与英语查询最相关。右:以视频为条件的法语排名前2位的预测。视觉基础为翻译提供了一个微弱但有用的信号。


结论:基于视觉比基于文本的方法更优


新模型对以下三个方面比较敏感


1.两种语言不同的程度(例如,相比于朝鲜语,英语更像法语),

2.两种语言的训练语料库的差异(例如,英语和法语的维基百科非常相似),

3.训练量数据

 

本研究贡献有三个方面:


1.提出了一种新方法:仅使用未配对的教学视频在视觉域中映射语言


2.证明了新方法可有效地以无监督的方式通过视觉将不同语言的单词连接起来


3.它可以作为现有单词映射技术的良好初始化,解决了基于文本的方法的许多缺点


论文地址:

https://arxiv.org/pdf/2003.05078.pdf


相关文章
|
自然语言处理 物联网 异构计算
开启中文智能之旅:探秘超乎想象的 Llama2-Chinese 大模型世界
开启中文智能之旅:探秘超乎想象的 Llama2-Chinese 大模型世界
开启中文智能之旅:探秘超乎想象的 Llama2-Chinese 大模型世界
|
4月前
|
机器学习/深度学习 存储 自然语言处理
使用Python实现深度学习模型:语言翻译与多语种处理
【7月更文挑战第21天】 使用Python实现深度学习模型:语言翻译与多语种处理
168 0
|
5月前
|
人工智能 自然语言处理 决策智能
超长小说可以用AI翻译了,新型多智能体协作系统媲美人工翻译
【6月更文挑战第11天】研究人员开发了一种基于大型语言模型的多智能体协作系统TransAgents,用于文学翻译,挑战复杂的文学文本翻译。通过单语人类偏好和双语LLM偏好评估,系统在保留文学风格和表达上表现出色,尤其在需要领域知识的文本中。然而,系统在捕捉文学翻译的细微差别、文化特定元素和长文本翻译效率上仍有局限性。相关论文链接:https://arxiv.org/abs/2405.11804
157 1
|
5月前
|
自然语言处理 数据挖掘
必知的技术知识:EMNLP2021基于Prompt的方面级情感分析研究【转载以学习、回忆】
必知的技术知识:EMNLP2021基于Prompt的方面级情感分析研究【转载以学习、回忆】
23 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会“图的语言”
【5月更文挑战第1天】谷歌在ICLR 2024提出新方法,使大语言模型(LLM)性能提升高达60%,通过结合图神经网络(GNN),LLM学会理解与生成“图的语言”,打破处理复杂任务的局限。此创新模型适用于社交网络分析等领域,但面临计算资源需求大和模型解释性问题。研究强调需确保LLM在道德和法律框架内使用。论文链接:https://openreview.net/pdf?id=IuXR1CCrSi
237 3
|
6月前
|
自然语言处理 前端开发 Swift
社区供稿 | 中文llama3模型哪家强?llama3汉化版微调模型大比拼
随着llama3的发布,业界越来越多的针对其中文能力的微调版本也不断涌现出来,我们在ModelScope魔搭社区上,搜集到几款比较受欢迎的llama3中文版本模型,来从多个维度评测一下,其对齐后的中文能力到底如何? 微调后是否产生了灾难性遗忘问题。
|
6月前
|
人工智能 自然语言处理
【AI Agent系列】【MetaGPT】7. 实战:只用两个字,让MetaGPT写一篇小说
【AI Agent系列】【MetaGPT】7. 实战:只用两个字,让MetaGPT写一篇小说
260 0
|
自然语言处理 机器人 API
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
|
机器学习/深度学习 数据采集 人工智能
民谣女神唱流行,基于AI人工智能so-vits库训练自己的音色模型(叶蓓/Python3.10)
流行天后孙燕姿的音色固然是极好的,但是目前全网都是她的声音复刻,听多了难免会有些审美疲劳,在网络上检索了一圈,还没有发现民谣歌手的音色模型,人就是这样,得不到的永远在骚动,本次我们自己构建训练集,来打造自己的音色模型,让民谣女神来唱流行歌曲,要多带劲就有多带劲。
|
机器学习/深度学习 人工智能 自然语言处理
【OpenAI】DALL·E 2,让我来带你认识一下这位来自AI界的艺术家
【OpenAI】DALL·E 2,让我来带你认识一下这位来自AI界的艺术家
674 0