剑桥AI公司:7天精通一门新语言,未来将学会7000种语言

简介: 剑桥AI公司Speechmatics使用机器学习技术Automatic Linguist,可在一天内学会一门语言的基础,一周内掌握一门新语言。该公司希望有朝一日能够掌握世界上的所有语言。

11月11日,剑桥AI公司Speechmatics正式上线其机器学习平台Automatic Linguist,能在一周内掌握一门新语言。该平台沿用剑桥大学研发的技术,能够识别并应用语言中的不同模式。目前,该平台能够识别28种语言,实现从语音到文字的准确转录。

2a49d62f223cf47727f7d94aae47bcabd6ab34d7

图示: Speechmatics将28种语言逐渐加入其系统中。


一个大公司客户要求Speechmatics两周内学会印地语,该公司发布了一个系统,根据测试,该系统比市场领先者的错误率少23%。

Speechmatics首席执行官Benedikt von Thüngen在接受Cambridge Independent采访时表示,“印地语非常简单。我们发现它在发音方面与英语非常相似,所以我们可以使用一个叫做‘适应’的过程。它从我们拥有的不同数据集中学习。”

“每种语言都有各自有趣的地方。韩语、土耳其语、芬兰语、德语等语言都是粘着构词,词语结合起来构成新的词汇。这是一个有待解决的有趣问题。”

“越南语、汉语等变调语言,也是一个很有意思的挑战。要教会系统去处理这些语言。”

fd93a9d49c6fb63e12bc6dec01c55cac2d0cf5ab

Speechmatics首席执行官Benedikt von Thüngen。


语言识别的传统路径要经过繁琐、昂贵的人工过程,专家要手动收集、清理海量数据。这是一个一次性系统,因此只关注使用最广泛的几种语言才算经济实用。

但是经过剑桥大学博士、Speechmatics首席技术官Tony Robinson数十年对神经网络的研究,Speechmatics可以通过识别基本声音和语法结构,在一天之内掌握一门语言的基础。

7d9ca2d8dc0e5841af3277791ad16c6cf9aa6e66

剑桥大学博士、Speechmatics首席技术官Tony Robinson。

 

该软件的主要用途之一是为电视提供准确、实时的字幕,并增加了专业个性化词典,如足球员姓名。

Benedikt说金融机构能够使用这一技术进行通话录音,以证明合规性和对PPI不当销售进行审查。他预言:“语音将成为与设备互动的主要机制。”

该公司白皮书提到,“我们的终极目标是为所有语言提供一个语言包。鉴于世界上约有7000种语言,这将是一个雄心勃勃的目标,我们希望有朝一日能够全部掌握这些语言。”


原文发布时间为:2017-11-16

本文作者:Cecilia

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:剑桥AI公司:7天精通一门新语言,未来将学会7000种语言

相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
当语言遇见智慧火花:GPT家族历代模型大起底,带你见证从平凡到卓越的AI进化奇迹!
【10月更文挑战第6天】随着自然语言处理技术的进步,GPT系列模型(Generative Pre-trained Transformers)成为该领域的明星。从GPT-1的开创性工作,到GPT-2在规模与性能上的突破,再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力,以及社区驱动的GPT-NeoX,这些模型不断进化。虽然它们展现出强大的语言理解和生成能力,但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点,并通过示例代码展示其部分功能。
107 2
|
6月前
|
人工智能 自然语言处理 文字识别
阿里推出AnyText: 解决AI绘图不会写字的问题,可以任意指定文字位置,且支持多国语言!
【2月更文挑战第17天】阿里推出AnyText: 解决AI绘图不会写字的问题,可以任意指定文字位置,且支持多国语言!
410 2
阿里推出AnyText: 解决AI绘图不会写字的问题,可以任意指定文字位置,且支持多国语言!
|
6月前
|
机器学习/深度学习 自然语言处理 语音技术
字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言(Python3.10)
按照固有的思维方式,如果想要语音克隆首先得有克隆对象具体的语言语音样本,换句话说,克隆对象必须说过某一种语言的话才行,但现在,coqui-ai TTS V2.0版本做到了,真正的跨语种无需训练的语音克隆技术。 coqui-ai TTS实现跨语种、无需训练克隆语音的方法是基于Tacotron模型,该模型使用了一种音素输入表示来鼓励在不同语种之间共享模型容量。此外,还引入了对抗损失项,以鼓励模型将说话者身份与语音内容进行解耦。这使得模型能够在不同语种之间进行语音合成,而无需在任何双语或平行示例上进行训练。
字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言(Python3.10)
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
DGLM(Diffusion Guided Language Modeling)是一种新型框架,结合了自回归模型的流畅性和扩散模型的灵活性,解决了现有引导生成方法的局限性。DGLM通过扩散网络生成语义提案,并使用轻量级提示生成器将嵌入转化为软提示,引导自回归解码器生成文本。该方法无需微调模型权重,易于控制新属性,并在多个基准数据集上表现出色。实验结果显示,DGLM在毒性缓解、情感控制和组合控制等方面优于现有方法,为可控文本生成提供了新的方向。
44 10
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
|
3月前
|
机器学习/深度学习 人工智能
AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面!
【8月更文挑战第11天】牛津与剑桥大学研究揭示,AI模型若反复在自身生成的数据上训练,将遭遇“模型崩溃”,即性能严重退化,甚至遗忘真实世界的数据分布。此现象在《自然》杂志刊出,警示AI进化之路暗藏风险。实验显示,随着训练代际增加,模型倾向于生成更简单内容,丢失稀有信息,最终可能导致对现实世界的误解加深。此发现对AI领域的持续发展及模型可靠性提出了新的挑战。
197 60
|
2月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
70 7
|
3月前
|
机器学习/深度学习 人工智能
高于临床测试3倍准确率!剑桥大学开发AI模型,提前6年预测阿尔茨海默症
【8月更文挑战第9天】剑桥大学研发的人工智能模型在预测阿尔茨海默症方面取得突破,准确率比传统临床测试高三倍,能提前六年预测疾病发生。该模型基于深度学习,利用大量临床及神经影像数据识别生物标志物,预测准确性达80%。这一成果有望促进早期干预,改善患者预后,但仍需更大规模研究验证,并解决隐私与公平性等问题。论文已发表于《The Lancet》子刊。
52 6
|
3月前
|
人工智能 JavaScript Go
介绍 Agency: 使AI与Go语言无缝对接
介绍 Agency: 使AI与Go语言无缝对接
|
3月前
|
SQL 人工智能 SEO
|
4月前
|
人工智能
Prompt工程问题之通过prompt使AI输出的语言风格多变如何解决
Prompt工程问题之通过prompt使AI输出的语言风格多变如何解决
57 4