无监督学习站起来了!Facebook第三代语音识别wav2vec-U,匹敌监督模型,Lecun看了都说好

简介: Facebook在语音识别上又出重磅新作,继wav2vec, wav2vec 2.0以来,又出完全不需要监督数据的wav2vec-U,小众语言也能用语音识别啦!

相比显示器、鼠标、键盘这些传统的人机交互方式以外,随着语音识别技术的逐渐成熟,和电子产品进行「对话」也逐渐成为一种稀松平常的人机交互。


无论是给计算机或其他设备下达指示,还是回答用户的问题,语音识别在各个方面让电子产品的使用变得更加容易,无需学习,想要干什么只要跟他「说」就可以了。


但是直到今天为止,语音识别这项技术还是只适用于全球数千种语言中的一小部分,因为高质量的语音识别系统需要从大量转录的语音音频中训练得到。


这些数据并不适用于所有的语言、方言和说话风格。


不同场景下的语音也存在大量的差异,例如,英语小说的转录录音,对于帮助机器学习理解一个点菜的巴斯克人或者一个做商业演讲的菲律宾人,几乎没有任何帮助。

1.jpg为了解决这个难题,Facebook开发了一个全新的语音识别系统,wav2vec Unsupervised (wav2vec-U) ,这是一种完全不需要转录数据的语音识别系统的方法。


它的性能已经能够和几年前最好的监督模型匹敌,而这些模型需要将近1000小时的转录语音的训练数据。


wav2vec-U已经成功在斯瓦希里语、塔塔尔语等多种小众语言上进行测试,因为缺乏大量的标记训练数据,这些语言目前还没有高质量的语音识别模型。


Wav2vec-U 是 Facebook 人工智能在语音识别、自主学习和无监督机器翻译方面多年努力的结果,也是建造机器的一个重要步骤,机器可以通过学习他们的观察来解决各种各样的任务。


作者们认为,这项工作将使语音技术可以为世界上更多人所用。


图灵奖得住Yann LeCun也发推特祝贺,表示这是足以匹敌监督学习的非监督模型。


2.jpg


模型原理


Wav2vec-U 模型纯粹从录制的语音音频和未配对的文本,不再需要转录。


与之前的 ASR 系统相比,Wav2vec-U的框架采用了一种新颖的方法: 该方法首先从未标记的音频中学习语音的结构。


使用自监督模型 wav2vec 2.0和一个简单的 K平均算法方法,能够将录音分割成与单个声音松散对应的语音单元。(例如,单词 cat 包括三个发音: “/k/”、“/AE/”和“/t/”。)


为了学习识别音频录音中的单词,则训练了一个由生成器和鉴别器组成的对抗网络(GAN)。生成器采用embedding在自监督表示中的每个音频片段,并预测对应于语言中某个声音的音素。


生成器的训练方式是试图欺骗鉴别器,然后评估预测的音素序列看起来是否真实。在训练的初始阶段,识别的效果非常差,但随着时间的推移,准确率也不断提高。

3.png

判别器(discriminator)本身也是一个神经网络,通过训练它判别生成器的输出,来判断是否是真实存在的还是 伪造的音素。


这样训练的到的判别器就学会了区分生成器的语音识别输出和真实文本。


wav2vec-U 在 TIMIT 基准上对它进行了评估,与第二好的无监督方法相比,它将错误率降低了57% 。


4.jpg

除此之外,研究人员还对将 wav2vec-U 与 Librispeech 基准上的监督模型进行性能对比。在 Librispeech 基准上,监督模型通常使用960小时的转录语音数据来训练。


在没有标注数据的情况下, wav2vec-U 与几年前的最新技术一样准确。这表明语音识别系统在没有监督的情况下可以达到很好的质量。


5.jpg

TIMIT 和 Librispeech主要测量了模型在识别英语语音的性能,大量的、广泛可用的标记数据集能够产生足够好的语音识别技术。


然而,监督模型只能对有标注数据的场景、语言才有效。


对于那些几乎不存在标记数据的语言来说,非监督语音识别才是最有效的方式。


因此,研究人员在其他语言上尝试了这个模型方法,比如斯瓦希里语、鞑靼语和吉尔吉斯语。



6.jpg

像语音识别这样的人工智能技术不应该只让那些世界上使用最广泛的语言之一的人受益。减少AI模型对注释数据的依赖是扩大对这些工具的访问的一个重要部分。


Facebook 的人工智能最近在这方面取得了快速的进步,先是引入了 wav2vec,然后是 wav2vec 2.0,现在是 wav2vec-U。


最重要的是,人们也并不一定是通过标签数据来学习,而是通过倾听周围的人来学习许多与语言相关的技能。这表明有一种更好的方法来训练语音识别模型,这种模型不需要大量的标记数据。开发这些更智能的系统是一个伟大、长期的科学愿景, wav2vec-U将是重要的一步。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
7天前
|
人工智能 物联网 测试技术
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
小红书开源的工业级自动语音识别模型,支持普通话、中文方言和英语,采用 Encoder-Adapter-LLM 和 AED 架构,实现 SOTA 性能。
146 17
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
|
15天前
|
人工智能 编解码 语音技术
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型,具备拟人口语化表达、低延迟响应和多情感控制等功能。
202 21
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
|
28天前
|
机器学习/深度学习 数据采集 人工智能
昇腾AI行业案例(七):基于 Conformer 和 Transformer 模型的中文语音识别
欢迎学习《基于 Conformer 和 Transformer 模型的中文语音识别》实验。本案例旨在帮助你深入了解如何运用深度学习模型搭建一个高效精准的语音识别系统,将中文语音信号转换成文字,并利用开源数据集对模型效果加以验证。
51 12
|
4月前
|
机器学习/深度学习 PyTorch 语音技术
语音识别模型
Whisper 是 OpenAI 推出的语音处理项目,基于深度学习,具备高度智能化和准确性的语音识别、翻译和生成能力。通过丰富的数据集和先进的注意力机制,Whisper 在多种语言环境下表现出色,支持语音识别、翻译、口语识别和语音活动检测等多种任务。用户可以通过 Python 代码或命令行轻松使用 Whisper,完成高质量的语音处理任务。官网:https://openai.com/research/whisper,GitHub:https://github.com/openai/whisper。
|
4月前
|
机器学习/深度学习 算法 语音技术
超越传统模型:探讨门控循环单元(GRU)在语音识别领域的最新进展与挑战
【10月更文挑战第7天】随着人工智能技术的不断进步,语音识别已经从一个相对小众的研究领域发展成为日常生活中的常见技术。无论是智能手机上的语音助手,还是智能家居设备,甚至是自动字幕生成系统,都离不开高质量的语音识别技术的支持。在众多用于语音识别的技术中,基于深度学习的方法尤其是递归神经网络(RNNs)及其变体如长短期记忆网络(LSTMs)和门控循环单元(GRUs)已经成为了研究和应用的热点。
235 2
|
7月前
|
机器学习/深度学习 算法 数据可视化
Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战
Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战
|
9月前
|
机器学习/深度学习 语音技术
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
441 9
|
9月前
|
机器学习/深度学习 语音技术 Python
使用Python实现语音识别与处理模型
使用Python实现语音识别与处理模型
128 0
|
9月前
|
语音技术
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)【1月更文挑战第11天】【1月更文挑战第52篇】
150 1
|
机器学习/深度学习 人工智能 数据可视化
Spectron: 谷歌的新模型将语音识别与语言模型结合进行端到端的训练
Spectron是谷歌Research和Verily AI开发的新的模型。与传统的语言模型不同,Spectron直接处理频谱图作为输入和输出。该模型消除归纳偏差,增强表征保真度,提高音频生成质量。
126 1

热门文章

最新文章