Facebook 开源首个全卷积语音识别工具包 wav2letter++

简介: 系统基于全卷积方法进行语音识别,训练语音识别端到端神经网络的速度是其他框架的 2 倍多。

雷锋网 AI 科技评论按:近日,Facebook 人工智能研究院 ( FAIR ) 宣布开源首个全卷积语音识别工具包 wav2letter++。系统基于全卷积方法进行语音识别,训练语音识别端到端神经网络的速度是其他框架的 2 倍多。他们在博客中对此次开源进行了详细介绍。

TB1s9pEypzqK1RjSZFCXXbbxVXa.png

由于端到端语音识别技术能够轻易扩展至多种语言,同时能在多变的环境下保证识别质量,因此被普遍认为是一种高效且稳定的语音识别技术。虽说递归卷积神经网络在处理具有远程依赖性的建模任务上很占优势,如语言建模、机器翻译和语音合成等,然而在端到端语音识别任务上,循环架构才是业内的主流。

有鉴于此,Facebook 人工智能研究院 (FAIR) 的语音小组上周推出首个全卷积语音识别系统,该系统完全由卷积层组成,取消了特征提取步骤,仅凭端到端训练对音频波形中的转录文字进行预测,再通过外部卷积语言模型对文字进行解码。随后 Facebook 宣布开源 wav2letter ++——这种高性能框架的出现,让端到端语音识别技术得以实现快速迭代,为技术将来的优化工作和模型调优打下夯实的基础。

与 wav2letter++ 一同宣布开源的,还有机器学习库 Flashlight。Flashlight 是建立在 C++基础之上的机器学习库,使用了 ArrayFire 张量库,并以 C++进行实时编译,目标是最大化 CPU 与 GPU 后端的效率和规模,而 wave2letter ++工具包建立在 Flashlight 基础上,同样使用 C++进行编写,以 ArrayFire 作为张量库。

这里着重介绍一下 ArrayFire,它可以在 CUDA GPU 和 CPU 支持的多种后端上被执行,支持多种音频文件格式(如 wav、flac 等),此外还支持多种功能类型,其中包括原始音频、线性缩放功率谱、log 梅尔谱 (MFSC) 和 MFCCs 等。

Github 开源地址:

https://github.com/facebookresearch/wav2letter/

在 Facebook 对外发布论文中,wav2letter++被拿来与其他主流开源语音识别系统进行对比,发现 wav2letter++训练语音识别端到端神经网络速度是其他框架的 2 倍还多。其使用了 1 亿个参数的模型测试,使用从 1~64 个 GPU,且训练时间是线性变化的。

TB1oo43yxnaK1RjSZFtXXbC2VXa.png

图片来源:Facebook

上面为系统的网络结构图,主要由 4 个部分组成:

可学习前端(Learnable front end):这部分包含宽度为 2 的卷积(用于模拟预加重流程)和宽度为 25 ms 的复卷积。在计算完平方模数后,由低通滤波器和步长执行抽取任务。最后应用于 log-compression 和 per-channel mean-variance normalization 上。

声学模型:这是一款带有门线性单元(GLU)的卷积神经网络,负责处理可学习前端的输出内容。基于自动分割准则,该模型在字母预测任务上进行训练。

语言模型:该卷积语言模型一共包含 14 个卷积残差块,并将门线性单元作为激活函数,主要用来对集束搜索解码器中语言模型的预备转录内容进行评分。

集束搜索解码器(Beam-search decoder):根据声学模型的输出内容生成词序列。

想深入了解系统背后运作原理感的同学,可以自行查阅完整内容:

https://arxiv.org/abs/1812.07625

wav2letter++: The Fastest Open-source Speech Recognition System

via https://opensource.fb.com/

雷锋网(公众号:雷锋网) AI 科技评论 雷锋网

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
1月前
|
自然语言处理 UED 开发者
LLaMA-Omni 低延迟高质量语音交互,开源!
随着GPT-4o的发布,在语音界面的Voice-Chat越来越受到大家的关注,对于低延迟,高准确性模型的speech-to-speech的需求日益增长
|
4月前
|
达摩院 语音技术 异构计算
语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg
语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg
|
5月前
|
人工智能 自然语言处理 语音技术
GigaSpeech 2:三万小时东南亚多语种语音识别开源数据集发布
GigaSpeech 2 是一个持续扩展的、多领域多语言的大规模语音识别语料库,旨在促进低资源语言语音识别领域的发展和研究。
|
6月前
|
PyTorch 测试技术 TensorFlow
Modelscope-FunASR是一个开源的语音识别框架
【2月更文挑战第9天】Modelscope-FunASR是一个开源的语音识别框架
719 2
|
机器学习/深度学习 算法 决策智能
【重磅开源】Facebook开源 Nevergrad:一种用于无梯度优化的开源工具
【重磅开源】Facebook开源 Nevergrad:一种用于无梯度优化的开源工具
203 0
|
达摩院 自然语言处理 测试技术
开源|业界首个应用落地的非自回归端到端语音识别模型,推理效率可提升10倍
近期,阿里巴巴达摩院发布新一代语音识别模型Paraformer,这是业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升10倍,且识别准确率在多个权威数据集上名列第一。 目前,该模型于魔搭社区面向全社会开源,适用语音输入法、智能客服、车载导航、会议纪要等众多场景。
712 0
|
达摩院 自然语言处理 测试技术
直接开源!达摩院公布下一代工业级语音识别模型
直接开源!达摩院公布下一代工业级语音识别模型
733 0
|
缓存 数据可视化 测试技术
开源多年后,Facebook这个调试工具,再登Github热门榜
让许多工程师合作开发大型应用大多会面临一个挑战,通常没有一个人知道每个模块是如何工作的,这种技能会让开发新功能、调查Bug或优化性能变得困难,为了解决这个问题,Facebook创建并开源了Flipper,一个可扩展的跨平台的调试工具,用来调试 iOS 和 Android 应用。近日又双叒登上了Github热榜。
|
前端开发 JavaScript 测试技术
Facebook 开源可扩展文本编辑器 Lexical
Meta(原 Facebook)近日开源可扩展文本编辑器 Lexical,源代码托管在 GitHub 上采用 MIT 许可证。
546 0
Facebook 开源可扩展文本编辑器 Lexical
|
机器学习/深度学习 人工智能 自然语言处理
无监督学习站起来了!Facebook第三代语音识别wav2vec-U,匹敌监督模型,Lecun看了都说好
Facebook在语音识别上又出重磅新作,继wav2vec, wav2vec 2.0以来,又出完全不需要监督数据的wav2vec-U,小众语言也能用语音识别啦!
579 0
无监督学习站起来了!Facebook第三代语音识别wav2vec-U,匹敌监督模型,Lecun看了都说好