干货|语音识别框架最新进展——深度全序列卷积神经网络登场

简介:

导读:目前最好的语音识别系统采用双向长短时记忆网络(LSTM,LongShort Term Memory),但是,这一系统存在训练复杂度高、解码时延高的问题,尤其在工业界的实时识别系统中很难应用。科大讯飞在今年提出了一种全新的语音识别框架——深度全序列卷积神经网络(DFCNN,Deep Fully Convolutional NeuralNetwork),更适合工业应用。本文是对科大讯飞使用DFCNN应用于语音转写技术的详细解读,其外还包含了语音转写中口语化和篇章级语言模型处理、噪声和远场识别和文本处理实时纠错以及文字后处理等技术的分析。

干货|语音识别框架最新进展——深度全序列卷积神经网络登场

人工智能的应用中,语音识别在今年来取得显著进步,不管是英文、中文或者其他语种,机器的语音识别准确率在不断上升。其中,语音听写技术的发展最为迅速,目前已广泛在语音输入、语音搜索、语音助手等产品中得到应用并日臻成熟。但是,语音应用的另一层面,即语音转写,目前仍存在一定的难点,由于在产生录音文件的过程中使用者并没有预计到该录音会被用于语音识别,因而与语音听写相比,语音转写将面临说话风格、口音、录音质量等诸多挑战。

语音转写的典型场景包括,记者采访、电视节目、课堂及交谈式会议等等,甚至包括任何人在日常的工作生活中产生的任何录音文件。 语音转写的市场及想象空间是巨大的,想象一下,如果人类可以征服语音转写,电视节目可以自动生动字幕、正式会议可以自动形成记要、记者采访的录音可以自动成稿……人的一生中说的话要比我们写过的字多的多,如果有一个软件能记录我们所说过的所有的话并进行高效的管理,这个世界将会多么的让人难以置信。

基于DFCNN的声学建模技术

语音识别的声学建模主要用于建模语音信号与音素之间的关系,科大讯飞继去年12月21日提出前馈型序列记忆网络(FSMN, Feed-forward Sequential Memory Network)作为声学建模框架后,今年再次推出全新的语音识别框架,即深度全序列卷积神经网络(DFCNN,Deep Fully Convolutional NeuralNetwork)

目前最好的语音识别系统采用双向长短时记忆网络(LSTM,LongShort Term Memory),这种网络能够对语音的长时相关性进行建模,从而提高识别正确率。但是双向LSTM网络存在训练复杂度高、解码时延高的问题,尤其在工业界的实时识别系统中很难应用。因而科大讯飞使用深度全序列卷积神经网络来克服双向LSTM的缺陷。

CNN早在2012年就被用于语音识别系统,但始终没有大的突破。主要的原因是其使用固定长度的帧拼接作为输入,无法看到足够长的语音上下文信息;另外一个缺陷将CNN视作一种特征提取器,因此所用的卷积层数很少,表达能力有限。

针对这些问题,DFCNN使用大量的卷积层直接对整句语音信号进行建模。首先,在输入端DFCNN直接将语谱图作为输入,相比其他以传统语音特征作为输入的语音识别框架相比具有天然的优势。其次,在模型结构上,借鉴了图像识别的网络配置,每个卷积层使用小卷积核,并在多个卷积层之后再加上池化层,通过累积非常多的卷积池化层对,从而可以看到非常长的历史和未来信息。这两点保证了DFCNN可以出色的表达语音的长时相关性,相比RNN网络结构在鲁棒性上更加出色,同时可以实现短延时的准在线解码,从而可用于工业系统中。

干货|语音识别框架最新进展——深度全序列卷积神经网络登场

(DFCNN 结构图)

口语化和篇章级语言模型处理技术

语音识别的语言模型主要用于建模音素与字词之间的对应关系。由于人类的口语为无组织性的自然语言,人们在自由对话时,通常会出现犹豫、回读、语气词等复杂的语言现象,而以文字形式存在的语料通常为书面语,这两种之间的鸿沟使得针对口语语言的语言模型建模面临极大的挑战。

科大讯飞借鉴了语音识别处理噪声问题采用加噪训练的思想,即在书面语的基础上自动引入回读、倒装、语气词等口语“噪声”现象,从而可自动生成海量口语语料,解决口语和书面语之间的不匹配问题。首先,收集部分口语文本和书面文本语料对;其次,使用基于Encoder-Decoder的神经网络框架建模书面语文本与口语文本之间的对应关系,从而实现了口语文本的自动生成。

另外,上下文信息可以较大程度帮助人类对语言的理解,对于机器转录也是同样的道理。因而,科大讯飞在去年12月21提出了篇章级语言模型的方案,该方案根据语音识别的解码结果自动进行关键信息抽取,实时进行语料搜索和后处理,用解码结果和搜索到的语料形成特定语音相关的语言模型,从而进一步提高语音转写的准确率。

干货|语音识别框架最新进展——深度全序列卷积神经网络登场

(篇章级语言模型流程图)

噪声和远场识别技术

语音识别的应用远场拾音和噪声干扰一直是两大技术难题。例如在会议的场景下,如果使用录音笔进行录音,离录音笔较远说话人的语音即为远场带混响语音,由于混响会使得不同步的语音相互叠加,带来了音素的交叠掩蔽效应,从而严重影响语音识别效果;同样,如果录音环境中存在背景噪声,语音频谱会被污染,其识别效果也会急剧下降。科大讯飞针对该问题使用了单麦克及配合麦克风阵列两种硬件环境下的降噪、解混响技术,使得远场、噪声情况下的语音转写也达到了实用门槛。

  • 单麦克降噪、解混响

对采集到的有损失语音,使用混合训练和基于深度回归神经网络降噪解混响结合的方法。即一方面对干净的语音进行加噪,并与干净语音一起进行混合训练,从而提高模型对于带噪语音的鲁棒性(编者注:Robust的音译,即健壮和强壮之意);另一方面,使用基于深度回归神经网络进行降噪和解混响,进一步提高带噪、远场语音的识别正确率。

干货|语音识别框架最新进展——深度全序列卷积神经网络登场

  • 麦克风阵列降噪、解混响

仅仅考虑在语音处理过程中的噪音可以说是治标不治本,如何从源头上解决混响和降噪似乎才是问题的关键。面对这一难题,科大讯飞研发人员通过在录音设备上加上多麦克阵列,利用多麦克阵列进行降噪与解混响。具体地,使用多个麦克风采集多路时频信号,利用卷积神经网络学习波束形成,从而在目标信号的方向形成一个拾音波束,并衰减来自其他方向的反射声。该方法与上述单麦克降噪和解混响的结合,可以进一步显著的提高带噪、远场语音的识别正确率。

干货|语音识别框架最新进展——深度全序列卷积神经网络登场

文本处理实时纠错+文字后处理

前面所说的都只是对于语音的处理技术,即将录音转录成文字,但正如上文所述人类的口语为无组织性的自然语言,即使在语音转写正确率非常高的情况下,语音转写文本的可阅读性仍存在较大的问题,所以文本后处理的重要性就体现了出来。所谓文本后处理即对口语化的文本进行分句、分段,并对文本内容的流利性进行处理,甚至进行内容的摘要,以利于更好的阅读与编辑。

  • 后处理Ⅰ:分句与分段

分句,即对转写文本按语义进行子句划分,并在子句之间加注标点;分段,即将一篇文本切分成若干个语义段落,每个段落描述的子主题各不相同。

通过提取上下文相关的语义特征,同时结合语音特征,来进行子句与段落的划分;考虑到有标注的语音数据较难获得,在实际运用中科大讯飞利用两级级联双向长短时记忆网络建模技术,从而较好的解决了分句与分段问题。

  • 后处理Ⅱ:内容顺滑

内容顺滑,又称为不流畅检测,即剔除转写结果中的停顿词、语气词、重复词,使顺滑后的文本更易于阅读。

科大讯飞通过使用泛化特征并结合双向长短时记忆网络建模技术,使得内容顺滑的准确率达到了实用阶段。


本文作者:陈杨英杰


本文转自雷锋网禁止二次转载,原文链接

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4天前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
17 3
|
2天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
9 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
3天前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习中的卷积神经网络(CNN)及其应用
【10月更文挑战第21天】本文旨在深入探讨深度学习领域的核心组成部分——卷积神经网络(CNN)。通过分析CNN的基本结构、工作原理以及在图像识别、语音处理等领域的广泛应用,我们不仅能够理解其背后的技术原理,还能把握其在现实世界问题解决中的强大能力。文章将用浅显的语言和生动的例子带领读者一步步走进CNN的世界,揭示这一技术如何改变我们的生活和工作方式。
|
10天前
|
机器学习/深度学习 人工智能 监控
深入理解深度学习中的卷积神经网络(CNN):从原理到实践
【10月更文挑战第14天】深入理解深度学习中的卷积神经网络(CNN):从原理到实践
36 1
|
13天前
|
机器学习/深度学习 算法 数据挖掘
基于GWO灰狼优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
本项目展示了基于分组卷积神经网络(GroupCNN)和灰狼优化(GWO)的时间序列回归预测算法。算法运行效果良好,无水印展示。使用Matlab2022a开发,提供完整代码及详细中文注释。GroupCNN通过分组卷积减少计算成本,GWO则优化超参数,提高预测性能。项目包含操作步骤视频,方便用户快速上手。
|
14天前
|
机器学习/深度学习 人工智能 算法
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
玉米病害识别系统,本系统使用Python作为主要开发语言,通过收集了8种常见的玉米叶部病害图片数据集('矮花叶病', '健康', '灰斑病一般', '灰斑病严重', '锈病一般', '锈病严重', '叶斑病一般', '叶斑病严重'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。再使用Django搭建Web网页操作平台,实现用户上传一张玉米病害图片识别其名称。
35 0
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
|
6天前
|
机器学习/深度学习 人工智能 自动驾驶
深入理解深度学习中的卷积神经网络(CNN)
【10月更文挑战第18天】深入理解深度学习中的卷积神经网络(CNN)
16 0
|
8天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于贝叶斯优化卷积神经网络(Bayes-CNN)的多因子数据分类识别算法matlab仿真
本项目展示了贝叶斯优化在CNN中的应用,包括优化过程、训练与识别效果对比,以及标准CNN的识别结果。使用Matlab2022a开发,提供完整代码及视频教程。贝叶斯优化通过构建代理模型指导超参数优化,显著提升模型性能,适用于复杂数据分类任务。
|
11天前
|
机器学习/深度学习 编解码 算法
【深度学习】经典的深度学习模型-01 开山之作:CNN卷积神经网络LeNet-5
【深度学习】经典的深度学习模型-01 开山之作:CNN卷积神经网络LeNet-5
19 0
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解深度学习中的卷积神经网络(CNN)
【10月更文挑战第10天】深入理解深度学习中的卷积神经网络(CNN)
83 0

热门文章

最新文章