Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png

1.项目背景

语音识别发展到现在作为人机交互的重要接口已经在很多方面改变了我们的生活,从智能家居的语音控制系统到车载语音识别系统,语音识别给我们带来了很多方便。在大数据、云计算等概念被提出并商用后,语音识别领域经过数十年的研究,尽管有过很多非常成功的商用产品,但是语音识别系统在实际应用中的性能和人类听觉能力相比还有着很大的差距。正是这些差距和市场对高效语音识别系统的需求,吸引了很多研宄者在这一领域的研究深耕细作,其中有很多取得了可喜的成果。

语音识别是理想的人机交互的中介工具,是推动机器向更智能化发展的重要技术。但由于传统语音识别存在一定的理论假设,语音识别的应用场景逐渐趋于复杂化,导致好多语音识别系统的性能的提高都遇到一定的瓶颈,针对语音识别的技术障碍需要引入一些新的理论新的方法去解决;深度学习是当前对大数据做特征提取、分类识别的重要理论,对语音识别系统性能的提升有重要意义。 

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下

编号 

变量名称

描述

0

slice_file_name

 

1

fsID

 

2

start

 

3

end

 

4

salience

 

5

fold

 

6

classID

 

7

class

 

数据详情如下(部分展示):

image.png

image.png

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的shape属性、head()方法查看前五行数据:

image.png

从上图可以看到,总共有8个数据项,8732个音频文件。

关键代码:

image.png

3.2查看音频类型

使用Pandas工具的groupby()方法查看音频的类型:

image.png

从上图可以看到,总共有10种类型。

关键代码:

image.png

4.探索性数据分析

4.1波形可视化

librosa工具的load()方法加载音频文件,通过waveplot()方法进行绘制波形图:以1.wav音频为例。

image.png

4.2 图谱可视化

librosa工具的load()方法加载音频文件,通过specshow()colorbar()方法进行绘制图谱:以1.wav音频为例。

image.png

5.特征工程

5.1 提取音频特征,并准备建模数据

X(提取的音频信号值)为特征数据,y(音频类型)为标签数据。关键代码如下:

image.png

5.2数据集拆分

数据集拆分,分为训练集验证集和测试集。首先把所有数据集拆分为90%训练集和10%测试集;然后接着把90%的训练集再拆分为80%训练集和20%验证集。关键代码如下:

image.png

image.png

可以看到,训练集样本数为6286条数据、验证集为1572条数据、测试集有874条数据。

6.构建神经网络分类模型

主要使用ANN算法,用于目标分类。 

6.1模型参数

编号

模型名称

参数

1

ANN分类模型

activation='relu'

2

activation='softmax'

3

loss='categorical_crossentropy'

4

optimizer='adam'

5

metrics=['accuracy']

关键代码如下:

image.png

6.2模型结果输出

image.png

从上图可以看到,此模型共有1411160个参数。

7.模型评估

7.1评估指标及结果 

评估指标主要包括准确率、F1分值等等。

模型名称

指标名称

指标值

测试集

ANN分类模型

准确率

89%

F1分值

88%

从上表可以看出,准确率为89%  F1分值为88%,ANN分类模型良好,效果不错。

7.2 损失曲线图

image.png

通过结果可以看到,训练集和验证集损失基本逐步下降,大概在16次之后 验证集损失开始上升,所以本次拟合16次基本就达到验证集的最低损失。

关键代码:

image.png

7.3 准确率曲线图

image.png

从上图可以看到训练集和验证集准确率逐步上升,验证集准确率达到89%。

7.4 混淆矩阵

ANN分类模型混淆矩阵:

image.png

从上图可以看到,第一种音频类型预测准确的个数为97个,第二种音频类型预测准确的个数为37个,第三种音频类型预测准确的个数为66个等等。

7.5 分类报告

ANN分类模型分类报告:

image.png

从上图可以看到,分类类型为0的F1分值为0.95;分类类型为1的F1分值为0.89;分类类型为2的F1分值为0.78;整个模型的准确率为89%.

7.6 模型预测

预测104327-2-0-26.wav这个音频的类型,关键代码如下:

image.png

预测结果如下:

image.png

真实值为:

image.png

通过对比可以发现,此次预测正确。

8.结论与展望

深度学习作为人工智能最热的研究,正被广泛用于语音、图像、文本的识别并取得了惊人的效果;语音识别作为未来人机接口的主要接口,直接影响着智能系统的用户体验。将两种技术有机结合,一方面语音识别系统收集的大量训练数据有助于训练鲁棒性更强、泛化能力更强的深度网络,另一方面更好更强的深度网络更能有效语音识别系统的识别精度,降低语音识别系统受噪音的影响。

综上所述,本文采用了ANN人工神经网络分类模型,最终证明了我们提出的模型效果良好。准确率达到了89%,可用于日常生活中进行建模预测,以提高价值。

# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/1Mc2zdbZKjVX2O5YkowWnwQ 
提取码:rabj
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
17天前
|
机器学习/深度学习 人工智能 算法
【眼疾病识别】图像识别+深度学习技术+人工智能+卷积神经网络算法+计算机课设+Python+TensorFlow
眼疾识别系统,使用Python作为主要编程语言进行开发,基于深度学习等技术使用TensorFlow搭建ResNet50卷积神经网络算法,通过对眼疾图片4种数据集进行训练('白内障', '糖尿病性视网膜病变', '青光眼', '正常'),最终得到一个识别精确度较高的模型。然后使用Django框架开发Web网页端可视化操作界面,实现用户上传一张眼疾图片识别其名称。
52 9
【眼疾病识别】图像识别+深度学习技术+人工智能+卷积神经网络算法+计算机课设+Python+TensorFlow
|
11天前
|
机器学习/深度学习 数据采集 算法
【优秀python算法毕设】基于python时间序列模型分析气温变化趋势的设计与实现
本文介绍了一个基于Python的时间序列模型,用于分析和预测2021-2022年重庆地区的气温变化趋势,通过ARIMA和LSTM模型的应用,揭示了气温的季节性和趋势性变化,并提供了对未来气温变化的预测,有助于气象预报和相关决策制定。
【优秀python算法毕设】基于python时间序列模型分析气温变化趋势的设计与实现
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】探讨最新的深度学习算法、模型创新以及在图像识别、自然语言处理等领域的应用进展
深度学习作为人工智能领域的重要分支,近年来在算法、模型以及应用领域都取得了显著的进展。以下将探讨最新的深度学习算法与模型创新,以及它们在图像识别、自然语言处理(NLP)等领域的应用进展。
12 6
|
1天前
|
算法 语音技术
支付宝商业化广告算法问题之在ODL模型优化过程中,采取什么策略来提高模型的泛化能力呢
支付宝商业化广告算法问题之在ODL模型优化过程中,采取什么策略来提高模型的泛化能力呢
|
1天前
|
机器学习/深度学习 人工智能 算法
【人工智能】线性回归模型:数据结构、算法详解与人工智能应用,附代码实现
线性回归是一种预测性建模技术,它研究的是因变量(目标)和自变量(特征)之间的关系。这种关系可以表示为一个线性方程,其中因变量是自变量的线性组合。
8 2
|
10天前
|
机器学习/深度学习 算法 文件存储
【博士每天一篇文献-算法】 PNN网络启发的神经网络结构搜索算法Progressive neural architecture search
本文提出了一种名为渐进式神经架构搜索(Progressive Neural Architecture Search, PNAS)的方法,它使用顺序模型优化策略和替代模型来逐步搜索并优化卷积神经网络结构,从而提高了搜索效率并减少了训练成本。
20 9
|
4天前
|
自然语言处理 算法
HanLP — HMM隐马尔可夫模型 - 路径规划算法 - 求解最短路径 - 维特比(Viterbi)算法
HanLP — HMM隐马尔可夫模型 - 路径规划算法 - 求解最短路径 - 维特比(Viterbi)算法
11 0
HanLP — HMM隐马尔可夫模型 - 路径规划算法 - 求解最短路径 - 维特比(Viterbi)算法
|
13天前
|
机器学习/深度学习 算法 数据挖掘
|
17天前
|
机器学习/深度学习 算法
【Deepin 20系统】机器学习分类算法模型xgboost、lightgbm、catboost安装及使用
介绍了在Deepin 20系统上使用pip命令通过清华大学镜像源安装xgboost、lightgbm和catboost三个机器学习分类算法库的过程。
14 4
|
1天前
|
机器学习/深度学习 算法 搜索推荐
支付宝商业化广告算法问题之在DNN模型中,特征的重要性如何评估
支付宝商业化广告算法问题之在DNN模型中,特征的重要性如何评估

热门文章

最新文章