Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战

简介: Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png

1.项目背景

语音识别发展到现在作为人机交互的重要接口已经在很多方面改变了我们的生活,从智能家居的语音控制系统到车载语音识别系统,语音识别给我们带来了很多方便。在大数据、云计算等概念被提出并商用后,语音识别领域经过数十年的研究,尽管有过很多非常成功的商用产品,但是语音识别系统在实际应用中的性能和人类听觉能力相比还有着很大的差距。正是这些差距和市场对高效语音识别系统的需求,吸引了很多研宄者在这一领域的研究深耕细作,其中有很多取得了可喜的成果。

语音识别是理想的人机交互的中介工具,是推动机器向更智能化发展的重要技术。但由于传统语音识别存在一定的理论假设,语音识别的应用场景逐渐趋于复杂化,导致好多语音识别系统的性能的提高都遇到一定的瓶颈,针对语音识别的技术障碍需要引入一些新的理论新的方法去解决;深度学习是当前对大数据做特征提取、分类识别的重要理论,对语音识别系统性能的提升有重要意义。 

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下

编号 

变量名称

描述

0

slice_file_name

 

1

fsID

 

2

start

 

3

end

 

4

salience

 

5

fold

 

6

classID

 

7

class

 

数据详情如下(部分展示):

image.png

image.png

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的shape属性、head()方法查看前五行数据:

image.png

从上图可以看到,总共有8个数据项,8732个音频文件。

关键代码:

image.png

3.2查看音频类型

使用Pandas工具的groupby()方法查看音频的类型:

image.png

从上图可以看到,总共有10种类型。

关键代码:

image.png

4.探索性数据分析

4.1波形可视化

librosa工具的load()方法加载音频文件,通过waveplot()方法进行绘制波形图:以1.wav音频为例。

image.png

4.2 图谱可视化

librosa工具的load()方法加载音频文件,通过specshow()colorbar()方法进行绘制图谱:以1.wav音频为例。

image.png

5.特征工程

5.1 提取音频特征,并准备建模数据

X(提取的音频信号值)为特征数据,y(音频类型)为标签数据。关键代码如下:

image.png

5.2数据集拆分

数据集拆分,分为训练集验证集和测试集。首先把所有数据集拆分为90%训练集和10%测试集;然后接着把90%的训练集再拆分为80%训练集和20%验证集。关键代码如下:

image.png

image.png

可以看到,训练集样本数为6286条数据、验证集为1572条数据、测试集有874条数据。

6.构建神经网络分类模型

主要使用ANN算法,用于目标分类。 

6.1模型参数

编号

模型名称

参数

1

ANN分类模型

activation='relu'

2

activation='softmax'

3

loss='categorical_crossentropy'

4

optimizer='adam'

5

metrics=['accuracy']

关键代码如下:

image.png

6.2模型结果输出

image.png

从上图可以看到,此模型共有1411160个参数。

7.模型评估

7.1评估指标及结果 

评估指标主要包括准确率、F1分值等等。

模型名称

指标名称

指标值

测试集

ANN分类模型

准确率

89%

F1分值

88%

从上表可以看出,准确率为89%  F1分值为88%,ANN分类模型良好,效果不错。

7.2 损失曲线图

image.png

通过结果可以看到,训练集和验证集损失基本逐步下降,大概在16次之后 验证集损失开始上升,所以本次拟合16次基本就达到验证集的最低损失。

关键代码:

image.png

7.3 准确率曲线图

image.png

从上图可以看到训练集和验证集准确率逐步上升,验证集准确率达到89%。

7.4 混淆矩阵

ANN分类模型混淆矩阵:

image.png

从上图可以看到,第一种音频类型预测准确的个数为97个,第二种音频类型预测准确的个数为37个,第三种音频类型预测准确的个数为66个等等。

7.5 分类报告

ANN分类模型分类报告:

image.png

从上图可以看到,分类类型为0的F1分值为0.95;分类类型为1的F1分值为0.89;分类类型为2的F1分值为0.78;整个模型的准确率为89%.

7.6 模型预测

预测104327-2-0-26.wav这个音频的类型,关键代码如下:

image.png

预测结果如下:

image.png

真实值为:

image.png

通过对比可以发现,此次预测正确。

8.结论与展望

深度学习作为人工智能最热的研究,正被广泛用于语音、图像、文本的识别并取得了惊人的效果;语音识别作为未来人机接口的主要接口,直接影响着智能系统的用户体验。将两种技术有机结合,一方面语音识别系统收集的大量训练数据有助于训练鲁棒性更强、泛化能力更强的深度网络,另一方面更好更强的深度网络更能有效语音识别系统的识别精度,降低语音识别系统受噪音的影响。

综上所述,本文采用了ANN人工神经网络分类模型,最终证明了我们提出的模型效果良好。准确率达到了89%,可用于日常生活中进行建模预测,以提高价值。

# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/1Mc2zdbZKjVX2O5YkowWnwQ 
提取码:rabj
相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
4月前
|
算法 搜索推荐 JavaScript
基于python智能推荐算法的全屋定制系统
本研究聚焦基于智能推荐算法的全屋定制平台网站设计,旨在解决消费者在个性化定制中面临的选择难题。通过整合Django、Vue、Python与MySQL等技术,构建集家装设计、材料推荐、家具搭配于一体的一站式智能服务平台,提升用户体验与行业数字化水平。
|
5月前
|
存储 算法 调度
【复现】【遗传算法】考虑储能和可再生能源消纳责任制的售电公司购售电策略(Python代码实现)
【复现】【遗传算法】考虑储能和可再生能源消纳责任制的售电公司购售电策略(Python代码实现)
282 26
|
4月前
|
存储 监控 算法
监控电脑屏幕的帧数据检索 Python 语言算法
针对监控电脑屏幕场景,本文提出基于哈希表的帧数据高效检索方案。利用时间戳作键,实现O(1)级查询与去重,结合链式地址法支持多条件检索,并通过Python实现插入、查询、删除操作。测试表明,相较传统列表,检索速度提升80%以上,存储减少15%,具备高实时性与可扩展性,适用于大规模屏幕监控系统。
181 5
|
5月前
|
机器学习/深度学习 算法 机器人
【机器人路径规划】基于D*算法的机器人路径规划(Python代码实现)
【机器人路径规划】基于D*算法的机器人路径规划(Python代码实现)
308 0
|
5月前
|
机器学习/深度学习 算法 机器人
【机器人路径规划】基于改进型A*算法的机器人路径规划(Python代码实现)
【机器人路径规划】基于改进型A*算法的机器人路径规划(Python代码实现)
434 0
|
5月前
|
数据采集 机器学习/深度学习 人工智能
Python:现代编程的首选语言
Python:现代编程的首选语言
562 102
|
5月前
|
数据采集 机器学习/深度学习 算法框架/工具
Python:现代编程的瑞士军刀
Python:现代编程的瑞士军刀
402 104
|
5月前
|
人工智能 自然语言处理 算法框架/工具
Python:现代编程的首选语言
Python:现代编程的首选语言
313 103
|
5月前
|
机器学习/深度学习 人工智能 数据挖掘
Python:现代编程的首选语言
Python:现代编程的首选语言
253 82
|
4月前
|
Python
Python编程:运算符详解
本文全面详解Python各类运算符,涵盖算术、比较、逻辑、赋值、位、身份、成员运算符及优先级规则,结合实例代码与运行结果,助你深入掌握Python运算符的使用方法与应用场景。
353 3

热门文章

最新文章

推荐镜像

更多