Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png

1.项目背景

语音识别发展到现在作为人机交互的重要接口已经在很多方面改变了我们的生活,从智能家居的语音控制系统到车载语音识别系统,语音识别给我们带来了很多方便。在大数据、云计算等概念被提出并商用后,语音识别领域经过数十年的研究,尽管有过很多非常成功的商用产品,但是语音识别系统在实际应用中的性能和人类听觉能力相比还有着很大的差距。正是这些差距和市场对高效语音识别系统的需求,吸引了很多研宄者在这一领域的研究深耕细作,其中有很多取得了可喜的成果。

语音识别是理想的人机交互的中介工具,是推动机器向更智能化发展的重要技术。但由于传统语音识别存在一定的理论假设,语音识别的应用场景逐渐趋于复杂化,导致好多语音识别系统的性能的提高都遇到一定的瓶颈,针对语音识别的技术障碍需要引入一些新的理论新的方法去解决;深度学习是当前对大数据做特征提取、分类识别的重要理论,对语音识别系统性能的提升有重要意义。 

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下

编号 

变量名称

描述

0

slice_file_name

 

1

fsID

 

2

start

 

3

end

 

4

salience

 

5

fold

 

6

classID

 

7

class

 

数据详情如下(部分展示):

image.png

image.png

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的shape属性、head()方法查看前五行数据:

image.png

从上图可以看到,总共有8个数据项,8732个音频文件。

关键代码:

image.png

3.2查看音频类型

使用Pandas工具的groupby()方法查看音频的类型:

image.png

从上图可以看到,总共有10种类型。

关键代码:

image.png

4.探索性数据分析

4.1波形可视化

librosa工具的load()方法加载音频文件,通过waveplot()方法进行绘制波形图:以1.wav音频为例。

image.png

4.2 图谱可视化

librosa工具的load()方法加载音频文件,通过specshow()colorbar()方法进行绘制图谱:以1.wav音频为例。

image.png

5.特征工程

5.1 提取音频特征,并准备建模数据

X(提取的音频信号值)为特征数据,y(音频类型)为标签数据。关键代码如下:

image.png

5.2数据集拆分

数据集拆分,分为训练集验证集和测试集。首先把所有数据集拆分为90%训练集和10%测试集;然后接着把90%的训练集再拆分为80%训练集和20%验证集。关键代码如下:

image.png

image.png

可以看到,训练集样本数为6286条数据、验证集为1572条数据、测试集有874条数据。

6.构建神经网络分类模型

主要使用ANN算法,用于目标分类。 

6.1模型参数

编号

模型名称

参数

1

ANN分类模型

activation='relu'

2

activation='softmax'

3

loss='categorical_crossentropy'

4

optimizer='adam'

5

metrics=['accuracy']

关键代码如下:

image.png

6.2模型结果输出

image.png

从上图可以看到,此模型共有1411160个参数。

7.模型评估

7.1评估指标及结果 

评估指标主要包括准确率、F1分值等等。

模型名称

指标名称

指标值

测试集

ANN分类模型

准确率

89%

F1分值

88%

从上表可以看出,准确率为89%  F1分值为88%,ANN分类模型良好,效果不错。

7.2 损失曲线图

image.png

通过结果可以看到,训练集和验证集损失基本逐步下降,大概在16次之后 验证集损失开始上升,所以本次拟合16次基本就达到验证集的最低损失。

关键代码:

image.png

7.3 准确率曲线图

image.png

从上图可以看到训练集和验证集准确率逐步上升,验证集准确率达到89%。

7.4 混淆矩阵

ANN分类模型混淆矩阵:

image.png

从上图可以看到,第一种音频类型预测准确的个数为97个,第二种音频类型预测准确的个数为37个,第三种音频类型预测准确的个数为66个等等。

7.5 分类报告

ANN分类模型分类报告:

image.png

从上图可以看到,分类类型为0的F1分值为0.95;分类类型为1的F1分值为0.89;分类类型为2的F1分值为0.78;整个模型的准确率为89%.

7.6 模型预测

预测104327-2-0-26.wav这个音频的类型,关键代码如下:

image.png

预测结果如下:

image.png

真实值为:

image.png

通过对比可以发现,此次预测正确。

8.结论与展望

深度学习作为人工智能最热的研究,正被广泛用于语音、图像、文本的识别并取得了惊人的效果;语音识别作为未来人机接口的主要接口,直接影响着智能系统的用户体验。将两种技术有机结合,一方面语音识别系统收集的大量训练数据有助于训练鲁棒性更强、泛化能力更强的深度网络,另一方面更好更强的深度网络更能有效语音识别系统的识别精度,降低语音识别系统受噪音的影响。

综上所述,本文采用了ANN人工神经网络分类模型,最终证明了我们提出的模型效果良好。准确率达到了89%,可用于日常生活中进行建模预测,以提高价值。

# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/1Mc2zdbZKjVX2O5YkowWnwQ 
提取码:rabj
相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
2月前
|
运维 监控 数据可视化
Python 网络请求架构——统一 SOCKS5 接入与配置管理
通过统一接入端点与标准化认证,集中管理配置、连接策略及监控,实现跨技术栈的一致性网络出口,提升系统稳定性、可维护性与可观测性。
|
3月前
|
传感器 机器学习/深度学习 算法
【UASNs、AUV】无人机自主水下传感网络中遗传算法的路径规划问题研究(Matlab代码实现)
【UASNs、AUV】无人机自主水下传感网络中遗传算法的路径规划问题研究(Matlab代码实现)
117 0
|
3月前
|
机器学习/深度学习 算法 调度
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
367 0
|
2月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
2月前
|
存储 机器学习/深度学习 监控
网络管理监控软件的 C# 区间树性能阈值查询算法
针对网络管理监控软件的高效区间查询需求,本文提出基于区间树的优化方案。传统线性遍历效率低,10万条数据查询超800ms,难以满足实时性要求。区间树以平衡二叉搜索树结构,结合节点最大值剪枝策略,将查询复杂度从O(N)降至O(logN+K),显著提升性能。通过C#实现,支持按指标类型分组建树、增量插入与多维度联合查询,在10万记录下查询耗时仅约2.8ms,内存占用降低35%。测试表明,该方案有效解决高负载场景下的响应延迟问题,助力管理员快速定位异常设备,提升运维效率与系统稳定性。
219 4
|
2月前
|
机器学习/深度学习 算法
采用蚁群算法对BP神经网络进行优化
使用蚁群算法来优化BP神经网络的权重和偏置,克服传统BP算法容易陷入局部极小值、收敛速度慢、对初始权重敏感等问题。
314 5
|
3月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
225 2
|
2月前
|
机器学习/深度学习 人工智能 算法
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
143 0
|
3月前
|
JavaScript Java 大数据
基于python的网络课程在线学习交流系统
本研究聚焦网络课程在线学习交流系统,从社会、技术、教育三方面探讨其发展背景与意义。系统借助Java、Spring Boot、MySQL、Vue等技术实现,融合云计算、大数据与人工智能,推动教育公平与教学模式创新,具有重要理论价值与实践意义。
|
3月前
|
机器学习/深度学习 并行计算 算法
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)

推荐镜像

更多