基于MFCC特征提取和神经网络的语音信号识别算法matlab仿真

简介: 基于MFCC特征提取和神经网络的语音信号识别算法matlab仿真

1.算法仿真效果
matlab2022a仿真结果如下:

4b0a0b4b06cec99a0d47157c46b6a595_watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=.png
dc4b06416c973c39acd64869092f8d07_watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=.png
4fb5304e63dfdf2f952db95ef888fbb0_watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=.png
c19ce79805db0fa09fef0dca34ae3c09_watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=.png

2.算法涉及理论知识概要
在语音识别(Speech Recognition)和话者识别(Speaker Recognition)方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)。根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以,人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,这种参数比基于声道模型的LPCC相比具有更好的鲁邦性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:

2c0d699268144b0f602ee33e270350f0_watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=.png

    美尔尺度是建立从人类的听觉感知的频率——Pitch到声音实际频率直接的映射。人耳对于低频声音的分辨率要高于高频的声音。通过把频率转换成美尔尺度,我们的特征能够更好的匹配人类的听觉感知效果。从频率到美尔频率的转换公式如下:

M(f)=1125ln(1+f/700)M(f)=1125ln(1+f/700)M(f)=1125ln(1+f/700)M(f)=1125ln(1+f/700)

而从美尔频率到频率的转换公式为:

M−1(m)=700(em/1125−1)M−1(m)=700(em/1125−1)M−1(m)=700(em/1125−1)M−1(m)=700(em/1125−1)

流程图:
63b7c850b56d8a76ff7737a4eb97b046_watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=.png

预处理包括预加重、分帧、加窗。
(1)预加重
预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。预加重处理其实是将语音信号通过一个高通滤波器。

(2)分帧
由于语音信号的非平稳特性 和 短时平稳特性,将语音信号分分帧。一帧有N个采样点,如N的值为256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,平缓过度,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms。
(3)加窗
为了缓解频谱泄漏。将每一帧乘以一个窗函数,如汉明窗,海宁窗。假设分帧后的信号为S(n), n=0,1…,N-1, N为帧的大小。

  语音信号的倒谱分析就是求信号倒谱特征参数的过程,可以通过同态处理来处理。同态处理实现了卷积关系变化为求和关系的分离操作。 

3.MATLAB核心程序
.......................................
```%Input File
FileName = ['data\man1.mp3';'data\man2.mp3';'data\man3.mp3'];
file_length = size(FileName);
.....................................................................

while(temp_var <= L)
    for i = 1:1:Fsample;
        if (i+(temp_var2-1)*Fstep) <= L
           y1_frame(i,temp_var2) = y1((temp_var2-1)*Fstep+i,1);
        end
        temp_var = (i+(temp_var2-1)*Fstep);
    end
    temp_var2 = temp_var2+1;
end
l1 = length(y1_frame);
clear temp_var temp_var2 ;
%FFT
Nfft = 2^nextpow2(Fsample);
Y    = fft(y1_frame,Nfft)/(Fsample/2);
f    = (Fs/2)*linspace(0,1,Nfft/2 + 1);
Y_periodogram = (Y.*conj(Y))/Nfft;

%Mel-spaced Filter Banks
m1   = 1125*log(1 + 300/700);
m2   = 1125*log(1 + Fs/(2*700));
m    = linspace(m1,m2,28);
f1   = 700*(exp(m/1125) - 1);
b    = floor((Nfft+1)*f1/Fs);
clear m1 m2 f1
max_len = max(b);

%Filter Bank Design
clear H m
m    = 2;
for m =2:1:length(b)-1
    k = 1;
    while(k <= max(b))
        if(k <= b(m) && k >= b(m-1))
            H(k,m-1) = (k-b(m-1))/(b(m)-b(m-1));
        else if(k <= b(m+1) && k >= b(m))
            H(k,m-1) = (b(m+1)-k)/(b(m+1)-b(m));
        else 
            H(k,m-1) = 0;
            end
        end
        k = k+1;
    end
end
clear m k b
%Filter Bank Energies
e_pf         = transpose(H)*(Y_periodogram((1:max_len),:));
%Cepstral Coefficient Calculation
log_coeff    = log(e_pf);
cepstr_coeff = dct(log_coeff);
cepstr_coeff = cepstr_coeff(1:12,:);
for i = 1:l1
    train_input(:,(j-1)*l1+i) = cepstr_coeff(:,i);
    train_target(j,(j-1)*l1+i)= 1;
end

end
clear file_length

count = 0;
figure;
while(count < 10)
hidden_layer_size = 32;
net = patternnet(hidden_layer_size);
net.divideParam.trainRatio = 0.75;
net.divideParam.valRatio = 0.1;
net.divideParam.testRatio = 0.1;
[net,tr] = train(net,train_input,train_target);
plotperform(tr)
count = count + 1 ;
end
view(net)

save nets.mat net tr
```

相关文章
|
8天前
|
算法
基于GA遗传优化的TSP问题最优路线规划matlab仿真
本项目使用遗传算法(GA)解决旅行商问题(TSP),目标是在访问一系列城市后返回起点的最短路径。TSP属于NP-难问题,启发式方法尤其GA在此类问题上表现出色。项目在MATLAB 2022a中实现,通过编码、初始化种群、适应度评估、选择、交叉与变异等步骤,最终展示适应度收敛曲线及最优路径。
|
2天前
|
算法 5G 数据安全/隐私保护
3D-MIMO信道模型的MATLAB模拟与仿真
该研究利用MATLAB 2022a进行了3D-MIMO技术的仿真,结果显示了不同场景下的LOS概率曲线。3D-MIMO作为5G关键技术之一,通过三维天线阵列增强了系统容量和覆盖范围。其信道模型涵盖UMa、UMi、RMa等场景,并分析了LOS/NLOS传播条件下的路径损耗、多径效应及空间相关性。仿真代码展示了三种典型场景下的LOS概率分布。
11 1
|
2天前
|
机器学习/深度学习 算法
基于小波神经网络的数据分类算法matlab仿真
该程序基于小波神经网络实现数据分类,输入为5个特征值,输出为“是”或“否”。使用MATLAB 2022a版本,50组数据训练,30组数据验证。通过小波函数捕捉数据局部特征,提高分类性能。训练误差和识别结果通过图表展示。
|
2天前
|
机器学习/深度学习 算法 数据挖掘
基于GWO灰狼优化的CNN-LSTM的时间序列回归预测matlab仿真
本项目展示了一种结合灰狼优化(GWO)与深度学习模型(CNN和LSTM)的时间序列预测方法。GWO算法高效优化模型超参数,提升预测精度。CNN提取局部特征,LSTM处理长序列依赖,共同实现准确的未来数值预测。项目包括MATLAB 2022a环境下运行的完整代码及视频教程,代码内含详细中文注释,便于理解和操作。
|
1月前
|
安全
【2023高教社杯】D题 圈养湖羊的空间利用率 问题分析、数学模型及MATLAB代码
本文介绍了2023年高教社杯数学建模竞赛D题的圈养湖羊空间利用率问题,包括问题分析、数学模型建立和MATLAB代码实现,旨在优化养殖场的生产计划和空间利用效率。
103 6
【2023高教社杯】D题 圈养湖羊的空间利用率 问题分析、数学模型及MATLAB代码
|
1月前
|
存储 算法 搜索推荐
【2022年华为杯数学建模】B题 方形件组批优化问题 方案及MATLAB代码实现
本文提供了2022年华为杯数学建模竞赛B题的详细方案和MATLAB代码实现,包括方形件组批优化问题和排样优化问题,以及相关数学模型的建立和求解方法。
74 3
【2022年华为杯数学建模】B题 方形件组批优化问题 方案及MATLAB代码实现
|
1月前
|
数据采集 存储 移动开发
【2023五一杯数学建模】 B题 快递需求分析问题 建模方案及MATLAB实现代码
本文介绍了2023年五一杯数学建模竞赛B题的解题方法,详细阐述了如何通过数学建模和MATLAB编程来分析快递需求、预测运输数量、优化运输成本,并估计固定和非固定需求,提供了完整的建模方案和代码实现。
59 0
【2023五一杯数学建模】 B题 快递需求分析问题 建模方案及MATLAB实现代码
|
4月前
|
数据安全/隐私保护
耐震时程曲线,matlab代码,自定义反应谱与地震波,优化源代码,地震波耐震时程曲线
地震波格式转换、时程转换、峰值调整、规范反应谱、计算反应谱、计算持时、生成人工波、时频域转换、数据滤波、基线校正、Arias截波、傅里叶变换、耐震时程曲线、脉冲波合成与提取、三联反应谱、地震动参数、延性反应谱、地震波缩尺、功率谱密度
基于混合整数规划的微网储能电池容量规划(matlab代码)
基于混合整数规划的微网储能电池容量规划(matlab代码)
|
4月前
|
算法 调度
含多微网租赁共享储能的配电网博弈优化调度(含matlab代码)
含多微网租赁共享储能的配电网博弈优化调度(含matlab代码)