Chap 5. Audio Retrieval
音频是一种重要的媒体形式,无处不在,人类具有很强的区分音频的能力
传统的计算机处理音频采用文本标注的形式
逐渐产生了基于内容的音频检索技术,通过对音频的特征分析,对不同的音频数据自动赋予不同的语义,相同语义的音频数据在听觉上保持一定的相似度
基于内容的音频检索主要分成两部分
用户通过输入语义,检索出音频结果
通过音频索引得到其他媒体数据
音频数据的特点:
1.没有“关键帧”,短时平稳效应
2.适合采用“窗口”的处理方式,“短时帧”是音频处理的最小单位
3.直接比较查询片段和存储片段并不可行
4.将音频分到不同的类型,根据类型采用不同的方法处理和索引
▪ 声音的特点
▪ 声音是通过压缩空气激励声道滤波器产生,根据激励方式不同,发出的话音分成三种类型
▪ 浊音(voiced sounds)
浊音表现出在音节上有高度的周期性,其值在2 20 ms 之间,这个周期性称为长期周期性long term periodicity)
▪ 清音(unvoiced sounds)
清音是由不稳定气流激励所产生的
▪ 爆破音(plosive sounds)
爆破音是在声道关闭之后产生的压缩空气然后突然打开声道所发出的音
话音编码器就是利用语音的这些特点,进行压缩编码,减少数据率而又尽可能不牺牲声音的质量
数字音频是通过采样得到的对物理波形的离散表达
▪ 语音信号具有短时平稳性
▪ 10–30ms内可以认为语音信号近似不变
▪ 将语音信号分为一些短段来进行处理,即分帧
▪ 分帧采用有限长度的窗口进行加权的方法实现
▪ 窗口长度
▪ 选择的窗口应足够小,以检测语音的快速变化;同时也要足够大,以平滑局部的波动
窗口重叠
▪ 可以提高算法的鲁棒性,通常重叠率为50%(即窗口大小20ms,重叠10ms)
▪ 窗口函数
▪ 加窗后计算的主要是基于频率的特征
▪ 时域—过零率
▪ 频域—短时傅里叶变换
▪ 目前最常用的特征是MFCCs
▪ 梅尔频率倒谱系数:Mel-frequency Cepstral Coefficients
声音是一种纵波
▪ 时域表示法:将采样得到的音频信号表示成随时间变化的幅值
▪ 短时平均能量
▪ 在一个短时帧内采样信号所聚集的平均能量
▪ 可以通过窗函数为短时帧内不同的采样信号赋予权重
▪ 矩形窗、三角窗、汉明窗
▪ 常用于静音检测
过零率
▪ 音频信号在单位时间内穿过零点的次数
静音比
▪ 绝对幅值低于某个阈值的时间段定义为静音
▪ 统计静音在整个音频片段中所占的比例
▪ 静音比可用来区分一般音乐和独奏音乐
▪ 前者静音比较低,后者较高
频域表示法
频域特征的提取大多基于傅里叶变换
▪ 频谱中心(Frequency Center, FC)
▪ 频谱中心又被称作亮度,用来刻画音频所含频率中心点(考虑能量加权)的特征
▪ 带宽(Band Width,BW)
▪ 衡量音频频率范围的指标
▪ 非零声谱中最大频率与最小频率的差
▪ 可利用带宽特征对语音和音乐进行分类
▪ 谐音
▪ 音频信号中最低的频率成分称为基频(fundamental frequency),频率为基频倍数的频谱成分为谐音
▪ 音乐比其他声音具有更多的谐音
▪ 频率特征系数
▪ 将音频信号用不同频率和幅度的谐波构造出来,然
后对谐波进行特征系数提取
▪ 线性预测倒谱系数—LPCC▪ Linear predictive cepstrum coefficients
▪ Mel频率倒谱系数—MFCC▪ Mel predictive cepstrum coefficients
MFCC考虑到了人类的听觉特征,将线性频谱映射到基于听觉感知的非线性频谱中
MFCC计算过程
▪ MFCC的动态性质也可以用来做特征
▪ DMFCC:一阶导数
▪ DDMFCC:二阶导数
▪ 代表了MFCC变化的速度
▪ MFCC的缺点
▪ 基于短时窗计算得到,丢失了信号中的长期特性
▪ MFCC比LPCC更符合人耳的听觉特征,具有更高的识别精度
▪ 主观特征
▪ 音色 由声源不同的谐音成分所决定
▪ 节奏▪ 衡量音乐的固定周期
▪ 响度▪ 人耳感受到的声音能量高低
▪ 音调▪ 声音频率的高低
▪ 音频的分段与分类▪ Segmentation & Classification
▪ 通常接触到的音频都是连续的时间序列信号,可能分属不同的音频类别,需要使用不同的处理和索引方法
▪ 查询往往是针对音频的片段而非整段音乐