多媒体信息处理学习笔记-Chap 5. Audio Retrieval(上篇)

简介: 多媒体信息处理学习笔记-Chap 5. Audio Retrieval(上篇)

Chap 5. Audio Retrieval


音频是一种重要的媒体形式,无处不在,人类具有很强的区分音频的能力

传统的计算机处理音频采用文本标注的形式

逐渐产生了基于内容的音频检索技术,通过对音频的特征分析,对不同的音频数据自动赋予不同的语义,相同语义的音频数据在听觉上保持一定的相似度


基于内容的音频检索主要分成两部分


用户通过输入语义,检索出音频结果

通过音频索引得到其他媒体数据

音频数据的特点:


1.没有“关键帧”,短时平稳效应

2.适合采用“窗口”的处理方式,“短时帧”是音频处理的最小单位

3.直接比较查询片段和存储片段并不可行

4.将音频分到不同的类型,根据类型采用不同的方法处理和索引


▪ 声音的特点

▪ 声音是通过压缩空气激励声道滤波器产生,根据激励方式不同,发出的话音分成三种类型

▪ 浊音(voiced sounds)

浊音表现出在音节上有高度的周期性,其值在2 20 ms 之间,这个周期性称为长期周期性long term periodicity)

▪ 清音(unvoiced sounds)

清音是由不稳定气流激励所产生的

▪ 爆破音(plosive sounds)

爆破音是在声道关闭之后产生的压缩空气然后突然打开声道所发出的音


话音编码器就是利用语音的这些特点,进行压缩编码,减少数据率而又尽可能不牺牲声音的质量


数字音频是通过采样得到的对物理波形的离散表达


▪ 语音信号具有短时平稳性

▪ 10–30ms内可以认为语音信号近似不变

▪ 将语音信号分为一些短段来进行处理,即分帧

▪ 分帧采用有限长度的窗口进行加权的方法实现

▪ 窗口长度

▪ 选择的窗口应足够小,以检测语音的快速变化;同时也要足够大,以平滑局部的波动

窗口重叠

▪ 可以提高算法的鲁棒性,通常重叠率为50%(即窗口大小20ms,重叠10ms)

▪ 窗口函数

▪ 加窗后计算的主要是基于频率的特征

▪ 时域—过零率

▪ 频域—短时傅里叶变换

▪ 目前最常用的特征是MFCCs

▪ 梅尔频率倒谱系数:Mel-frequency Cepstral Coefficients


声音是一种纵波

▪ 时域表示法:将采样得到的音频信号表示成随时间变化的幅值

▪ 短时平均能量

▪ 在一个短时帧内采样信号所聚集的平均能量

▪ 可以通过窗函数为短时帧内不同的采样信号赋予权重

▪ 矩形窗、三角窗、汉明窗

▪ 常用于静音检测

过零率

▪ 音频信号在单位时间内穿过零点的次数

静音比

▪ 绝对幅值低于某个阈值的时间段定义为静音

▪ 统计静音在整个音频片段中所占的比例

▪ 静音比可用来区分一般音乐和独奏音乐

▪ 前者静音比较低,后者较高


频域表示法

频域特征的提取大多基于傅里叶变换

▪ 频谱中心(Frequency Center, FC)

▪ 频谱中心又被称作亮度,用来刻画音频所含频率中心点(考虑能量加权)的特征

▪ 带宽(Band Width,BW)

▪ 衡量音频频率范围的指标

▪ 非零声谱中最大频率与最小频率的差

▪ 可利用带宽特征对语音和音乐进行分类

▪ 谐音

▪ 音频信号中最低的频率成分称为基频(fundamental frequency),频率为基频倍数的频谱成分为谐音

▪ 音乐比其他声音具有更多的谐音

▪ 频率特征系数

▪ 将音频信号用不同频率和幅度的谐波构造出来,然

后对谐波进行特征系数提取

▪ 线性预测倒谱系数—LPCC▪ Linear predictive cepstrum coefficients

▪ Mel频率倒谱系数—MFCC▪ Mel predictive cepstrum coefficients

MFCC考虑到了人类的听觉特征,将线性频谱映射到基于听觉感知的非线性频谱中

MFCC计算过程


▪ MFCC的动态性质也可以用来做特征

▪ DMFCC:一阶导数

▪ DDMFCC:二阶导数

▪ 代表了MFCC变化的速度

▪ MFCC的缺点

▪ 基于短时窗计算得到,丢失了信号中的长期特性

▪ MFCC比LPCC更符合人耳的听觉特征,具有更高的识别精度


▪ 主观特征

▪ 音色 由声源不同的谐音成分所决定

▪ 节奏▪ 衡量音乐的固定周期

▪ 响度▪ 人耳感受到的声音能量高低

▪ 音调▪ 声音频率的高低


▪ 音频的分段与分类▪ Segmentation & Classification

▪ 通常接触到的音频都是连续的时间序列信号,可能分属不同的音频类别,需要使用不同的处理和索引方法

▪ 查询往往是针对音频的片段而非整段音乐

目录
相关文章
XR Interaction Toolkit教程⭐二、实现移动、传送和人物的碰撞功能
XR Interaction Toolkit教程⭐二、实现移动、传送和人物的碰撞功能
|
2月前
|
Android开发 开发者
FFmpeg开发笔记(五十七)使用Media3的Transformer加工视频文件
谷歌推出的Transformer,作为Jetpack Media3架构的一部分,助力开发者实现音视频格式转换与编辑。Media3简化了媒体处理流程,提升了定制性和可靠性。Transformer可用于剪辑、添加滤镜等操作,其示例代码可在指定GitHub仓库中找到。要使用Transformer,需在`build.gradle`中添加相关依赖,并按文档编写处理逻辑,最终完成音视频转换任务。具体步骤包括配置剪辑参数、设置空间效果以及监听转换事件等。
58 0
FFmpeg开发笔记(五十七)使用Media3的Transformer加工视频文件
|
7月前
|
存储 数据库
PACS(Picture Archiving and Communications System)图像存储与传输系统源码
PACS(Picture Archiving and Communications System)图像存储与传输系统源码
86 0
|
机器学习/深度学习 存储 自然语言处理
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)
131 0
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)
|
机器学习/深度学习 存储 传感器
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(中篇)
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(中篇)
101 0
|
机器学习/深度学习 存储 数据挖掘
多媒体信息处理学习笔记-Chap 6. Image Retrieval&Chap 7. Video Retrieval
多媒体信息处理学习笔记-Chap 6. Image Retrieval&Chap 7. Video Retrieval
96 0
|
存储 自然语言处理 算法
多媒体信息处理学习笔记-1Introduction
多媒体信息处理学习笔记-1Introduction
113 0
|
机器学习/深度学习 计算机视觉 网络架构
【即插即用】Triplet Attention机制让Channel和Spatial交互更加丰富(附开源代码)
【即插即用】Triplet Attention机制让Channel和Spatial交互更加丰富(附开源代码)
243 0
|
存储 监控 算法
多媒体信息处理学习笔记-Chap 4. Text Processing and Information Retrieval
多媒体信息处理学习笔记-Chap 4. Text Processing and Information Retrieval
92 0
多媒体信息处理学习笔记-Chap 4. Text Processing and Information Retrieval
|
计算机视觉
多媒体信息处理学习笔记-2. Multimedia Data and Coding
多媒体信息处理学习笔记-2. Multimedia Data and Coding
105 0
多媒体信息处理学习笔记-2. Multimedia Data and Coding