多媒体信息处理学习笔记-Chap 5. Audio Retrieval(中篇)

简介: 多媒体信息处理学习笔记-Chap 5. Audio Retrieval(中篇)

多媒体信息处理学习笔记-Chap 5. Audio Retrieval(中篇)


音频信息检索主要研究领域及应用:

1.Event detection

▪ 根据音频类别将音频流划分成段(静默、男性语音、女性语音、噪音……)

▪ 检测音频中变化的边界位置,将音频分割成一致性的片段是许多相关应用的基础

▪ 通常与分类紧密联系,可分成分割依赖系统和分割独立系统两大类

▪ 在特征空间中计算每段语音之间的相似度

▪ 欧式距离、角度、KL散度或它们的组合

▪ SVM,ANN,GMM等

▪ 精度超过90%,实时率将近100倍

▪ 仍然是一个开放性的问题

2.Stress and emotion classification

▪ 通过分析语音信号确定说话人的压力、紧张程度以

及隐含的情感类别

▪ 目前的精度性能在80%左右

▪ 主要困难在于难以量化人的情感范围

3.Multilingual audio analysis

▪ 包括多语种语音识别和自动的语种确认

4.Speaker diarization

▪ 根据不同的说话人将语音划分成段

▪ Speech Detection

▪ 去除非语音片段,保留语音片段

▪ Change Detection

▪ 定位出不同说话人的切变点▪ 距离度量、门限

▪ 性别分类▪ 按说话人的性别分类▪ 说话人聚类▪ 聚类得到属于相同说话人的片段

▪ 聚类组合▪ 运用说话人识别技术合并可能属于同一说话人的片段,对之前的结果进行修正

▪ 重分割▪ 对分割的边界做修正▪ 常用的特征▪ MFCC▪ DMFCC等▪ 目前最好性能在80%~90%

▪ 5. Speaker recognition

▪ 利用人的发声特点对说话人进行区分

▪ 不同人的发音与声音器官的解剖学差异和行为模式有关,如使用特殊的口音、节奏、语调风格、发音模式、音高等

▪ 包括两个模块:说话人注册 & 说话人确认

▪ 建立通用背景模型UBM

▪ 文本相关 vs 文本无关

▪ 如何得到对各种环境因素鲁棒的模型?

▪ 信道不匹配、麦克风环境等

说话人识别(Speaker Recognition),或者称为声纹识别(Voiceprint Recognition, VPR),是根据语音中所包含的说话人个性信息,自动鉴别说话人身份的一种生物特征识别技术

▪ 根据说话内容的类型不同可以分为

▪ 文本有关—Text-dependent:识别和训练时要求说同样的内容

▪ 文本无关—Text-independent:无要求,难度更大,应用范围更广

按应用模式的不同,说话人识别还可以分为

▪ 说话人确认(Speaker Verification)

▪ 二分类问题,是与否

▪ 说话人辨认(Speaker Identification)

▪ 多分类问题

▪ 说话人识别还包括说话人检测(SpeakerDetection)和说话人追踪(Speaker Tracking)等任务

▪ 6. Speech recognition

▪ 识别出说话的内容

▪ 声学模型

▪ 识别出每一个特征对应的音节

▪ 语言模型

▪ 根据上下文关系建立的字之间的连接关系

▪ 理想条件下的精度可超过99%

▪ 会议实时翻译


说话人识别:

说话人识别技术研究的核心是如何从语音中提取鲁棒的说话人特征来表征说话人

▪ 说话人差异:如声道差异、发音特点、说话人风格

▪ 会话间差异:如不同的采集设备、传输媒介等

▪ 噪音鲁棒性▪ 跨信道鲁棒性▪ 说话人自身状况及时变鲁棒性▪ 短语音鲁棒性

▪ 其他鲁棒性▪ 多种编码方式▪ 多说话人▪ 跨语言


第一阶段是从上世纪60年代到70年代,研究工

作主要关注于语音特征提取和模板匹配技术

▪ 语谱图、LPCC

▪ 模板匹配、统计方差分析

▪ 模板匹配需要存储大量的特征矢量模板

▪ 当集合人数规模比较大时,识别性能不佳

▪ 第二阶段是从上世纪80年代到90年代中期,语

音统计模型开始应用于说话人识别

▪ MFCC

▪ 高斯混合模型GMM

▪ 第三阶段从上世纪末到本世纪初,说话人识别

技术逐渐从实验室走向实用


▪ 当前主流的说话人识别模型

▪ 高斯混合—通用背景模型GMM-UBM

▪ 思想是通过对多个高斯密度函数进行加权平均来逼近任意空间分布


▪ 说话人的语音中不仅包含说话人自身的信息,还包括所有说话人的共有信息

▪ 需要一个通用的模型来描述这些共性

▪ UBM 是由大量的说话人数据通过最大似然准则估计得到的GMM模型,代表所有说话人的共性


▪ 在GMM-UBM框架下,训练时通常只更新模型的均值

▪ 对于混合数为C,特征维数为D的混合模型,将均值向量串联构成一个C*D维的高维均值列向量,也称为高斯超向量

▪ 超向量中除了蕴含说话人信息外,同时也包含了语音中的通道、背景噪音、语种等信息


联合因子分析(Joint Factor Analysis,JFA)

▪ 对语音的高斯超向量进行因子分解,得到说话人因子和通道因子,进而去除通道因子,强化说话人因子

▪ 超向量m难以准确的分解为Vy和Ux

▪ 改进的模型称为i-vector模型

▪ 𝑇称为总体变化空间,覆盖了说话人和通道的变化子空间,𝑤为总体变化因子,即i-vector

▪ JFA:在高斯超向量空间中区分说话人信息和通道信息

▪ i-vector:在低维子空间T中分离说话人和通道信息

▪ 类似于主成分分析PCA

说话人识别性能评价指标

▪ SRE是国际上最权威的说话人识别技术评测

▪ 美国国家标准技术局NIST主办

▪ 说话人确认

▪ 误报(False Alarm)&漏报(Miss)

▪ DET(Detection Error Tradeoff)曲线表现误报率和漏报率随着门限参数变化的情况

▪ 等错误率(EqualError Rate)可以更直接的比较不同说话人确认系统系统的性能

▪ 检测代价函数

▪ 在实际应用中误报和漏报所对应的代价不同

▪ 监听任务希望漏报足够低,而身份认证则更关心误报情况

▪ 等错误率指标与应用无关

▪ 对不同的错误进行加权,而权重的设置与应用联系起来

▪ 声纹识别面临的难题

▪ 1. 多说话人

▪ 借助说话人分割技术

▪ 2. 防攻击(Anti-Spoofing)问题

▪ 声音模仿、语音合成、声音转换、录音重放

▪ 发展趋势

▪ 更具区分性的说话人特征

▪ 提升识别系统的防攻击水平

▪ 多生物特征融合技术

▪ 语音情感识别的研究是"情感计算"研究领域的一个重要分支

▪ 情感计算通过各类传感器采集各种情感状态下的生理指标,构建计算机可识别和理解的情感模型

▪ 脑电波、脉搏、语音、面部表情、手势等▪ 语音情感识别也已经逐步应用到生活中的各个领域

▪ 关键技术包括:建立语音情感库、语音信号特征提取、特征选择和情感识别等方面▪ 语音情感识别分为说话人相关和说话人无关两种方式

▪ Speaker dependent vs. Speaker independent

▪ 情感库可以分为维度情感库和离散情感库

▪ 维度空间论认为情感分布在若干维度组成的某一空间中,每个维度对应一个情感属性,现实中的情感状态均能在空间中找到对应的点▪ 愉快/不愉快,激动/平静,紧张/松弛▪ 标注复杂

目录
相关文章
|
机器学习/深度学习 PyTorch 算法框架/工具
归一化技术比较研究:Batch Norm, Layer Norm, Group Norm
本文将使用合成数据集对三种归一化技术进行比较,并在每种配置下分别训练模型。记录训练损失,并比较模型的性能。
781 2
|
2月前
|
存储 数据安全/隐私保护 开发者
Python深浅拷贝全解析:从原理到实战的避坑指南
在Python开发中,深浅拷贝是处理对象复制的关键概念。直接赋值仅复制引用,修改副本会影响原始数据。浅拷贝(如切片、copy方法)创建新容器但共享嵌套对象,适用于单层结构或需共享子对象的场景;而深拷贝(copy.deepcopy)递归复制所有层级,确保完全独立,适合嵌套结构或多线程环境。本文详解二者原理、实现方式及性能考量,帮助开发者根据实际需求选择合适的拷贝策略,避免数据污染与性能浪费。
209 1
|
11月前
|
机器学习/深度学习 数据采集 人工智能
TeleAI 开源星辰语义大模型-TeleChat2!
2024.9.20 中国电信人工智能研究院(TeleAI)开源TeleChat2-115B模型,该模型是首个完全国产算力训练并开源的千亿参数模型。
|
9月前
|
监控 Java Python
Java 中的正则表达式
正则表达式是Java中强大的文本处理工具,支持灵活的匹配、搜索、替换和验证功能。本文介绍了正则表达式的语法基础及其在Java中的应用,包括字符串匹配、替换、分割及实际场景中的邮箱验证和电话号码提取等示例。通过这些技术,可以显著提高文本处理的效率和准确性。
517 8
|
存储 SQL 分布式计算
Hadoop生态系统概述:构建大数据处理与分析的基石
【8月更文挑战第25天】Hadoop生态系统为大数据处理和分析提供了强大的基础设施和工具集。通过不断扩展和优化其组件和功能,Hadoop将继续在大数据时代发挥重要作用。
|
安全
[AIGC] 如何设计和实现工作流的审批项目?
[AIGC] 如何设计和实现工作流的审批项目?
332 1
|
消息中间件 存储 缓存
一文了解清楚kafka消息丢失问题和解决方案
今天分享一下kafka的消息丢失问题,kafka的消息丢失是一个很值得关注的问题,根据消息的重要性,消息丢失的严重性也会进行放大,如何从最大程度上保证消息不丢失,要从生产者,消费者,broker几个端来说。
639 0
|
JavaScript Java 测试技术
基于SpringBoot+Vue+uniapp的新锐台球厅管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的新锐台球厅管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
321 1
|
数据库
开源数据集——行人数据
开源数据集——行人数据
4005 0
开源数据集——行人数据