多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)

简介: 多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)

多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)


▪ 音乐信息检索▪ 海量的音乐数据与不断增长的用户需求▪ 基于文本 vs 基于内容

▪ 音乐识别▪ 艺术家识别▪ 音乐流派分类▪ 音乐情感分类

▪ 音乐检索框图


▪ 节拍检测▪ 音乐结构分析▪ 旋律提取▪ 哼唱检索▪ 音乐推荐▪ 音乐声源分离

▪ 语音识别

▪ 利用语言学和语音学的知识,将一段语音转换成文本▪ 将连续的声学信号映射到离散的符号集▪ 训练过程:收集所有可能的语音单位的模型或特征向量进行训练

▪ 音素、单词或词组

▪ 识别过程:提取输入语音单位的特征向量,并与训练模型相比较

语音识别系统通常包含三个部分

▪ 声学模型(Acoustic model)▪ 发音词典(Pronunciation dictionary)

▪ 语言模型(Language model)

▪ 语音识别研究主要包括三方面内容

▪ 语音信号的表示▪ 特征抽取

▪ 语音信号和语言知识建模▪ 声学模型、语言模型

▪ 基于模型的推理▪ 解码▪ Tian-→天?提案?

▪ 语音识别的主要困难在于语音信号的复杂性和多变性

▪ 包含了说话人、发音内容、信道特征、口音方言等大量信息

▪ 表达了如情绪变化、语法语义、暗示内涵等丰富的高层信息

▪ 语音特征抽取在原始语音信号中提取出与语音识别最相关的信息,滤除其它无关信息▪ 保留对发音内容的区分性,同时提高对其它信息变量的鲁棒性

▪ 模型构建

▪ 声学建模是对声音信号(语音特征)的特性进行抽象化,是识别系统的底层模型

HMM/GMM,DNN

▪ 计算语音特征向量序列和每个发音模板之间的距离

▪ 声学模型单位大小:字、半音节、音素

▪ 发音词典列出了语音识别需要输出的单词的有限集合▪ 单词到发音的映射

▪ 语言建模是对语言中的词语搭配关系进行归纳,抽象成概率模型

▪ 结合上下文结构确定词义,确定正确的文字▪ 限定不同词之间的相互连接关系,减少识别系统的搜索空间,提高识别效率

▪ 基于规则语法结构命令

▪ 基于统计语法

▪ N-Gram:假设一个词的出现只与前面N-1个词相关▪ Bi-Gram、Tri-Gram


▪ 解决如何对低频词进行平滑的问题,使低频词获得较好的概率估计

▪ 借用高频词或相似词的统计量

▪ 如何对字母、字、词、短语、主题等多层次语言单元进行多层次建模

▪ 如何对应用领域进行快速自适应

▪ 如何提高训练效率

▪ 如何有效利用大量噪声数据

▪ 语音识别中的模板匹配技术

▪ 简单的匹配并不可行

▪ 动态时间弯曲DTW

▪ Dynamic Time Warping

▪ 将待匹配特征进行时域变换,使其与模板之间匹配的距离最小


语音合成(Speech Synthesis)

▪ 又称为文语转换(Text-to-Speech, TTS),将任意的输入文本转换成自然流畅的语音输出

▪ 应用于银行、医院、机场等信息播报系统,以及银行、保险等应答呼叫中心


1.文本分析的主要任务是对输入的任意文本进行分析,输出尽可能多的语言学信息,如拼音、节奏等,为后端的语音合成器提供必要的信息

▪ 文本分析的处理流程包括:文本预处理、文本规范化、自动分词、词性标注、字音转换(多音字消歧)、韵律预测等

2.韵律即是实际语流中的抑扬顿挫和轻重缓急

▪ 重音的位置分布,韵律边界的位置分布,语调的基本骨架及其与声调、节奏和重音的关系等

▪ 韵律建模模块负责为待合成语音生成合适的基频曲线、音长信息、停顿、和能量等信息

▪ 超音段特征▪ 基于文本分析的结果

3.声学处理是根据文本分析和韵律处理提供的信息来生成自然语音波形

▪ 主要包括两种方法

▪ 1.基于时域波形的拼接合成方法

▪ 2.是基于语音参数的合成方法

波形拼接技术的基本原理是根据文本分析的结果,从预先录制并标注好的语音库中挑选合适的基元,进行适当调整,最终拼接得到合成语音波形

▪ 早期的语音基元库很小,参数化表示,造成语音不连续,自然度较低

▪ 随着计算机运算和存储能力的提升,实现基于大语料库的单元拼接合成系统成为可能▪ 几MB扩大到几百MB,甚至几GB

▪ 基于拼接合成方法的不足:

▪ 1. 稳定性仍然不够▪ 2. 音库构建较为复杂▪ 3. 难以改变发音特征▪ 4. 应用的局限性

▪ 统计参数合成

▪ 1.采用统计机器学习的方法对语料库的声学参数进行建模

▪ 2.采用声码器对模型预测出的声学参数进行参数合成

▪ 统计参数语音合成的方法在最初的合成语音质量,与大语料库的拼接系统有着较大的差距▪ 在三个主要方面取得了较大的进步

▪ 声码器、模型的精确度、以及参数生成方法

▪ 基于深度学习的统计参数合成方法

▪ DNN,LSTM

▪ 基于参数合成方法的不足▪ 1. 合成音质不够高▪ 2. 自然度不够高

▪ 主要原因在于:▪ 1. 声码器结构过于简单▪ 2. 过平滑问题没有很好解决

▪ 目前尝试在波形拼接语音合成系统中融入统计参数语音合成的混合语音合成模型


基于HMM的混合语音合成方法


语音情感合成

▪ 在合成的同时考虑所表达的情感因素

▪ 可用于智能语音助手、文本阅读等

▪ 1. 合成单元拼接法

▪ 建立几种不同情感状态的语音数据库,从中选择符合待合成语句的情感状态及内容的单元,拼接成句


2。基于规则的情感语音合成方法

▪ 通过调整合成语音的声学参数,合成出不同情感状态的语音

▪ 共振峰、基音频率等韵律参数▪ 简单有效,结果不够令人满意

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
编解码 算法
Voip中的音频Codec技术
Voip中的音频Codec技术
|
机器学习/深度学习 并行计算 算法
ICASSP 2023论文模型开源|语音分离Mossformer
人类能在复杂的多人说话环境中轻易地分离干扰声音,选择性聆听感兴趣的主讲人说话。但这对机器却不容易,如何构建一个能够媲美人类听觉系统的自动化系统颇具挑战性。 本文将详细解读ICASSP2023本届会议收录的单通道语音分离模型Mossformer论文,以及如何基于开发者自有数据进行该模型的调优训练。
435 0
|
存储 算法 数据挖掘
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(上篇)
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(上篇)
92 0
|
机器学习/深度学习 存储 传感器
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(中篇)
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(中篇)
75 0
|
机器学习/深度学习 算法 网络安全
Meta推出MoDem世界模型:解决视觉领域三大挑战,LeCun转发
Meta推出MoDem世界模型:解决视觉领域三大挑战,LeCun转发
|
机器学习/深度学习 存储 数据挖掘
多媒体信息处理学习笔记-Chap 6. Image Retrieval&Chap 7. Video Retrieval
多媒体信息处理学习笔记-Chap 6. Image Retrieval&Chap 7. Video Retrieval
72 0
|
存储 自然语言处理 算法
多媒体信息处理学习笔记-1Introduction
多媒体信息处理学习笔记-1Introduction
80 0
|
存储 监控 算法
多媒体信息处理学习笔记-Chap 4. Text Processing and Information Retrieval
多媒体信息处理学习笔记-Chap 4. Text Processing and Information Retrieval
71 0
多媒体信息处理学习笔记-Chap 4. Text Processing and Information Retrieval
|
计算机视觉
多媒体信息处理学习笔记-2. Multimedia Data and Coding
多媒体信息处理学习笔记-2. Multimedia Data and Coding
80 0
多媒体信息处理学习笔记-2. Multimedia Data and Coding
|
存储 算法 数据挖掘
多媒体信息处理学习笔记-3. Feature Indexing and Retrieval
多媒体信息处理学习笔记-3. Feature Indexing and Retrieval
86 0
多媒体信息处理学习笔记-3. Feature Indexing and Retrieval