多媒体信息处理学习笔记-Chap 5. Audio Retrieval（下篇）-阿里云开发者社区

多媒体信息处理学习笔记-Chap 5. Audio Retrieval（下篇）

2023-02-23 431

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 多媒体信息处理学习笔记-Chap 5. Audio Retrieval（下篇）

多媒体信息处理学习笔记-Chap 5. Audio Retrieval（下篇）

▪ 音乐信息检索▪ 海量的音乐数据与不断增长的用户需求▪ 基于文本 vs 基于内容

▪ 音乐识别▪ 艺术家识别▪ 音乐流派分类▪ 音乐情感分类

▪ 音乐检索框图

▪ 节拍检测▪ 音乐结构分析▪ 旋律提取▪ 哼唱检索▪ 音乐推荐▪ 音乐声源分离

▪ 语音识别

▪ 利用语言学和语音学的知识，将一段语音转换成文本▪ 将连续的声学信号映射到离散的符号集▪ 训练过程：收集所有可能的语音单位的模型或特征向量进行训练

▪ 音素、单词或词组

▪ 识别过程：提取输入语音单位的特征向量，并与训练模型相比较

语音识别系统通常包含三个部分

▪ 声学模型（Acoustic model）▪ 发音词典（Pronunciation dictionary）

▪ 语言模型（Language model）

▪ 语音识别研究主要包括三方面内容

▪ 语音信号的表示▪ 特征抽取

▪ 语音信号和语言知识建模▪ 声学模型、语言模型

▪ 基于模型的推理▪ 解码▪ Tian-→天？提案？

▪ 语音识别的主要困难在于语音信号的复杂性和多变性

▪ 包含了说话人、发音内容、信道特征、口音方言等大量信息

▪ 表达了如情绪变化、语法语义、暗示内涵等丰富的高层信息

▪ 语音特征抽取在原始语音信号中提取出与语音识别最相关的信息，滤除其它无关信息▪ 保留对发音内容的区分性，同时提高对其它信息变量的鲁棒性

▪ 模型构建

▪ 声学建模是对声音信号（语音特征）的特性进行抽象化，是识别系统的底层模型

▪ HMM/GMM，DNN

▪ 计算语音特征向量序列和每个发音模板之间的距离

▪ 声学模型单位大小：字、半音节、音素

▪ 发音词典列出了语音识别需要输出的单词的有限集合▪ 单词到发音的映射

▪ 语言建模是对语言中的词语搭配关系进行归纳，抽象成概率模型

▪ 结合上下文结构确定词义，确定正确的文字▪ 限定不同词之间的相互连接关系，减少识别系统的搜索空间，提高识别效率

▪ 基于规则语法结构命令

▪ 基于统计语法

▪ N-Gram：假设一个词的出现只与前面N-1个词相关▪ Bi-Gram、Tri-Gram

▪ 解决如何对低频词进行平滑的问题，使低频词获得较好的概率估计

▪ 借用高频词或相似词的统计量

▪ 如何对字母、字、词、短语、主题等多层次语言单元进行多层次建模

▪ 如何对应用领域进行快速自适应

▪ 如何提高训练效率

▪ 如何有效利用大量噪声数据

▪ 语音识别中的模板匹配技术

▪ 简单的匹配并不可行

▪ 动态时间弯曲DTW

▪ Dynamic Time Warping

▪ 将待匹配特征进行时域变换，使其与模板之间匹配的距离最小

▪ 语音合成（Speech Synthesis）

▪ 又称为文语转换（Text-to-Speech, TTS）,将任意的输入文本转换成自然流畅的语音输出

▪ 应用于银行、医院、机场等信息播报系统，以及银行、保险等应答呼叫中心

1.文本分析的主要任务是对输入的任意文本进行分析，输出尽可能多的语言学信息，如拼音、节奏等，为后端的语音合成器提供必要的信息

▪ 文本分析的处理流程包括：文本预处理、文本规范化、自动分词、词性标注、字音转换（多音字消歧）、韵律预测等

2.韵律即是实际语流中的抑扬顿挫和轻重缓急

▪ 重音的位置分布，韵律边界的位置分布，语调的基本骨架及其与声调、节奏和重音的关系等

▪ 韵律建模模块负责为待合成语音生成合适的基频曲线、音长信息、停顿、和能量等信息

▪ 超音段特征▪ 基于文本分析的结果

3.声学处理是根据文本分析和韵律处理提供的信息来生成自然语音波形

▪ 主要包括两种方法

▪ 1.基于时域波形的拼接合成方法

▪ 2.是基于语音参数的合成方法

波形拼接技术的基本原理是根据文本分析的结果，从预先录制并标注好的语音库中挑选合适的基元，进行适当调整，最终拼接得到合成语音波形

▪ 早期的语音基元库很小，参数化表示，造成语音不连续，自然度较低

▪ 随着计算机运算和存储能力的提升，实现基于大语料库的单元拼接合成系统成为可能▪ 几MB扩大到几百MB，甚至几GB

▪ 基于拼接合成方法的不足：

▪ 1. 稳定性仍然不够▪ 2. 音库构建较为复杂▪ 3. 难以改变发音特征▪ 4. 应用的局限性

▪ 统计参数合成

▪ 1.采用统计机器学习的方法对语料库的声学参数进行建模

▪ 2.采用声码器对模型预测出的声学参数进行参数合成

▪ 统计参数语音合成的方法在最初的合成语音质量，与大语料库的拼接系统有着较大的差距▪ 在三个主要方面取得了较大的进步

▪ 声码器、模型的精确度、以及参数生成方法

▪ 基于深度学习的统计参数合成方法

▪ DNN，LSTM

▪ 基于参数合成方法的不足▪ 1. 合成音质不够高▪ 2. 自然度不够高

▪ 主要原因在于：▪ 1. 声码器结构过于简单▪ 2. 过平滑问题没有很好解决

▪ 目前尝试在波形拼接语音合成系统中融入统计参数语音合成的混合语音合成模型

基于HMM的混合语音合成方法

语音情感合成

▪ 在合成的同时考虑所表达的情感因素

▪ 可用于智能语音助手、文本阅读等

▪ 1. 合成单元拼接法

▪ 建立几种不同情感状态的语音数据库，从中选择符合待合成语句的情感状态及内容的单元，拼接成句

2。基于规则的情感语音合成方法

▪ 通过调整合成语音的声学参数，合成出不同情感状态的语音

▪ 共振峰、基音频率等韵律参数▪ 简单有效，结果不够令人满意

多媒体信息处理学习笔记-Chap 5. Audio Retrieval（下篇）

多媒体信息处理学习笔记-Chap 5. Audio Retrieval（下篇）

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

多媒体信息处理学习笔记-Chap 5. Audio Retrieval（下篇）

多媒体信息处理学习笔记-Chap 5. Audio Retrieval（下篇）

热门文章

最新文章

相关电子书