多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)

简介: 多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)

多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)


▪ 音乐信息检索▪ 海量的音乐数据与不断增长的用户需求▪ 基于文本 vs 基于内容

▪ 音乐识别▪ 艺术家识别▪ 音乐流派分类▪ 音乐情感分类

▪ 音乐检索框图


▪ 节拍检测▪ 音乐结构分析▪ 旋律提取▪ 哼唱检索▪ 音乐推荐▪ 音乐声源分离

▪ 语音识别

▪ 利用语言学和语音学的知识,将一段语音转换成文本▪ 将连续的声学信号映射到离散的符号集▪ 训练过程:收集所有可能的语音单位的模型或特征向量进行训练

▪ 音素、单词或词组

▪ 识别过程:提取输入语音单位的特征向量,并与训练模型相比较

语音识别系统通常包含三个部分

▪ 声学模型(Acoustic model)▪ 发音词典(Pronunciation dictionary)

▪ 语言模型(Language model)

▪ 语音识别研究主要包括三方面内容

▪ 语音信号的表示▪ 特征抽取

▪ 语音信号和语言知识建模▪ 声学模型、语言模型

▪ 基于模型的推理▪ 解码▪ Tian-→天?提案?

▪ 语音识别的主要困难在于语音信号的复杂性和多变性

▪ 包含了说话人、发音内容、信道特征、口音方言等大量信息

▪ 表达了如情绪变化、语法语义、暗示内涵等丰富的高层信息

▪ 语音特征抽取在原始语音信号中提取出与语音识别最相关的信息,滤除其它无关信息▪ 保留对发音内容的区分性,同时提高对其它信息变量的鲁棒性

▪ 模型构建

▪ 声学建模是对声音信号(语音特征)的特性进行抽象化,是识别系统的底层模型

HMM/GMM,DNN

▪ 计算语音特征向量序列和每个发音模板之间的距离

▪ 声学模型单位大小:字、半音节、音素

▪ 发音词典列出了语音识别需要输出的单词的有限集合▪ 单词到发音的映射

▪ 语言建模是对语言中的词语搭配关系进行归纳,抽象成概率模型

▪ 结合上下文结构确定词义,确定正确的文字▪ 限定不同词之间的相互连接关系,减少识别系统的搜索空间,提高识别效率

▪ 基于规则语法结构命令

▪ 基于统计语法

▪ N-Gram:假设一个词的出现只与前面N-1个词相关▪ Bi-Gram、Tri-Gram


▪ 解决如何对低频词进行平滑的问题,使低频词获得较好的概率估计

▪ 借用高频词或相似词的统计量

▪ 如何对字母、字、词、短语、主题等多层次语言单元进行多层次建模

▪ 如何对应用领域进行快速自适应

▪ 如何提高训练效率

▪ 如何有效利用大量噪声数据

▪ 语音识别中的模板匹配技术

▪ 简单的匹配并不可行

▪ 动态时间弯曲DTW

▪ Dynamic Time Warping

▪ 将待匹配特征进行时域变换,使其与模板之间匹配的距离最小


语音合成(Speech Synthesis)

▪ 又称为文语转换(Text-to-Speech, TTS),将任意的输入文本转换成自然流畅的语音输出

▪ 应用于银行、医院、机场等信息播报系统,以及银行、保险等应答呼叫中心


1.文本分析的主要任务是对输入的任意文本进行分析,输出尽可能多的语言学信息,如拼音、节奏等,为后端的语音合成器提供必要的信息

▪ 文本分析的处理流程包括:文本预处理、文本规范化、自动分词、词性标注、字音转换(多音字消歧)、韵律预测等

2.韵律即是实际语流中的抑扬顿挫和轻重缓急

▪ 重音的位置分布,韵律边界的位置分布,语调的基本骨架及其与声调、节奏和重音的关系等

▪ 韵律建模模块负责为待合成语音生成合适的基频曲线、音长信息、停顿、和能量等信息

▪ 超音段特征▪ 基于文本分析的结果

3.声学处理是根据文本分析和韵律处理提供的信息来生成自然语音波形

▪ 主要包括两种方法

▪ 1.基于时域波形的拼接合成方法

▪ 2.是基于语音参数的合成方法

波形拼接技术的基本原理是根据文本分析的结果,从预先录制并标注好的语音库中挑选合适的基元,进行适当调整,最终拼接得到合成语音波形

▪ 早期的语音基元库很小,参数化表示,造成语音不连续,自然度较低

▪ 随着计算机运算和存储能力的提升,实现基于大语料库的单元拼接合成系统成为可能▪ 几MB扩大到几百MB,甚至几GB

▪ 基于拼接合成方法的不足:

▪ 1. 稳定性仍然不够▪ 2. 音库构建较为复杂▪ 3. 难以改变发音特征▪ 4. 应用的局限性

▪ 统计参数合成

▪ 1.采用统计机器学习的方法对语料库的声学参数进行建模

▪ 2.采用声码器对模型预测出的声学参数进行参数合成

▪ 统计参数语音合成的方法在最初的合成语音质量,与大语料库的拼接系统有着较大的差距▪ 在三个主要方面取得了较大的进步

▪ 声码器、模型的精确度、以及参数生成方法

▪ 基于深度学习的统计参数合成方法

▪ DNN,LSTM

▪ 基于参数合成方法的不足▪ 1. 合成音质不够高▪ 2. 自然度不够高

▪ 主要原因在于:▪ 1. 声码器结构过于简单▪ 2. 过平滑问题没有很好解决

▪ 目前尝试在波形拼接语音合成系统中融入统计参数语音合成的混合语音合成模型


基于HMM的混合语音合成方法


语音情感合成

▪ 在合成的同时考虑所表达的情感因素

▪ 可用于智能语音助手、文本阅读等

▪ 1. 合成单元拼接法

▪ 建立几种不同情感状态的语音数据库,从中选择符合待合成语句的情感状态及内容的单元,拼接成句


2。基于规则的情感语音合成方法

▪ 通过调整合成语音的声学参数,合成出不同情感状态的语音

▪ 共振峰、基音频率等韵律参数▪ 简单有效,结果不够令人满意

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
4月前
|
前端开发 语音技术
3D-Speaker说话人任务的开源项目问题之全监督说话人识别框架的问题如何解决
3D-Speaker说话人任务的开源项目问题之全监督说话人识别框架的问题如何解决
|
4月前
|
数据挖掘 语音技术
3D-Speaker说话人任务的开源项目问题之视觉信息在说话人日志技术中的问题如何解决
3D-Speaker说话人任务的开源项目问题之视觉信息在说话人日志技术中的问题如何解决
|
人工智能 语音技术
技术沙龙|3D-Speaker说话人识别多模型解析
技术沙龙|3D-Speaker说话人识别多模型解析
204 0
|
机器学习/深度学习 算法 网络安全
【OpenVI—论文解读系列】ICML long talk | 开源半监督学习框架Dash
论文链接:Dash: Semi-Supervised Learningwith DynamicThreolding 本文介绍机器学习顶级国际会议 ICML 2021 接收的 long talk (top 3.02%) 论文 “Dash: Semi-Supervised Learning with Dynamic Thresholding”。
363 5
|
存储 算法 数据挖掘
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(上篇)
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(上篇)
129 0
|
机器学习/深度学习 存储 传感器
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(中篇)
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(中篇)
102 0
|
机器学习/深度学习 存储 数据挖掘
多媒体信息处理学习笔记-Chap 6. Image Retrieval&Chap 7. Video Retrieval
多媒体信息处理学习笔记-Chap 6. Image Retrieval&Chap 7. Video Retrieval
96 0
|
存储 自然语言处理 算法
多媒体信息处理学习笔记-1Introduction
多媒体信息处理学习笔记-1Introduction
115 0
|
人工智能 达摩院 语音技术
M2MeT2.0新赛道报名启动|ASRU 2023 Special Session Challenge多通道多方会议转录挑战赛
多人对话的会议场景,由于其复杂多样的空间和声学条件,以及说话人不同的讲话风格,容易出现重叠讲话、不同数量的发言者、大会议室的远场信号以及环境噪声和混响等声音处理任务,这在语音AI技术迅速发展的当下仍是一项颇具挑战的技术难题。 为探寻更优技术解决方案,今年达摩院再次融聚产学研界专家智识,在上一届多通道多方会议转录挑战赛(M2MET)的基础上,达摩院语音实验室联合希尔贝壳和多位国内外颇具影响力的行业专家在ASRU2023上举办M2MET2.0挑战赛。
755 0
|
存储 监控 算法
多媒体信息处理学习笔记-Chap 4. Text Processing and Information Retrieval
多媒体信息处理学习笔记-Chap 4. Text Processing and Information Retrieval
92 0
多媒体信息处理学习笔记-Chap 4. Text Processing and Information Retrieval