多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)

简介: 多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)

多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)


▪ 音乐信息检索▪ 海量的音乐数据与不断增长的用户需求▪ 基于文本 vs 基于内容

▪ 音乐识别▪ 艺术家识别▪ 音乐流派分类▪ 音乐情感分类

▪ 音乐检索框图


▪ 节拍检测▪ 音乐结构分析▪ 旋律提取▪ 哼唱检索▪ 音乐推荐▪ 音乐声源分离

▪ 语音识别

▪ 利用语言学和语音学的知识,将一段语音转换成文本▪ 将连续的声学信号映射到离散的符号集▪ 训练过程:收集所有可能的语音单位的模型或特征向量进行训练

▪ 音素、单词或词组

▪ 识别过程:提取输入语音单位的特征向量,并与训练模型相比较

语音识别系统通常包含三个部分

▪ 声学模型(Acoustic model)▪ 发音词典(Pronunciation dictionary)

▪ 语言模型(Language model)

▪ 语音识别研究主要包括三方面内容

▪ 语音信号的表示▪ 特征抽取

▪ 语音信号和语言知识建模▪ 声学模型、语言模型

▪ 基于模型的推理▪ 解码▪ Tian-→天?提案?

▪ 语音识别的主要困难在于语音信号的复杂性和多变性

▪ 包含了说话人、发音内容、信道特征、口音方言等大量信息

▪ 表达了如情绪变化、语法语义、暗示内涵等丰富的高层信息

▪ 语音特征抽取在原始语音信号中提取出与语音识别最相关的信息,滤除其它无关信息▪ 保留对发音内容的区分性,同时提高对其它信息变量的鲁棒性

▪ 模型构建

▪ 声学建模是对声音信号(语音特征)的特性进行抽象化,是识别系统的底层模型

HMM/GMM,DNN

▪ 计算语音特征向量序列和每个发音模板之间的距离

▪ 声学模型单位大小:字、半音节、音素

▪ 发音词典列出了语音识别需要输出的单词的有限集合▪ 单词到发音的映射

▪ 语言建模是对语言中的词语搭配关系进行归纳,抽象成概率模型

▪ 结合上下文结构确定词义,确定正确的文字▪ 限定不同词之间的相互连接关系,减少识别系统的搜索空间,提高识别效率

▪ 基于规则语法结构命令

▪ 基于统计语法

▪ N-Gram:假设一个词的出现只与前面N-1个词相关▪ Bi-Gram、Tri-Gram


▪ 解决如何对低频词进行平滑的问题,使低频词获得较好的概率估计

▪ 借用高频词或相似词的统计量

▪ 如何对字母、字、词、短语、主题等多层次语言单元进行多层次建模

▪ 如何对应用领域进行快速自适应

▪ 如何提高训练效率

▪ 如何有效利用大量噪声数据

▪ 语音识别中的模板匹配技术

▪ 简单的匹配并不可行

▪ 动态时间弯曲DTW

▪ Dynamic Time Warping

▪ 将待匹配特征进行时域变换,使其与模板之间匹配的距离最小


语音合成(Speech Synthesis)

▪ 又称为文语转换(Text-to-Speech, TTS),将任意的输入文本转换成自然流畅的语音输出

▪ 应用于银行、医院、机场等信息播报系统,以及银行、保险等应答呼叫中心


1.文本分析的主要任务是对输入的任意文本进行分析,输出尽可能多的语言学信息,如拼音、节奏等,为后端的语音合成器提供必要的信息

▪ 文本分析的处理流程包括:文本预处理、文本规范化、自动分词、词性标注、字音转换(多音字消歧)、韵律预测等

2.韵律即是实际语流中的抑扬顿挫和轻重缓急

▪ 重音的位置分布,韵律边界的位置分布,语调的基本骨架及其与声调、节奏和重音的关系等

▪ 韵律建模模块负责为待合成语音生成合适的基频曲线、音长信息、停顿、和能量等信息

▪ 超音段特征▪ 基于文本分析的结果

3.声学处理是根据文本分析和韵律处理提供的信息来生成自然语音波形

▪ 主要包括两种方法

▪ 1.基于时域波形的拼接合成方法

▪ 2.是基于语音参数的合成方法

波形拼接技术的基本原理是根据文本分析的结果,从预先录制并标注好的语音库中挑选合适的基元,进行适当调整,最终拼接得到合成语音波形

▪ 早期的语音基元库很小,参数化表示,造成语音不连续,自然度较低

▪ 随着计算机运算和存储能力的提升,实现基于大语料库的单元拼接合成系统成为可能▪ 几MB扩大到几百MB,甚至几GB

▪ 基于拼接合成方法的不足:

▪ 1. 稳定性仍然不够▪ 2. 音库构建较为复杂▪ 3. 难以改变发音特征▪ 4. 应用的局限性

▪ 统计参数合成

▪ 1.采用统计机器学习的方法对语料库的声学参数进行建模

▪ 2.采用声码器对模型预测出的声学参数进行参数合成

▪ 统计参数语音合成的方法在最初的合成语音质量,与大语料库的拼接系统有着较大的差距▪ 在三个主要方面取得了较大的进步

▪ 声码器、模型的精确度、以及参数生成方法

▪ 基于深度学习的统计参数合成方法

▪ DNN,LSTM

▪ 基于参数合成方法的不足▪ 1. 合成音质不够高▪ 2. 自然度不够高

▪ 主要原因在于:▪ 1. 声码器结构过于简单▪ 2. 过平滑问题没有很好解决

▪ 目前尝试在波形拼接语音合成系统中融入统计参数语音合成的混合语音合成模型


基于HMM的混合语音合成方法


语音情感合成

▪ 在合成的同时考虑所表达的情感因素

▪ 可用于智能语音助手、文本阅读等

▪ 1. 合成单元拼接法

▪ 建立几种不同情感状态的语音数据库,从中选择符合待合成语句的情感状态及内容的单元,拼接成句


2。基于规则的情感语音合成方法

▪ 通过调整合成语音的声学参数,合成出不同情感状态的语音

▪ 共振峰、基音频率等韵律参数▪ 简单有效,结果不够令人满意

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
打赏
0
0
0
0
8
分享
相关文章
天图万境发布视频生音频通用工具Sora Opera
【2月更文挑战第24天】天图万境发布视频生音频通用工具Sora Opera
143 1
天图万境发布视频生音频通用工具Sora Opera
Nature专业户DeepMind又登封面,开源水印技术SynthID-Text,Gemini已经用上了
在AI领域,大型语言模型(LLMs)的应用日益广泛,但如何区分机器生成与人类撰写的内容成为难题。为此,研究人员开发了SynthID-Text,一种基于Tournament采样的生成水印技术。它能有效嵌入水印,同时保持文本质量,具有低计算成本和高检测性能的优势,已在Google DeepMind的Gemini系统中应用。然而,该技术在协调要求、攻击防御及开源模型应用方面仍面临挑战。
78 7
NeurIPS D&B 2024 突破短视频局限!MMBench-Video解读MLLM视频理解能力
GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者Qwen2也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。
从RTMPS到MPEG-DASH:直播带货背后的秘密流程
大家好,我是小米,今天聊聊“社区直播带货”的技术流程。文章介绍了RTMPS协议的安全可靠传输,MPEG-DASH的自适应比特率流媒体技术,以及直播数据如何通过边缘节点和数据中心进行高效处理与分发,确保用户流畅观看。通过这些技术,直播带货不仅画质清晰,还保障了安全性和用户体验。希望本文能帮助你深入了解这一流程。如果有任何问题,欢迎留言讨论!
83 2
Unity精华☀️Audio Mixer终极教程:用《双人成行》讲解它的用途
Unity精华☀️Audio Mixer终极教程:用《双人成行》讲解它的用途
|
11月前
|
技术好文:Regeultor内核文档翻译_学习笔记
技术好文:Regeultor内核文档翻译_学习笔记
56 0
|
12月前
|
Adobe推出文生音乐工具Project Music GenAI Control
【2月更文挑战第13天】Adobe推出文生音乐工具Project Music GenAI Control
195 2
Adobe推出文生音乐工具Project Music GenAI Control
【OpenVI—论文解读系列】ICML long talk | 开源半监督学习框架Dash
论文链接:Dash: Semi-Supervised Learningwith DynamicThreolding 本文介绍机器学习顶级国际会议 ICML 2021 接收的 long talk (top 3.02%) 论文 “Dash: Semi-Supervised Learning with Dynamic Thresholding”。
424 5
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(上篇)
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(上篇)
159 0