语音情感计算理论基础

简介: 持续更新情感计算相关

1.语音情感计算中情感的建模方法有哪些?有什么区别?情感计算主要应用于哪些领域?

  1. 支持向量机(SVM)、隐马尔可夫模型(HMM)、人工神经网路(NN)等。
    • SVM:基音+SVM算法=统计特征→识别语音状态;
    • HMM:输入特征矢量序列+训练=统计信号→识别语音状态;
    • NN:多层神经网路+训练=模拟人脑组织→识别语音状态。
  2. 虚拟人物、身份验证、智能用户界面、交互式感性图像检索、多功能机、语音识别、面部识别、军用可穿戴计算机等等。

2.列举三种以上的用于语音情感计算的声学特征,并解释其物理含义。

声学特征:

  • 音色。发音体形状、质地、构造不同,决定了音色的不同。
  • 音调。发音体声音频率的高低。
  • 音强。发音体振动的幅度特征。
  • 音长。发音体振动延续的时间特征。

语句特征:

  • 基频。基音的频率,决定了音高。在不同情感状态说,说同一段话,基频是不同的。一般研究基频的峰值、均值、方差等特征。
  • 低于250HZ的谱能量。根据parseval定理,信号傅氏变换模平方被称为谱能量。带有情绪的状态下谱能量和低于250HZ的谱能量时的存在一些规律。
  • 语速。讲一个语句的速度。不同情绪下的语速有规律性差异。
  • 能量。生气和高兴时能量高,其次平静,悲伤最低。
目录
相关文章
|
3天前
|
机器学习/深度学习 人工智能 算法
搞懂大模型的智能基因,RLHF系统设计关键问答
搞懂大模型的智能基因,RLHF系统设计关键问答
70 0
|
3天前
情感理论模型
情感理论模型
127 0
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
当大火的文图生成模型遇见知识图谱,AI画像趋近于真实世界
本文介绍了阿里云机器学习PAI团队开发的名为ARTIST的中文文图生成模型,该模型融合了知识图谱信息,能够生成更加符合常识的图像。ARTIST基于Transformer架构,将文图生成任务分为图像矢量量化和文本引导的图像序列生成两个阶段。在第一阶段,模型使用VQGAN对图像进行矢量量化;在第二阶段,通过GPT模型并结合知识图谱中的实体知识来生成图像序列。在MUGE中文文图生成评测基准上,ARTIST表现出色,其生成效果优于其他模型。此外,EasyNLP框架提供了简单易用的接口,用户可以基于公开的Checkpoint进行少量领域相关的微调,实现各种艺术创作。
|
3天前
|
人工智能 自然语言处理 语音技术
ZeroSwot:零数据训练,成功突破语音翻译难题
【2月更文挑战第16天】ZeroSwot:零数据训练,成功突破语音翻译难题
20 1
ZeroSwot:零数据训练,成功突破语音翻译难题
|
语音技术
三分钟视频|看懂多情感语音合成模型训练过程
三分钟视频|看懂多情感语音合成模型训练过程
109 0
|
算法 测试技术 数据安全/隐私保护
模型进化狂飙,DetectGPT能否识别最新模型生成结果?(2)
模型进化狂飙,DetectGPT能否识别最新模型生成结果?
|
机器学习/深度学习 人工智能
模型进化狂飙,DetectGPT能否识别最新模型生成结果?(1)
模型进化狂飙,DetectGPT能否识别最新模型生成结果?
126 0
|
机器学习/深度学习 人工智能 算法
如何用Transformer分清12位女排运动员?这个「时空双路」框架刷群体行为识别SOTA
如何用Transformer分清12位女排运动员?这个「时空双路」框架刷群体行为识别SOTA
语音识别(ASR)基础介绍第二篇——万金油特征MFCC
上一章提到了整个发声与拾音及存储的原理。但是在了解ASR的过程中,发现基本上遇到的资料都避不开MFCC特征。   整个ASR的处理流程大致可以分为下图: 左侧是经典的处理流程,右侧是近期流行的流程。发生的变化是,将语言模型以下的部分变成端到端的了。 我们将语言模型以下的部分统一看成是声学模型就好。  而MFCC主要用在左侧的处理流程中,即“特征处
7127 0
|
机器学习/深度学习 存储 数据采集
机器学习时代,神经科学家如何阅读和解码人类的思想
作者:Jiying 编辑:Joni 这篇文章围绕机器学习(ML)和功能性磁共振成像(fMRI)的应用问题,以三篇最新的研究型论文为基础,探讨基于统计学中 ML 的 fMRI 分析方法。
299 0
机器学习时代,神经科学家如何阅读和解码人类的思想