语音情感计算理论基础

简介: 持续更新情感计算相关

1.语音情感计算中情感的建模方法有哪些?有什么区别?情感计算主要应用于哪些领域?

  1. 支持向量机(SVM)、隐马尔可夫模型(HMM)、人工神经网路(NN)等。
    • SVM:基音+SVM算法=统计特征→识别语音状态;
    • HMM:输入特征矢量序列+训练=统计信号→识别语音状态;
    • NN:多层神经网路+训练=模拟人脑组织→识别语音状态。
  2. 虚拟人物、身份验证、智能用户界面、交互式感性图像检索、多功能机、语音识别、面部识别、军用可穿戴计算机等等。

2.列举三种以上的用于语音情感计算的声学特征,并解释其物理含义。

声学特征:

  • 音色。发音体形状、质地、构造不同,决定了音色的不同。
  • 音调。发音体声音频率的高低。
  • 音强。发音体振动的幅度特征。
  • 音长。发音体振动延续的时间特征。

语句特征:

  • 基频。基音的频率,决定了音高。在不同情感状态说,说同一段话,基频是不同的。一般研究基频的峰值、均值、方差等特征。
  • 低于250HZ的谱能量。根据parseval定理,信号傅氏变换模平方被称为谱能量。带有情绪的状态下谱能量和低于250HZ的谱能量时的存在一些规律。
  • 语速。讲一个语句的速度。不同情绪下的语速有规律性差异。
  • 能量。生气和高兴时能量高,其次平静,悲伤最低。
目录
相关文章
|
6月前
情感理论模型
情感理论模型
274 0
|
4月前
|
机器学习/深度学习 自然语言处理 算法
人类偏好对齐训练技术解析
大型语言模型(LLMs)通过在大量文本数据集上进行无监督预训练,获得丰富的语言模式和知识,这一阶段训练后的模型被称为base model。
|
2月前
|
自然语言处理 数据处理
情感分析的终极形态:全景式细粒度多模态对话情感分析基准PanoSent
【9月更文挑战第24天】PanoSent是一种全新的多模态对话情感分析框架,旨在全景式地提取和分析情感元素,包括情感六元组提取与情感翻转分析两大任务。此框架依托大规模、高质量的多模态数据集PanoSent,涵盖文本、图像、音频等多种模态及多种语言,适应不同应用场景。为解决这些任务,研究人员提出了Chain-of-Sentiment推理框架,结合多模态大语言模型Sentica,实现细粒度的情感分析。尽管PanoSent在情感分析任务上表现优异,但仍面临多模态数据处理和跨领域适用性的挑战。
54 2
|
3月前
|
数据可视化 数据挖掘 网络安全
语音情感基座模型emotion6vec 问题之什么是表征可视化,在这项研究中如何应用
语音情感基座模型emotion6vec 问题之什么是表征可视化,在这项研究中如何应用
|
3月前
|
机器学习/深度学习 人工智能 语音技术
情感识别与表达:FunAudioLLM的情感智能技术
【8月更文第28天】随着人工智能的发展,语音交互系统越来越普遍。其中,情感智能技术成为提高用户体验的关键因素之一。本文将探讨 FunAudioLLM 如何利用情感识别和表达技术来增强语音交互的真实感,并提供具体的代码示例。
122 0
|
6月前
|
人工智能 自然语言处理 语音技术
ZeroSwot:零数据训练,成功突破语音翻译难题
【2月更文挑战第16天】ZeroSwot:零数据训练,成功突破语音翻译难题
67 1
ZeroSwot:零数据训练,成功突破语音翻译难题
|
机器学习/深度学习 数据采集 人工智能
ONE-PEACE:探索通往无限模态的通用表征模型
过去几年里,表征模型在自然语言处理、计算机视觉、语音处理等领域取得了巨大的成功。经过大量数据学习的表征模型,不仅可以在各种下游任务上取得良好的效果,还可以作为大规模语言模型(LLM)的基座模型,为LLM提供多模态理解能力。随着多模态技术的发展,尤其CLIP[1]之后大家都意识到一个好的多模态表征模型在很多单模态任务上都会发挥着至关重要的基础模型的作用。学习了大量模态alignment的数据之后的模型逐渐在学会去理解各个模态和模态间蕴含的知识,甚至通过对大量模态的学习促进对其它模态的理解。
21948 7
|
语音技术
三分钟视频|看懂多情感语音合成模型训练过程
三分钟视频|看懂多情感语音合成模型训练过程
144 0
|
机器学习/深度学习 人工智能 自然语言处理
LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA
LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA
247 0
语音识别(ASR)基础介绍第二篇——万金油特征MFCC
上一章提到了整个发声与拾音及存储的原理。但是在了解ASR的过程中,发现基本上遇到的资料都避不开MFCC特征。   整个ASR的处理流程大致可以分为下图: 左侧是经典的处理流程,右侧是近期流行的流程。发生的变化是,将语言模型以下的部分变成端到端的了。 我们将语言模型以下的部分统一看成是声学模型就好。  而MFCC主要用在左侧的处理流程中,即“特征处
7220 0
下一篇
无影云桌面