EMNLP 2022论文解读 | SOND:基于显式语音重叠建模的说话人日志模型

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: Empirical Methods in Natural Language Processing (EMNLP)是由国际计算语言学协会(Association for Computational Linguistics, ACL)举办的自然语言处理和人工智能方面的重量级国际会议,历届会议都会受到全球各地人工智能领域人士的广泛关注。

研究背景

在多方会议分析中,准确地识别出说话人的身份信息尤为重要。近期,研究者们提出了各种各样的说话人日志技术来解决这一问题,它们大致可以分为三类,分别是基于聚类的算法、端到端的模型化方法,以及这两者的混合系统。

image.png

基于聚类的说话人日志技术主要包括三个部分,分别是语音分割Segmentation、嵌入码提取Embedding Extraction和聚类算法Clustering Algorithm。其中较为关键的是聚类算法的选择,例如,K-means、谱聚类SC、多层次聚类AHC等。

此前,达摩院语音实验室对说话人日志中的聚类算法进行探索,提出了能够利用语音拓扑结构信息的社群检测聚类算法并被语音领域顶级会议ICASSP 2022接收,详情参见论文“Reformulating speaker diarization as community detection with emphasis on topological structure”[1]。然而,基于聚类的说话人日志技术存在两个问题,一是聚类算法多是无监督的,并没有直接最小化说话人识别错误;二是聚类算法通常建立在分段内说话人唯一这一假设上,无法应对重叠语音。

image.png

为解决这两个问题,端到端模型化的说话人日志技术(EEND)成为一个新的研究热点。在EEND中,说话人日志被建模成一个多标签预测(Multi-label prediction)任务,其模型的目标是对每个说话人单独预测一组二值化的标签,来代表该说话人是否在这一时刻存在语音活动。Fujita等人提出使用句子级置换不变损失(uPIT)来训练模型,这样能够直接最小化说话人识别错误,也能够应对语音重叠问题 [2]。虽然研究者们在端到端的模型上付出了很多努力,例如EEND-EDA [3]、RSAN [4]等,但由于uPIT的指数爆炸问题,EEND仍然很难应用在说话人数量较多的场景(大于4人)。此外,在处理较长的语音会议时,EEND对内存和长时建模能力也提出了难以满足的要求。

image.png

为了兼顾长时会议的处理能力和重叠语音的建模能力,混合系统(Hybrid system)将聚类算法和基于神经网络的说话人日志模型相结合,是一种极具潜力的说话人日志技术。在现有的混合系统中,首先使用聚类算法对语音片段进行合并得到若干说话人的声纹信息(Speaker Profile),而后将这些声纹信息和语音片段一同送入目标说话人语音检测模块(TSVAD),分别对各个说话人的语音活动进行检测。

image.png

容易看出,不管是EEND还是TSVAD都将说话人日志任务建模为多标签预测问题(Multi-label prediction, MLP),通过单独对每个说话人的语音活动进行检测来隐含地处理语音重叠问题。这样的建模方式忽略了说话人之间的关联性,同时也缺少对重叠语音的显式建模。

针对这些问题,我们提出了一种全新的建模方式,即通过幂集编码将说话人日志任务建模为单标签分类问题(Single-label classification, SLC)。在SLC中,不同的说话人组合用一个唯一的幂集编码来表示,通过对幂集编码的预测来显示的建模说话人之间的关联性和语音重叠。除了在现有的TSVAD模型验证这种建模方式的有效性外,我们还进一步提出了Speaker Overlap-aware Neural Diarization(SOND)模型来更加充分地挖掘显示建模说话人重叠所带来的好处,接下来分别对这两点进行展开介绍。

基于单标签分类的说话人日志模型

image.png

我们使用幂集(Power set,PS)来对说话人的组合进行编码,从能够显式的对说话人的语音重叠和关联关系进行建模。给定 N 个说话人 {1,2,...,N} ,它们的幂集 PS 定义为:

image.png

image.png

为了更好的建模说话人重叠,我们提出了Speaker Overlap-aware Neural Diarization(SOND)模型。如图6所示,SOND包括对语音信息进行编码的Speech encoder、对说话人信息进行编码的Speaker encoder、上下文依赖的打分器CD scorer、上下文无关的打分器CI scorer以及预测幂集编码的说话人混合网络SCN。

Speech encoder采用说话人识别任务中常用的ResNet34网络结构,并使用CN-Celeb和Alimeeting [5]等数据集进行预训练。与说话人识别任务不同的是,我们采用windowed statistic pooling来得到每个时刻的语音表示 :

image.png

image.png

如表1所示,与聚类方法VBx相比,我们的方法获得了极大的性能提升,这得益于我们的模型能够处理语音重叠问题,而VBx则不能。与其他基于神经网络的说话人日志方法相比,引入幂集编码PSE能够提升TSVAD模型对重叠语音的建模能力。而将SOND引入则能够进一步发挥SLC建模方式的优势,获得了最优的性能。

image.png

此外,我们还进行了消融实验来评估SOND中每个模块的重要性。从表2可以看出,所提出的模块对最终的性能都有正向的帮助,其中上下文依赖的打分器CD scorer和说话人混合网络SCN的作用尤其明显,不可或缺。

image.png

我们进一步评估了不同模型对说话人声纹信息准确性的依赖度。从表3可以看出,所提出的SOND对人声纹信息准确性的依赖程度更低,从理想(Oracle)声纹切换到聚类(Clustering)声纹,性能损失小于TSVAD模型,而SOND对声纹信息的鲁棒性则主要得益于说话人编码器Speaker encoder和上下文独立打分器CI scorer的引入。

Future Work

本文提出的SOND的代码和模型近期会在ModelScope开源,欢迎大家前往达摩院模型开源社区ModelScope体验多种语音AI模型。社区官网链接:modelscope.cn

image.png

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
29天前
|
数据挖掘 语音技术
3D-Speaker说话人任务的开源项目问题之语义说话人信息模块在说话人日志系统中的问题如何解决
3D-Speaker说话人任务的开源项目问题之语义说话人信息模块在说话人日志系统中的问题如何解决
|
29天前
|
数据挖掘 语音技术
3D-Speaker说话人任务的开源项目问题之视觉信息在说话人日志技术中的问题如何解决
3D-Speaker说话人任务的开源项目问题之视觉信息在说话人日志技术中的问题如何解决
|
4月前
|
存储 人工智能 运维
SLS 大模型可观测&安全推理审计标准解决方案
本文介绍大模型可观测&安全推理审计解决方案和Demo演示,SLS 提供全面的 LLM 监控和日志记录功能。监控大模型使用情况和性能,自定义仪表盘;SLS 汇总 Actiontrail 事件、云产品可观测日志、LLM 网关明细日志、详细对话明细日志、Prompt Trace 和推理实时调用明细等数据,建设完整统一的大模型可观测方案,为用户的大模型安全推理审计提供全面合规支持。
104304 1
|
4月前
|
人工智能 运维 监控
SLS 智能运维 AI 基础模型创新
SLS 全新发布运维场景基础模型,覆盖 Log、Metric、Trace 等可观测数据场景,模型提供开箱即用的异常检测、自动标注、分类和根因分析等能力;根因分析算法千级异常请求秒级定位,生产中准确率达95%;同时支持人工辅助微调,提供人工标注、结果打标修正,模型根据人工反馈自动微调,提升场景准确率。
91282 1
|
12月前
|
机器学习/深度学习 达摩院 数据挖掘
ICASSP2023论文代码开源|TOLD能对混叠语音建模的说话人日志框架
ICASSP2023论文代码开源|TOLD能对混叠语音建模的说话人日志框架
219 1
|
存储 编解码 数据可视化
漏刻有时数据可视化语音留言墙开发日志(微信录音&七牛云amr转换成mp3存储转码)
漏刻有时数据可视化语音留言墙开发日志(微信录音&七牛云amr转换成mp3存储转码)
74 0
|
机器学习/深度学习 人工智能 达摩院
EMNLP 2022论文解读 | SOND:基于显式语音重叠建模的说话人日志模型
Empirical Methods in Natural Language Processing (EMNLP)是由国际计算语言学协会(Association for Computational Linguistics, ACL)举办的自然语言处理和人工智能方面的重量级国际会议,历届会议都会受到全球各地人工智能领域人士的广泛关注。 近期,阿里巴巴达摩院语音实验室的论文“Speaker Overlap-aware Neural Diarization for Multi-party Meeting Analysis”被EMNLP 2022 主会长文接收。该论文展现了达摩院语音实验室在多方会议分
324 0
|
25天前
|
Kubernetes Ubuntu Windows
【Azure K8S | AKS】分享从AKS集群的Node中查看日志的方法(/var/log)
【Azure K8S | AKS】分享从AKS集群的Node中查看日志的方法(/var/log)
|
7天前
|
Java
日志框架log4j打印异常堆栈信息携带traceId,方便接口异常排查
日常项目运行日志,异常栈打印是不带traceId,导致排查问题查找异常栈很麻烦。
|
17天前
|
存储 监控 数据可视化
SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
【9月更文挑战第2天】SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
49 9