EMNLP 2022论文解读 | SOND:基于显式语音重叠建模的说话人日志模型

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: Empirical Methods in Natural Language Processing (EMNLP)是由国际计算语言学协会(Association for Computational Linguistics, ACL)举办的自然语言处理和人工智能方面的重量级国际会议,历届会议都会受到全球各地人工智能领域人士的广泛关注。

研究背景

在多方会议分析中,准确地识别出说话人的身份信息尤为重要。近期,研究者们提出了各种各样的说话人日志技术来解决这一问题,它们大致可以分为三类,分别是基于聚类的算法、端到端的模型化方法,以及这两者的混合系统。

image.png

基于聚类的说话人日志技术主要包括三个部分,分别是语音分割Segmentation、嵌入码提取Embedding Extraction和聚类算法Clustering Algorithm。其中较为关键的是聚类算法的选择,例如,K-means、谱聚类SC、多层次聚类AHC等。

此前,达摩院语音实验室对说话人日志中的聚类算法进行探索,提出了能够利用语音拓扑结构信息的社群检测聚类算法并被语音领域顶级会议ICASSP 2022接收,详情参见论文“Reformulating speaker diarization as community detection with emphasis on topological structure”[1]。然而,基于聚类的说话人日志技术存在两个问题,一是聚类算法多是无监督的,并没有直接最小化说话人识别错误;二是聚类算法通常建立在分段内说话人唯一这一假设上,无法应对重叠语音。

image.png

为解决这两个问题,端到端模型化的说话人日志技术(EEND)成为一个新的研究热点。在EEND中,说话人日志被建模成一个多标签预测(Multi-label prediction)任务,其模型的目标是对每个说话人单独预测一组二值化的标签,来代表该说话人是否在这一时刻存在语音活动。Fujita等人提出使用句子级置换不变损失(uPIT)来训练模型,这样能够直接最小化说话人识别错误,也能够应对语音重叠问题 [2]。虽然研究者们在端到端的模型上付出了很多努力,例如EEND-EDA [3]、RSAN [4]等,但由于uPIT的指数爆炸问题,EEND仍然很难应用在说话人数量较多的场景(大于4人)。此外,在处理较长的语音会议时,EEND对内存和长时建模能力也提出了难以满足的要求。

image.png

为了兼顾长时会议的处理能力和重叠语音的建模能力,混合系统(Hybrid system)将聚类算法和基于神经网络的说话人日志模型相结合,是一种极具潜力的说话人日志技术。在现有的混合系统中,首先使用聚类算法对语音片段进行合并得到若干说话人的声纹信息(Speaker Profile),而后将这些声纹信息和语音片段一同送入目标说话人语音检测模块(TSVAD),分别对各个说话人的语音活动进行检测。

image.png

容易看出,不管是EEND还是TSVAD都将说话人日志任务建模为多标签预测问题(Multi-label prediction, MLP),通过单独对每个说话人的语音活动进行检测来隐含地处理语音重叠问题。这样的建模方式忽略了说话人之间的关联性,同时也缺少对重叠语音的显式建模。

针对这些问题,我们提出了一种全新的建模方式,即通过幂集编码将说话人日志任务建模为单标签分类问题(Single-label classification, SLC)。在SLC中,不同的说话人组合用一个唯一的幂集编码来表示,通过对幂集编码的预测来显示的建模说话人之间的关联性和语音重叠。除了在现有的TSVAD模型验证这种建模方式的有效性外,我们还进一步提出了Speaker Overlap-aware Neural Diarization(SOND)模型来更加充分地挖掘显示建模说话人重叠所带来的好处,接下来分别对这两点进行展开介绍。

基于单标签分类的说话人日志模型

image.png

我们使用幂集(Power set,PS)来对说话人的组合进行编码,从能够显式的对说话人的语音重叠和关联关系进行建模。给定 N 个说话人 {1,2,...,N} ,它们的幂集 PS 定义为:

image.png

image.png

为了更好的建模说话人重叠,我们提出了Speaker Overlap-aware Neural Diarization(SOND)模型。如图6所示,SOND包括对语音信息进行编码的Speech encoder、对说话人信息进行编码的Speaker encoder、上下文依赖的打分器CD scorer、上下文无关的打分器CI scorer以及预测幂集编码的说话人混合网络SCN。

Speech encoder采用说话人识别任务中常用的ResNet34网络结构,并使用CN-Celeb和Alimeeting [5]等数据集进行预训练。与说话人识别任务不同的是,我们采用windowed statistic pooling来得到每个时刻的语音表示 :

image.png

image.png

如表1所示,与聚类方法VBx相比,我们的方法获得了极大的性能提升,这得益于我们的模型能够处理语音重叠问题,而VBx则不能。与其他基于神经网络的说话人日志方法相比,引入幂集编码PSE能够提升TSVAD模型对重叠语音的建模能力。而将SOND引入则能够进一步发挥SLC建模方式的优势,获得了最优的性能。

image.png

此外,我们还进行了消融实验来评估SOND中每个模块的重要性。从表2可以看出,所提出的模块对最终的性能都有正向的帮助,其中上下文依赖的打分器CD scorer和说话人混合网络SCN的作用尤其明显,不可或缺。

image.png

我们进一步评估了不同模型对说话人声纹信息准确性的依赖度。从表3可以看出,所提出的SOND对人声纹信息准确性的依赖程度更低,从理想(Oracle)声纹切换到聚类(Clustering)声纹,性能损失小于TSVAD模型,而SOND对声纹信息的鲁棒性则主要得益于说话人编码器Speaker encoder和上下文独立打分器CI scorer的引入。

Future Work

本文提出的SOND的代码和模型近期会在ModelScope开源,欢迎大家前往达摩院模型开源社区ModelScope体验多种语音AI模型。社区官网链接:modelscope.cn

image.png

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
1月前
|
存储 运维 监控
超越传统模型:从零开始构建高效的日志分析平台——基于Elasticsearch的实战指南
【10月更文挑战第8天】随着互联网应用和微服务架构的普及,系统产生的日志数据量日益增长。有效地收集、存储、检索和分析这些日志对于监控系统健康状态、快速定位问题以及优化性能至关重要。Elasticsearch 作为一种分布式的搜索和分析引擎,以其强大的全文检索能力和实时数据分析能力成为日志处理的理想选择。
103 6
|
1月前
|
SQL 存储 人工智能
阿里云日志服务的傻瓜式极易预测模型
预测服务有助于提前规划,减少资源消耗和成本。阿里云日志服务的AI预测服务简化了数学建模,仅需SQL操作即可预测未来指标,具备高准确性,并能处理远期预测。此外,通过ScheduledSQL功能,可将预测任务自动化,定时执行并保存结果。
62 3
|
3月前
|
数据挖掘 语音技术
3D-Speaker说话人任务的开源项目问题之语义说话人信息模块在说话人日志系统中的问题如何解决
3D-Speaker说话人任务的开源项目问题之语义说话人信息模块在说话人日志系统中的问题如何解决
|
3月前
|
数据挖掘 语音技术
3D-Speaker说话人任务的开源项目问题之视觉信息在说话人日志技术中的问题如何解决
3D-Speaker说话人任务的开源项目问题之视觉信息在说话人日志技术中的问题如何解决
|
6月前
|
存储 人工智能 运维
SLS 大模型可观测&安全推理审计标准解决方案
本文介绍大模型可观测&安全推理审计解决方案和Demo演示,SLS 提供全面的 LLM 监控和日志记录功能。监控大模型使用情况和性能,自定义仪表盘;SLS 汇总 Actiontrail 事件、云产品可观测日志、LLM 网关明细日志、详细对话明细日志、Prompt Trace 和推理实时调用明细等数据,建设完整统一的大模型可观测方案,为用户的大模型安全推理审计提供全面合规支持。
104605 1
|
6月前
|
人工智能 运维 监控
SLS 智能运维 AI 基础模型创新
SLS 全新发布运维场景基础模型,覆盖 Log、Metric、Trace 等可观测数据场景,模型提供开箱即用的异常检测、自动标注、分类和根因分析等能力;根因分析算法千级异常请求秒级定位,生产中准确率达95%;同时支持人工辅助微调,提供人工标注、结果打标修正,模型根据人工反馈自动微调,提升场景准确率。
91347 1
|
机器学习/深度学习 达摩院 数据挖掘
ICASSP2023论文代码开源|TOLD能对混叠语音建模的说话人日志框架
ICASSP2023论文代码开源|TOLD能对混叠语音建模的说话人日志框架
274 1
|
监控
135 日志监控告警系统案例(数据模型设计)
135 日志监控告警系统案例(数据模型设计)
168 0
|
11天前
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
116 30
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
|
1月前
|
XML JSON Java
Logback 与 log4j2 性能对比:谁才是日志框架的性能王者?
【10月更文挑战第5天】在Java开发中,日志框架是不可或缺的工具,它们帮助我们记录系统运行时的信息、警告和错误,对于开发人员来说至关重要。在众多日志框架中,Logback和log4j2以其卓越的性能和丰富的功能脱颖而出,成为开发者们的首选。本文将深入探讨Logback与log4j2在性能方面的对比,通过详细的分析和实例,帮助大家理解两者之间的性能差异,以便在实际项目中做出更明智的选择。
216 3

热门文章

最新文章