▏研究背景
在多方会议分析中,准确地识别出说话人的身份信息尤为重要。近期,研究者们提出了各种各样的说话人日志技术来解决这一问题,它们大致可以分为三类,分别是基于聚类的算法、端到端的模型化方法,以及这两者的混合系统。
基于聚类的说话人日志技术主要包括三个部分,分别是语音分割Segmentation、嵌入码提取Embedding Extraction和聚类算法Clustering Algorithm。其中较为关键的是聚类算法的选择,例如,K-means、谱聚类SC、多层次聚类AHC等。
此前,达摩院语音实验室对说话人日志中的聚类算法进行探索,提出了能够利用语音拓扑结构信息的社群检测聚类算法并被语音领域顶级会议ICASSP 2022接收,详情参见论文“Reformulating speaker diarization as community detection with emphasis on topological structure”[1]。然而,基于聚类的说话人日志技术存在两个问题,一是聚类算法多是无监督的,并没有直接最小化说话人识别错误;二是聚类算法通常建立在分段内说话人唯一这一假设上,无法应对重叠语音。
为解决这两个问题,端到端模型化的说话人日志技术(EEND)成为一个新的研究热点。在EEND中,说话人日志被建模成一个多标签预测(Multi-label prediction)任务,其模型的目标是对每个说话人单独预测一组二值化的标签,来代表该说话人是否在这一时刻存在语音活动。Fujita等人提出使用句子级置换不变损失(uPIT)来训练模型,这样能够直接最小化说话人识别错误,也能够应对语音重叠问题 [2]。虽然研究者们在端到端的模型上付出了很多努力,例如EEND-EDA [3]、RSAN [4]等,但由于uPIT的指数爆炸问题,EEND仍然很难应用在说话人数量较多的场景(大于4人)。此外,在处理较长的语音会议时,EEND对内存和长时建模能力也提出了难以满足的要求。
为了兼顾长时会议的处理能力和重叠语音的建模能力,混合系统(Hybrid system)将聚类算法和基于神经网络的说话人日志模型相结合,是一种极具潜力的说话人日志技术。在现有的混合系统中,首先使用聚类算法对语音片段进行合并得到若干说话人的声纹信息(Speaker Profile),而后将这些声纹信息和语音片段一同送入目标说话人语音检测模块(TSVAD),分别对各个说话人的语音活动进行检测。
容易看出,不管是EEND还是TSVAD都将说话人日志任务建模为多标签预测问题(Multi-label prediction, MLP),通过单独对每个说话人的语音活动进行检测来隐含地处理语音重叠问题。这样的建模方式忽略了说话人之间的关联性,同时也缺少对重叠语音的显式建模。
针对这些问题,我们提出了一种全新的建模方式,即通过幂集编码将说话人日志任务建模为单标签分类问题(Single-label classification, SLC)。在SLC中,不同的说话人组合用一个唯一的幂集编码来表示,通过对幂集编码的预测来显示的建模说话人之间的关联性和语音重叠。除了在现有的TSVAD模型验证这种建模方式的有效性外,我们还进一步提出了Speaker Overlap-aware Neural Diarization(SOND)模型来更加充分地挖掘显示建模说话人重叠所带来的好处,接下来分别对这两点进行展开介绍。
▏基于单标签分类的说话人日志模型
我们使用幂集(Power set,PS)来对说话人的组合进行编码,从能够显式的对说话人的语音重叠和关联关系进行建模。给定 N 个说话人 {1,2,...,N} ,它们的幂集 PS 定义为:
为了更好的建模说话人重叠,我们提出了Speaker Overlap-aware Neural Diarization(SOND)模型。如图6所示,SOND包括对语音信息进行编码的Speech encoder、对说话人信息进行编码的Speaker encoder、上下文依赖的打分器CD scorer、上下文无关的打分器CI scorer以及预测幂集编码的说话人混合网络SCN。
Speech encoder采用说话人识别任务中常用的ResNet34网络结构,并使用CN-Celeb和Alimeeting [5]等数据集进行预训练。与说话人识别任务不同的是,我们采用windowed statistic pooling来得到每个时刻的语音表示 :
如表1所示,与聚类方法VBx相比,我们的方法获得了极大的性能提升,这得益于我们的模型能够处理语音重叠问题,而VBx则不能。与其他基于神经网络的说话人日志方法相比,引入幂集编码PSE能够提升TSVAD模型对重叠语音的建模能力。而将SOND引入则能够进一步发挥SLC建模方式的优势,获得了最优的性能。
此外,我们还进行了消融实验来评估SOND中每个模块的重要性。从表2可以看出,所提出的模块对最终的性能都有正向的帮助,其中上下文依赖的打分器CD scorer和说话人混合网络SCN的作用尤其明显,不可或缺。
我们进一步评估了不同模型对说话人声纹信息准确性的依赖度。从表3可以看出,所提出的SOND对人声纹信息准确性的依赖程度更低,从理想(Oracle)声纹切换到聚类(Clustering)声纹,性能损失小于TSVAD模型,而SOND对声纹信息的鲁棒性则主要得益于说话人编码器Speaker encoder和上下文独立打分器CI scorer的引入。
▏Future Work
本文提出的SOND的代码和模型近期会在ModelScope开源,欢迎大家前往达摩院模型开源社区ModelScope体验多种语音AI模型。社区官网链接:modelscope.cn