开发者社区 问答 正文

SEND模型如何解决重叠语音的说话人识别问题?

SEND模型如何解决重叠语音的说话人识别问题?

展开
收起
圆葱猪肉包 2024-08-21 14:52:47 19 分享 版权
1 条回答
写回答
取消 提交回答
  • 基于嵌入码的说话人日志模型(Speaker Embedding-aware Neural Diarization,SEND)。该模型通过动态维护说话人嵌入码记忆单元的数量,提高了对说话人数量的灵活性,既能够应对较多的说话人也不需要提前设定说话人数量;另外,通过幂集编码将重叠语音的说话人日志任务由多标签预测问题重新建模为单标签分类问题,大大提高了对重叠语音的说话人识别率。我们还利用语音中丰富的语义信息,将所提出的方法进行扩展,进一步提高了模型的识别性能。
    image.png

    ——参考链接

    2024-08-31 07:43:38
    赞同 展开评论
问答分类:
问答地址: