开发者社区 问答 正文

结合语义的说话人日志系统是如何解决传统纯声学方案的问题的?

结合语义的说话人日志系统是如何解决传统纯声学方案的问题的?

展开
收起
夹心789 2024-06-30 22:44:27 50 分享 版权
1 条回答
写回答
取消 提交回答
  • 结合语义的说话人日志系统通过引入Forced-Alignment模块来对齐文本和speaker embedding过程,并使用ASR输出的文本结果输入到语义模块中来提取说话人相关的语义信息。通过对话预测和说话人转换预测两个基于Bert的模型,判断多人对话中说话人转换的发生及具体位置,解决了传统纯声学方案在说话人音色相近、频繁切换、抢话以及声学环境复杂时的问题。

    2024-06-30 23:02:02
    赞同 展开评论