开发者社区 问答 正文

结合音频、图像信息的多模态说话人日志系统包含了哪些模块?

结合音频、图像信息的多模态说话人日志系统包含了哪些模块?

展开
收起
夹心789 2024-06-24 20:24:44 72 分享 版权
1 条回答
写回答
取消 提交回答
  • 结合音频、图像信息的多模态说话人日志系统除了包含传统的基于声学的识别模块外,还添加了额外的视觉说话人日志模块,包括场景检测分段、说话人检测模块、人脸识别模块等。

    2024-06-24 20:39:49
    赞同 1 展开评论