开发者社区 问答 正文

在端到端语音识别模型中,时间戳预测面临的主要挑战是什么?

在端到端语音识别模型中,时间戳预测面临的主要挑战是什么?

展开
收起
夹心789 2024-06-24 20:00:43 109 分享 版权
1 条回答
写回答
取消 提交回答
  • 在端到端语音识别模型中,时间戳预测面临的主要挑战是无法像传统基于HMM的模型那样天然地在解码器中获取输出token的时间戳。CTC/Transducer模型面临尖峰偏移的问题,而Transformer/LAS模型进行非帧同步的解码,因此不能直接获取时间戳。

    2024-06-24 20:30:50
    赞同 展开评论