开发者社区> 问答> 正文

Paraformer语音识别声学模型包含哪些主要组成部分?

Paraformer语音识别声学模型包含哪些主要组成部分?

展开
收起
夹心789 2024-06-24 20:00:44 6 0
1 条回答
写回答
取消 提交回答
  • Paraformer语音识别声学模型主要包含以下组成部分:
    1.Encoder:负责将输入的音频数据编码为声学特征向量,可以采用不同的网络结构,如self-attention,conformer,SAN-M等。
    2.Predictor:为两层FFN,预测目标文字个数以及抽取目标文字对应的声学向量。
    3.Sampler:为无可学习参数模块,依据输入的声学向量和目标向量,生产含有语义的特征向量。
    4.Decoder:结构与自回归模型类似,为双向建模(自回归为单向建模)。
    5.Loss function:包括交叉熵(CE)和Predictor优化目标MAE。

    2024-06-24 20:30:25
    赞同 1 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
阿里云总监课第二期——IoT时代的语音交互智能 立即下载
阿里云总监课第二期——Latency Controlled-BLSTM模型在语音识别中的应用 立即下载
智能语音交互:阿里巴巴的研究与实践 立即下载