开发者社区 > ModelScope模型即服务 > 计算机视觉 > 正文

ModelScope语音识别模型可以传入二进制数据传入返回数据不对应,怎么偶尔也有单个字的返回?

ModelScope语音识别模型可以传入二进制数据传入返回数据不对应,怎么偶尔也有单个字的返回?
https://modelscope.cn/models/damo/speech_UniASR_asr_2pass-zh-cn-16k-common-vocab8358-tensorflow1-online/comment!
iwEcAqNwbmcDAQTRBq4F0QFCBrAqxc9vCZvZcATTfYSegN8BB9IWM05jCAAJomltCgAL0gAGhes.png_720x720q90.jpg
iwEcAqNwbmcDAQTRAkQF0QDQBrBbOvuMlipQPgTTfYSegN8AB9IWM05jCAAJomltCgAL0gABa8A.png_720x720q90.jpg

展开
收起
青城山下庄文杰 2023-08-19 08:53:26 76 0
1 条回答
写回答
取消 提交回答
  • 您好,ModelScope 的语音识别模型能够对音频文件进行识别,并将其转换为文本。如果您在输入二进制数据时遇到问题,请尝试以下方法:

    确保您使用的是正确的二进制格式。语音识别模型只支持 wav 格式的数据。
    确保您使用的是正确的音频采样率。语音识别模型只支持 16KHz 的音频采样率。
    确保您使用的是正确的音频编码。语音识别模型只支持 16 位线性 PCM 编码。
    尝试使用其他语音识别模型。如果您仍然遇到问题,请尝试使用其他语音识别模型。
    如果您还有其他问题,请随时联系我们。

    2023-09-21 10:21:21
    赞同 展开评论 打赏

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

相关电子书

更多
阿里云总监课第二期——IoT时代的语音交互智能 立即下载
阿里云总监课第二期——Latency Controlled-BLSTM模型在语音识别中的应用 立即下载
智能语音交互:阿里巴巴的研究与实践 立即下载