开发者社区 > ModelScope模型即服务 > 计算机视觉 > 正文

Paraformer语音识别-长音频版”ModelScope模型识别文本和时间戳为什么长文本返回?

Paraformer语音识别-中文-通用-16k-离线-large-长音频版”这个ModelScope模型的识别文本和时间戳为什么是拼接成长文本返回的?

展开
收起
鸡蛋灌饼儿 2023-01-30 11:49:13 707 0
2 条回答
写回答
取消 提交回答
  • 您好,我们已经修改了,为了方便对输出进行解析,输出json格式,具体方法是安装最新版本的FunASR,具体见:https://github.com/alibaba-damo-academy/FunASR

    2023-01-31 12:49:30
    赞同 展开评论 打赏
  • 时间戳和每个字是对应的,开发者可以根据最终的需求进行进一步的解析。——该回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

    2023-01-30 16:17:12
    赞同 展开评论 打赏

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

相关电子书

更多
万物互联语音交互从端开始——前端处理从技术到商业 立即下载
阿里云总监课第二期——Neural Network Language Model在语音识别中的应用 立即下载
阿里云总监课第二期——IoT时代的语音交互智能 立即下载