开发者社区 > ModelScope模型即服务 > 计算机视觉 > 正文

ModelScope已找到文本训练音频模型,怎么部署长期应用,做口播音频?

ModelScope已找到文本训练音频模型,怎么部署长期应用,做口播音频?

展开
收起
青城山下庄文杰 2023-08-12 09:45:20 93 0
1 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    ModelScope目前针对文本型模型进行了很好的支持,但直接支持音频模型训练和部署还不完善。一些方法供参考:

    使用语音识别API将音频转文本,然后利用ModelScope对文本进行处理,最后文本转语音即可实现语音对话系统。

    通过ModelScope继续训练获得足够好的语义模型,然后利用其它深度学习框架如PyTorch等进行精致的端到端音频模型训练与部署。

    参考模型如WaveRNN, 使用长短期记忆神经网络训练语音合成模型,与ModelScope生成的文本配对推理生成音频。

    商业语音服务如小度助手可以提供出色的语音识别与合成能力,通过API接入实现音频问答交互。

    直接使用模型如 wav2vec、HuBERT 进行语音特征提取编码,结合ModelScope下游任务训练进行音频视觉化处理。

    等待ModelScope未来可能对直接支持音频型模型的完善,例如加入语音识别与合成能力模块。

    2023-08-13 16:49:32
    赞同 展开评论 打赏

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载