ModelScope已找到文本训练音频模型,怎么部署长期应用,做口播音频?
ModelScope目前针对文本型模型进行了很好的支持,但直接支持音频模型训练和部署还不完善。一些方法供参考:
使用语音识别API将音频转文本,然后利用ModelScope对文本进行处理,最后文本转语音即可实现语音对话系统。
通过ModelScope继续训练获得足够好的语义模型,然后利用其它深度学习框架如PyTorch等进行精致的端到端音频模型训练与部署。
参考模型如WaveRNN, 使用长短期记忆神经网络训练语音合成模型,与ModelScope生成的文本配对推理生成音频。
商业语音服务如小度助手可以提供出色的语音识别与合成能力,通过API接入实现音频问答交互。
直接使用模型如 wav2vec、HuBERT 进行语音特征提取编码,结合ModelScope下游任务训练进行音频视觉化处理。
等待ModelScope未来可能对直接支持音频型模型的完善,例如加入语音识别与合成能力模块。