备案控制台

开发者社区 ModelScope模型即服务计算机视觉正文

ModelScope已找到文本训练音频模型，怎么部署长期应用，做口播音频？

ModelScope已找到文本训练音频模型，怎么部署长期应用，做口播音频？

展开

收起

青城山下庄文杰 2023-08-12 09:45:20 158 版权

1 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

ModelScope目前针对文本型模型进行了很好的支持,但直接支持音频模型训练和部署还不完善。一些方法供参考:

使用语音识别API将音频转文本,然后利用ModelScope对文本进行处理,最后文本转语音即可实现语音对话系统。

通过ModelScope继续训练获得足够好的语义模型,然后利用其它深度学习框架如PyTorch等进行精致的端到端音频模型训练与部署。

参考模型如WaveRNN, 使用长短期记忆神经网络训练语音合成模型,与ModelScope生成的文本配对推理生成音频。

商业语音服务如小度助手可以提供出色的语音识别与合成能力,通过API接入实现音频问答交互。

直接使用模型如 wav2vec、HuBERT 进行语音特征提取编码,结合ModelScope下游任务训练进行音频视觉化处理。

等待ModelScope未来可能对直接支持音频型模型的完善,例如加入语音识别与合成能力模块。

2023-08-13 16:49:32

赞同展开评论

相关问答

在modelscope-funasr为什么识别的内容和音频不一致呀？

136

1

0

modelscope-funasr服务端部署的话，推荐什么样的GPU？

211

0

0

modelscope-funasr的语音情感识别，如何离线部署？

154

0

0

modelscope-funasr 可以输入音频吗而不是文件？

155

1

0

想请问下ModelScope里Vllm部署了qwen1.5-32B之后，它无限输出日志怎么解决？

409

0

0

ModelScope里我去微调模型，训练完成的模型会出现以下两种问题，怎么解决？

280

0

0

我在ModelScope创空间部署的应用经常会出现这样的提示，是创空间有什么特殊的限制吗？

127

1

0

modelscope-funasr的音频情感识别，用sensevoice好还是emotion2ve？

181

0

0

modelscope-funasr实时流模式，对音频pcm的数据要求是什么呢？

332

0

0

modelscope-funasr使用离线这个推理示例音频的时候，报了错误，是为什么？

141

1

0

ModelScope模型即服务

计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

我要提问

相关文章

高效率办公PDF批量处理：批量OCR识别PDF区域文字内容，用PDF内容批量改名或导出表格的货物运单应用案例

机器视觉软件平台哪个好：2025领衔的选型指南

机器视觉公司有哪些：德创测控引领，产教融合优选指南

机器视觉公司有哪些：国产平台德创引领产教融合

AI内容创作Agent架构解析：基于移动端原生框架的内容特工队AI (ReelsAgent)与传统短视频工具的技术差异

热门讨论

热门文章

ModelScope下载速度慢怎么解决？

我希望通过damo-YOLO训练1500*1500的图片

ModelScope中，模型下载默认路径在哪个路径？

ModelScope中，大佬们4卡跑lora时，遇到这样的错，怎么解决？

com/action/joingroup?code=v1是什么意思

如何下载modelscope模型？

报错原因？

cpu部署报错 Torch not compiled with CUDA enabled

服务器上onnxruntime-gpu 调用结束，如何释放显存

在ModelScope中，请问模型下载到本地的具体方法？

展开全部

Manga Image Translator：开源的漫画文字翻译工具，支持多语言翻译并嵌入原图，保持漫画的原始风格和布局

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

RF-DETR：YOLO霸主地位不保？开源 SOTA 实时目标检测模型，比眨眼还快3倍！

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

video-analyzer：开源视频分析工具，支持提取视频关键帧、音频转录，自动生成视频详细描述

STAR：南京大学联合字节开源视频超分辨率增强生成框架，视频清晰度一键提升，支持从低分辨率视频生成高分辨率视频

ColorFlow：腾讯和清华大学联合推出的图像序列着色模型，通过参考图像的颜色对黑白漫画进行着色生成彩色漫画

SPAR3D：一张图片就能生成3D模型，每个物体的重建时间仅需0.7秒！

UI-TARS：字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

AddressCLIP：一张照片就能准确定位！中科院联合阿里云推出街道级图像地理定位模型

展开全部

还有其他疑问?