备案控制台

开发者社区 ModelScope模型即服务语音正文

Modelscope使用SambertHifigan语音合预训练模型成微调卡住/停住，大佬求救~！！

系统是windows的wsl2 ubuntu20.04
笔记本显卡3060 6G显存 i7 16G内存
cuda 11.6
python 3.7
torch 1.13.1+cu116
torchaudio 0.13.1+cu116
torchvision 0.14.1+cu116

使用该训练模型进行微调
SambertHifigan语音合成-中文-多人预训练-16k
根据教程指示，在微调sambert声学模型时，程序老是在随机某一代卡住，但是从后台监控来看，程序并没有终端，一直保持着高占用的状态，不过内存和显存还有余量。

数据集train 90条 val 10条，共100条，自己录的。

我一开始分析可能是内存不足或者是多线程导致的互锁问题，尝试过修改配置文件config.yaml里的
num_workers: 0 # 4
pin_memory: true # false
以及减小batch_size，都无济于事。

以下是训练卡住时的终端界面和htop内存使用情况：

被这个问题折磨2天了，跪求大佬解答，可以有偿。

展开

收起

SambertHifigan语音合成-中文-多人预训练-16k

游客66hghclbj4tea 2023-12-19 17:38:55 347 版权

0 条回答

写回答

取消提交回答

相关问答

modelscope-funasr微调时日志结果没有cer_att指标

36

0

0

对modelscope的实体命名预训练模型进行微调上出现错误

229

1

0

在modelscope-funasr换了带时间戳的模型但是语音转出来的结果为什么没有时间戳呢？

272

0

0

modelscope-funasr的语音情感识别，如何离线部署？

150

0

0

modelscope-funasr有语音对话分离demo吗？

211

0

0

modelscope 的实时语音通话案例，有类似的方案吗？

129

1

0

ModelScope我试着用swift 微调后微调的模型都失去逻辑怎么办？

178

1

0

modelscope-funasr的vad模型对输入的语音长度是不是有最短时长的要求？

204

0

0

在modelscope-funasr为什么解析出来的文本跟语音差别很大？

112

0

0

modelscope-funasr这样生成的模型对语音的识别结果有没有影响，会不会降低识别率？

119

0

0

ModelScope模型即服务

语音

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

我要提问

相关文章

量化交易机器人开发风控模型对比分析与落地要点

区块链共识机制对公链性能的影响解读

基于Python大数据的的电商用户行为分析系统

公链应用开发智能合约部署全流程要点

LBA-ECO ND-02 土壤气体通量，降雨排除，67 公里，塔帕若斯国家森林

热门讨论

热门文章

用通用数据格式训练会报错，请问代码中需要做哪些修改呢？

如何做一款高准确率去判断中文语音是否为同一人说的软件

modelscope上跑报错，提示要pip install ttsfrd，搞不定

目录空间都删的只剩2G了，还报OSError: [Errno 122] Disk quota exc

关于 Windows平台上 ttsfrd 库的问题。

关于 modelscope-funasr 报错的问题。

KeyError: 'asr-inference is not in the pipelines r

ffmpeg提取mp4文件为wav, wav文件比mp4文件小不了多少,怎么办

自动标注模型ttsfrd初始化失败

wekws训练自定义数据集的误唤醒较高。

展开全部

Dolphin：40语种+22方言！清华联合海天瑞声推出的语音识别大模型，识别精度超Whisper两代

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

三行代码实现实时语音转文本，支持自动断句和语音唤醒，用 RealtimeSTT 轻松创建高效语音 AI 助手

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

ClearerVoice-Studio：阿里通义开源的语音处理框架，提供语音增强、分离和说话人提取等功能

EmotiVoice：网易开源AI语音合成黑科技，2000+音色情感可控

Clone-voice：开源的声音克隆工具，支持文本转语音或改变声音风格，支持16种语言

AI终于能听懂宝宝说话了！ChildMandarin：智源研究院开源的低幼儿童中文语音数据集，覆盖22省方言

展开全部

还有其他疑问?