备案控制台

开发者社区 ModelScope模型即服务语音正文

请问一下FRCRN官方模型的复现问题，是否是通过给出的流程能复现出官方提供的模型呢？

你好，因为自己复现的结果和官方提供的模型效果出入比较大，想对FRCRN的复现问几个问题

想知道官方提供的pytorch_model.bin文件，就是下载https://modelscope.cn/datasets/modelscope/ICASSP_2021_DNS_Challenge/summary中的训练集合，然后用

生成1300h的训练数据训练的模型吗，没有使用额外的或者规模超过1300h的数据吗

在模型训练过程中，默认的每条音频的长度是16000点也就是1s，这个和官方的操作是一样的是吗
想知道官方的模型的训练策略，是按照默认训练配置训练200epoch吗？

展开

收起

游客35ii6aa7eq57e 2023-02-09 14:43:33 1388 版权

4 条回答

写回答

取消提交回答

倾注你的鑫

你好，请问你后续有复现成功吗？

2023-11-16 15:08:18

赞同展开评论
游客za6lm3l5vsdzk

你好，我想请问下，你找到复现结果和官方模型效果出入比较大的原因了吗？是训练数据的问题，还是训练epoch的问题，或者其它，谢谢！

2023-02-20 15:11:39

赞同展开评论
ModelScope小助手-WCH

你好，模型官方提供的模型是使用相同流程训练出来的，就是训练了200 epoch。因为每个用户的数据是自己生成的，具体训练效果可能有少许出入，但应该差别不大。可以先检查下DNS-Challenge数据集是否下载完整，因为数据存储在境外，经常有下载中断的情况。即使数据下载不完整，生成噪音数据时也不会报错，所以容易被忽略。如果数据下载完整，再看是否训练满了200 epoch，有没有中途停止。

2023-02-17 15:00:42

赞同展开评论
co63oc_

GitHub https://github.com/co63oc/cloud

可以增加epoch训练

2023-02-09 20:19:34

赞同展开评论

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

83709

47

0

请问下我访问接口不通什么原因 Provisional headers are shown

3742

1

0

sql server的用户名和密码怎么查啊？

37517

21

0

重启Docker后报错：Error response from daemon

2308

0

0

this xml file does not appear to have any style in

51881

10

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

60936

32

0

OSS的endpoint如何查看

37498

6

0

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3669

1

0

LoRa的网络覆盖能力范围是怎么样的？

3177

1

0

阿里云服务器如何重置系统？

24731

4

0

ModelScope模型即服务

语音

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

我要提问

收录在圈子:

智能语音交互

167

+ 订阅

相关文章

2025年好用Agent软件全解析：从选型逻辑到Top产品盘点，这篇讲透

如何通过SSL证书等级提升企业官网可信度？浏览器绿色标识技术解析

《冬季游戏动态交互的底层逻辑优化全解析》

阿里云解析DNS免费版和付费版有什么区别？收费价格及功能对比

小结

热门讨论

热门文章

modelscope上跑报错，提示要pip install ttsfrd，搞不定

关于 Windows平台上 ttsfrd 库的问题。

使用SambertHifigan个性化语音合成-中文-预训练-16k生成的声音怎么调节语速呢？

No module named 'ttsfrd'

目录空间都删的只剩2G了，还报OSError: [Errno 122] Disk quota exc

SambertHifigan个性化语音合成-中文-预训练-16k 语速太快了怎么设置慢一点

模型训练速度太慢

语音合成speech_sambert-hifigan_tts_zh-cn_16k模型没有使用gpu

ttsfrd 是不开源的吗

自动标注模型ttsfrd初始化失败

展开全部

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

Dolphin：40语种+22方言！清华联合海天瑞声推出的语音识别大模型，识别精度超Whisper两代

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

Text to Bark：让狗狗听懂人话！全球首个AI"狗语"生成器，137种狗狗口音任君挑选

EmotiVoice：网易开源AI语音合成黑科技，2000+音色情感可控

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

WhisperChain：开源 AI 实时语音转文字工具！自动消噪优化文本，效率翻倍

Kokoro-TTS：超轻量级文本转语音模型，支持生成多种语言和多种语音风格

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

展开全部

还有其他疑问?