ModelScope问题之NoteBook训练个性化语音合成模型报错如何解决

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: ModelScope训练是指在ModelScope平台上对机器学习模型进行训练的活动;本合集将介绍ModelScope训练流程、模型优化技巧和训练过程中的常见问题解决方法。

问题一:这个pkl文件训练的时候里面需要修改成自己的类别吗?


ModelScope训练修改ZeroHead.num_classess=2,model.class_map 这个pkl文件训练的时候里面需要修改成自己的类别吗?


参考回答:

是的,这个文件需要改成自己的标签映射


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/497322?spm=a2c6h.14164896.0.0.10e71edfW417RK


问题二:在NoteBook中训练个性化语音合成模型报错


按照模型介绍中的Notebook最佳实践,训练个性化语音合成,在执行到基于PTTS-basemodel微调这一步时,训练代码报错,错误如下:

/opt/conda/lib/python3.7/site-packages/modelscope/models/audio/tts/voice.py in train_sambert(self, work_dir, stage_dir, data_dir, config_path, ignore_pretrain, hparams) 473 config['Model']['KanTtsSAMBERT']['params'].update(ling_unit_size) 474 model, optimizer, scheduler = model_builder(config, self.device, --> 475 self.local_rank, 476 self.distributed) 477

AttributeError: 'Voice' object has no attribute 'local_rank'

以上报错信息的代码定位,是在执行 trainer = build_trainer(Trainers.speech_kantts_trainer, default_args=kwargs)

trainer.train()

前面的所有步骤,均按照模型介绍中执行成功。


参考回答:

检查您的模型文件和代码是否正确上传到了 EAS 服务上,并且路径设置正确。您可以通过在 EAS 服务上执行 ls 命令来查看文件是否存在,并检查路径是否正确。

检查您在 EAS 服务上安装的 Python 环境和依赖项是否与您在本地运行代码时使用的环境和依赖项相同。如果存在不同,可能会导致模型无法加载或运行。您可以在 EAS 服务上执行 pip list 命令来查看已安装的 Python 包和版本,并与您在本地运行代码时的环境进行比较。

检查您在 EAS 服务上设置的模型加载代码是否正确。您可以在 EAS 服务上尝试手动加载模型,并检查是否存在加载模型时的错误。

检查您在 EAS 服务上设置的端口号是否正确,并且在本地代码中进行了正确的配置,以便可以与模型进行通信。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/495007?spm=a2c6h.14164896.0.0.5a221edf27ozmG


问题三:ModelScope模型训练完后,拿到model_id了,后面怎么直接调用这个model_id去合成


ModelScope模型训练完后,拿到model_id了,后面怎么直接调用这个model_id去合成语音? 麻烦的model_id类似于<modelscope.models.audio.tts.sambert_hifi.SambertHifigan object at xxxxxxxxxxxx>,下次进来如何直接调用这个model_id?


参考回答:

需要将训练完的模型保存下来 后续合成将模型、配置文件的路径传入modelscope pipeline即可 参考体验模型和成效果的代码示例 https://modelscope.cn/models/damo/speech_personal_sambert-hifigan_nsf_tts_zh-cn_pretrain_16k/summary#%E4%BD%93%E9%AA%8C%E6%A8%A1%E5%9E%8B%E5%90%88%E6%88%90%E6%95%88%E6%9E%9C 另外现在notebook会给每个用户一些存储空间 训练好的模型文件会被存储在notebook文件目录中 退出后不会被清空


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/497257?spm=a2c6h.14164896.0.0.5a221edf27ozmG


问题四:ModelScope基于base模型继续训练得到一个pth文件,这个文件可以使用pytorch加载,不依赖哪些配置文件吗?


ModelScope基于base模型继续训练得到一个pth文件,这个文件可以使用pytorch加载,不依赖哪些配置文件吗?


参考回答:

如果您使用的是PyTorch的预训练模型,并且已经将模型保存为.pth文件,那么您可以直接使用该文件而无需依赖任何配置文件。

当您加载.pth文件时,PyTorch会自动读取其中的参数信息并加载模型。您可以使用以下代码来加载.pth文件:

python import torch

model = torch.load('path/to/model.pth') 这将返回一个Python字典对象,其中包含模型的所有参数和权重。您可以使用这些参数来初始化模型并开始训练或使用模型进行推理。

需要注意的是,如果您在训练过程中使用了其他配置文件(例如.yaml文件),这些配置文件中的信息将不会包含在.pth文件中。如果您需要这些信息,您需要将它们与.pth文件一起保存。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/485432?spm=a2c6h.14164896.0.0.5a221edf27ozmG


问题五:这个测试怎么上传自己的语料?另外怎么训练和开展标注工作?


群里有老师熟悉UniASR语音识别-中文-通用-8k-实时模型么?p('http://www.modelscope.cn/api/v1/models/damo/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab8358-tensorflow1-online/repo?Revision=master\u0026FilePath=example/asr_example.wav',) 这个测试怎么上传自己的语料?另外怎么训练和开展标注工作?


参考回答:

您好!针对您提到的问题,我逐个进行回复:

如何上传自己的语料?

针对您提到的 UniASR 语音识别模型,您可以使用 ModelScope 平台提供的“上传数据集”功能上传您的语料。具体操作步骤如下: 1)进入您的模型详情页,点击左侧菜单中的“数据集”选项卡; 2)点击“上传数据集”按钮,填写相关信息,上传您的语料数据集。 请注意:上传的数据集需要使用标准的语音文件格式(如 wav,mp3 等),并按照标准的数据集组织结构进行组织。具体格式可以参考其他已有的数据集,如一般是分为训练集、验证集和测试集三个部分,每个部分按照不同的文件夹进行组织。

如何进行模型训练和标注工作?

针对您提到的训练和标注工作,这是一个相对复杂的任务,需要涉及到多种技能,包括深度学习、数据处理、模型调优等等。 如果您想自己训练和标注模型,可能需要具备一定的技术背景和经验,并且需要使用专业的工具和库,如 TensorFlow、PyTorch 等等。 不过,如果您在这方面缺乏经验,也可以选择使用一些开源的模型和工具,或者通过 ModelScope 平台中提供的“模型市场”功能寻找已存在的相关模型。 关于 UniASR 语音识别模型的具体训练和标注工作,我们暂时没有相关的资料,您需要先确定您需要训练的模型类型和相应的数据集,然后可以在其他渠道获取更多相关资料和工具。 希望这些信息对您有帮助!


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/495168?spm=a2c6h.14164896.0.0.5a221edf27ozmG

目录
打赏
0
0
0
0
767
分享
相关文章
如何将Together AI上基于Qwen2-7B训练的模型部署到ModelScope平台
如何将Together AI上基于Qwen2-7B训练的模型部署到ModelScope平台
84 10
|
2月前
【求助】ModelScope Notebook中如何使用conda
在魔搭创建的CPU环境中,虽然在Terminal中可以正常使用miniconda,但在Notebook中无法切换到conda环境,只能选择默认的ipykernel。如何解决这一问题?
98 12
赢万元奖金 | 第七届CCF开源创新大赛ModelScope开源模型应用挑战赛开启报名!
第七届CCF开源创新大赛(后简称“大赛”) 由中国计算机学会(CCF)主办,长沙理工大学、CCF开源发展委员会联合承办。
ModelScope联手OpenDataLab:直接调用7000+开源数据集,赋能AI模型加速研发
魔搭社区和OpenDatalab浦数合作,共同开启一场模型与数据的深度融合,旨在为中国开发者打造更加高效、开放的AI体验。
PAI x ModelScope: 在PAI使用ModelScope模型
在当前的人工智能领域,特别是大语言模型、文生图等领域,基于预训练模型完成机器学习模型的开发部署已成为重要的应用范式,开发者们依赖于这些先进的开源预训练模型,以简化机器学习应用的开发并加速创新。
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
LatentLM是由微软研究院和清华大学联合推出的多模态生成模型,能够统一处理离散和连续数据,具备高性能图像生成、多模态大型语言模型集成等功能,展现出卓越的多模态任务处理能力。
115 29
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音(TTS)模型,支持13种语言,具备零样本和少样本语音合成能力,语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如Transformer、VITS、VQVAE和GPT,具有高度准确性和快速合成能力,适用于多种应用场景。
256 3
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
使用Python实现深度学习模型:语音合成与语音转换
【7月更文挑战第19天】 使用Python实现深度学习模型:语音合成与语音转换
220 1

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等