ModelScope问题之NoteBook训练个性化语音合成模型报错如何解决

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: ModelScope训练是指在ModelScope平台上对机器学习模型进行训练的活动;本合集将介绍ModelScope训练流程、模型优化技巧和训练过程中的常见问题解决方法。

问题一:这个pkl文件训练的时候里面需要修改成自己的类别吗?


ModelScope训练修改ZeroHead.num_classess=2,model.class_map 这个pkl文件训练的时候里面需要修改成自己的类别吗?


参考回答:

是的,这个文件需要改成自己的标签映射


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/497322?spm=a2c6h.14164896.0.0.10e71edfW417RK


问题二:在NoteBook中训练个性化语音合成模型报错


按照模型介绍中的Notebook最佳实践,训练个性化语音合成,在执行到基于PTTS-basemodel微调这一步时,训练代码报错,错误如下:

/opt/conda/lib/python3.7/site-packages/modelscope/models/audio/tts/voice.py in train_sambert(self, work_dir, stage_dir, data_dir, config_path, ignore_pretrain, hparams) 473 config['Model']['KanTtsSAMBERT']['params'].update(ling_unit_size) 474 model, optimizer, scheduler = model_builder(config, self.device, --> 475 self.local_rank, 476 self.distributed) 477

AttributeError: 'Voice' object has no attribute 'local_rank'

以上报错信息的代码定位,是在执行 trainer = build_trainer(Trainers.speech_kantts_trainer, default_args=kwargs)

trainer.train()

前面的所有步骤,均按照模型介绍中执行成功。


参考回答:

检查您的模型文件和代码是否正确上传到了 EAS 服务上,并且路径设置正确。您可以通过在 EAS 服务上执行 ls 命令来查看文件是否存在,并检查路径是否正确。

检查您在 EAS 服务上安装的 Python 环境和依赖项是否与您在本地运行代码时使用的环境和依赖项相同。如果存在不同,可能会导致模型无法加载或运行。您可以在 EAS 服务上执行 pip list 命令来查看已安装的 Python 包和版本,并与您在本地运行代码时的环境进行比较。

检查您在 EAS 服务上设置的模型加载代码是否正确。您可以在 EAS 服务上尝试手动加载模型,并检查是否存在加载模型时的错误。

检查您在 EAS 服务上设置的端口号是否正确,并且在本地代码中进行了正确的配置,以便可以与模型进行通信。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/495007?spm=a2c6h.14164896.0.0.5a221edf27ozmG


问题三:ModelScope模型训练完后,拿到model_id了,后面怎么直接调用这个model_id去合成


ModelScope模型训练完后,拿到model_id了,后面怎么直接调用这个model_id去合成语音? 麻烦的model_id类似于<modelscope.models.audio.tts.sambert_hifi.SambertHifigan object at xxxxxxxxxxxx>,下次进来如何直接调用这个model_id?


参考回答:

需要将训练完的模型保存下来 后续合成将模型、配置文件的路径传入modelscope pipeline即可 参考体验模型和成效果的代码示例 https://modelscope.cn/models/damo/speech_personal_sambert-hifigan_nsf_tts_zh-cn_pretrain_16k/summary#%E4%BD%93%E9%AA%8C%E6%A8%A1%E5%9E%8B%E5%90%88%E6%88%90%E6%95%88%E6%9E%9C 另外现在notebook会给每个用户一些存储空间 训练好的模型文件会被存储在notebook文件目录中 退出后不会被清空


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/497257?spm=a2c6h.14164896.0.0.5a221edf27ozmG


问题四:ModelScope基于base模型继续训练得到一个pth文件,这个文件可以使用pytorch加载,不依赖哪些配置文件吗?


ModelScope基于base模型继续训练得到一个pth文件,这个文件可以使用pytorch加载,不依赖哪些配置文件吗?


参考回答:

如果您使用的是PyTorch的预训练模型,并且已经将模型保存为.pth文件,那么您可以直接使用该文件而无需依赖任何配置文件。

当您加载.pth文件时,PyTorch会自动读取其中的参数信息并加载模型。您可以使用以下代码来加载.pth文件:

python import torch

model = torch.load('path/to/model.pth') 这将返回一个Python字典对象,其中包含模型的所有参数和权重。您可以使用这些参数来初始化模型并开始训练或使用模型进行推理。

需要注意的是,如果您在训练过程中使用了其他配置文件(例如.yaml文件),这些配置文件中的信息将不会包含在.pth文件中。如果您需要这些信息,您需要将它们与.pth文件一起保存。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/485432?spm=a2c6h.14164896.0.0.5a221edf27ozmG


问题五:这个测试怎么上传自己的语料?另外怎么训练和开展标注工作?


群里有老师熟悉UniASR语音识别-中文-通用-8k-实时模型么?p('http://www.modelscope.cn/api/v1/models/damo/speech_UniASR_asr_2pass-zh-cn-8k-common-vocab8358-tensorflow1-online/repo?Revision=master\u0026FilePath=example/asr_example.wav',) 这个测试怎么上传自己的语料?另外怎么训练和开展标注工作?


参考回答:

您好!针对您提到的问题,我逐个进行回复:

如何上传自己的语料?

针对您提到的 UniASR 语音识别模型,您可以使用 ModelScope 平台提供的“上传数据集”功能上传您的语料。具体操作步骤如下: 1)进入您的模型详情页,点击左侧菜单中的“数据集”选项卡; 2)点击“上传数据集”按钮,填写相关信息,上传您的语料数据集。 请注意:上传的数据集需要使用标准的语音文件格式(如 wav,mp3 等),并按照标准的数据集组织结构进行组织。具体格式可以参考其他已有的数据集,如一般是分为训练集、验证集和测试集三个部分,每个部分按照不同的文件夹进行组织。

如何进行模型训练和标注工作?

针对您提到的训练和标注工作,这是一个相对复杂的任务,需要涉及到多种技能,包括深度学习、数据处理、模型调优等等。 如果您想自己训练和标注模型,可能需要具备一定的技术背景和经验,并且需要使用专业的工具和库,如 TensorFlow、PyTorch 等等。 不过,如果您在这方面缺乏经验,也可以选择使用一些开源的模型和工具,或者通过 ModelScope 平台中提供的“模型市场”功能寻找已存在的相关模型。 关于 UniASR 语音识别模型的具体训练和标注工作,我们暂时没有相关的资料,您需要先确定您需要训练的模型类型和相应的数据集,然后可以在其他渠道获取更多相关资料和工具。 希望这些信息对您有帮助!


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/495168?spm=a2c6h.14164896.0.0.5a221edf27ozmG

目录
相关文章
|
19天前
|
人工智能 数据处理 语音技术
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
LatentLM是由微软研究院和清华大学联合推出的多模态生成模型,能够统一处理离散和连续数据,具备高性能图像生成、多模态大型语言模型集成等功能,展现出卓越的多模态任务处理能力。
75 29
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
|
28天前
|
机器学习/深度学习 人工智能 Linux
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音(TTS)模型,支持13种语言,具备零样本和少样本语音合成能力,语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如Transformer、VITS、VQVAE和GPT,具有高度准确性和快速合成能力,适用于多种应用场景。
113 3
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
|
5月前
|
自然语言处理 语音技术 开发者
ChatTTS超真实自然的语音合成模型
ChatTTS超真实自然的语音合成模型
165 3
|
6月前
|
机器学习/深度学习 TensorFlow 语音技术
使用Python实现深度学习模型:语音合成与语音转换
【7月更文挑战第19天】 使用Python实现深度学习模型:语音合成与语音转换
129 1
|
8月前
|
自然语言处理
在ModelScope中,你可以通过设置模型的参数来控制输出的阈值
在ModelScope中,你可以通过设置模型的参数来控制输出的阈值
203 1
|
8月前
|
API 语音技术
ModelScope-FunASR**有支持热词又支持时间戳的模型**。
【2月更文挑战第30天】ModelScope-FunASR**有支持热词又支持时间戳的模型**。
230 2
|
8月前
|
人工智能 API 决策智能
Modelscope结合α-UMi:基于Modelscope的多模型协作Agent
基于单个开源小模型的工具调用Agent,由于模型容量和预训练能力获取的限制,无法在推理和规划、工具调用、回复生成等任务上同时获得比肩大模型等性能。
|
8月前
|
文字识别 并行计算 语音技术
ModelScope问题之下载模型文件报错如何解决
ModelScope模型报错是指在使用ModelScope平台进行模型训练或部署时遇到的错误和问题;本合集将收集ModelScope模型报错的常见情况和排查方法,帮助用户快速定位问题并采取有效措施。
1029 3
|
8月前
|
人工智能 达摩院 自然语言处理
超好用的开源模型平台,ModelScope阿里达摩院
超好用的开源模型平台,ModelScope阿里达摩院
545 1
|
8月前
|
API
使用ModelScope平台进行模型验证时
【2月更文挑战第9天】使用ModelScope平台进行模型验证时
190 4

热门文章

最新文章