modelscope-funasr微调时 我遇到一个问题,怎么解决? 就是 我在tokens.json文件增加了一个 符号,然后 用了一个小训练集进行微调。我debug了一下 代码 确定 训练的文字 其实 不会用到这个 新的符号,(生成的tokenId 不变),但是 不知道为什么 使用微调后的模型 模型语音识别能力 非常差。如果 不改tokens.json 微调后 就没有问题,只是在tokens.json文件增加了一个 “+”,并且 训练集、验证集、测试集也都没有 “+”相关文本, 使得模型语音识别能力基本就是胡说八道了
在微调ModelScope-FunASR时遇到问题,特别是添加了新的符号到tokens.json
文件后模型性能下降,可能的原因和解决方法包括:
检查数据预处理:确保您的训练集、验证集和测试集中的数据都经过了正确的预处理步骤。如果新加的符号“+”需要特殊处理(如转义),则需要在预处理中加入相应逻辑。
符号冲突:检查新加入的符号是否与现有符号产生冲突或混淆。即使是不常用的符号,也可能影响模型的内部表示。
学习率调整:微调时,可能需要调整学习率。如果学习率过高,模型可能会快速偏离正确路径;过低则可能导致模型更新缓慢,无法适应新的符号。
损失函数和评估指标:检查损失函数是否仍然适用于新的任务,以及是否需要更新评估指标以反映新符号的重要性。
模型结构:考虑是否需要修改模型结构来适应新的符号。有时候,增加新的符号需要增加模型的容量或修改架构。
训练时间:如果只进行了少量的训练,模型可能还没有足够学习到新符号的特征。确保模型有足够的时间来学习新的符号表示。
Debugging:继续调试代码,确保没有其他隐藏的错误影响模型的训练和预测。
版本控制:确认使用的tokens.json
版本与微调模型时使用的版本一致。
实验记录:记录每次实验的设置和结果,以便进行对比分析,找出性能下降的具体原因。
寻求帮助:如果问题仍然无法解决,可以在ModelScope-FunASR的社区论坛或相关技术交流群中寻求帮助,分享您的实验设置和遇到的问题,可能会有经验丰富的开发者或研究人员提供解决方案。
综上所述,通过上述步骤,您应该能够定位并解决微调ModelScope-FunASR时遇到的问题。