我在finetune "speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online"这个模型,语音数据一共800条,10s以内的一句话音频;
按照我自己的理解params.batch_bins 这个参数应该是一个比较固定的值
想问一下,modelscope-funasr如何设置params.batch_bins 这个值?
在modelscope-funasr中,params.batch_bins这个参数用于设置每个批次的音频长度。通常情况下,我们可以根据实际的语音数据和硬件资源来设置这个值。
如果你的语音数据是10秒以内的一句话音频,那么可以将params.batch_bins设置为10000(单位为采样点数)。这样,每个批次的音频长度就是10秒,可以满足你的需求。
如果你的语音数据长度不一致,或者需要对不同长度的音频进行不同的处理,那么你可能需要根据实际情况调整params.batch_bins的值。例如,你可以将较短的音频分到较小的批次中进行处理,以减少内存占用和计算资源的需求。
需要注意的是,params.batch_bins的值设置得过大可能会导致内存占用过高,而设置得过小可能会导致处理速度较慢。因此,你需要根据实际需求和硬件资源来合理设置这个参数。
和你的显存有关系哈,默认11GB显存,如果你的比较大,可以增大params.batch_bins哈,这个的大小不影响收敛的结果,只影响训练的显存和速度。此回答整理自钉群“modelscope-funasr社区交流”
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352