小白请教两个使用问题
您好,以下是针对两个问题的回复: 1.由于模型文件里包含的train.en和train.zh已经是经过tokenization和BPE预处理后的结果,所以配置文件里面的train_src和train_trg字段分别置成了train.en和train.zh。在使用的时候,用户需要将自有数据经过预处理,然后再配置这两个字段。 2. train_max_len定义的是训练集中每一条源文或译文的最大长度。从图片来看,可能存在一以下几个原因:(1)训练数据太少,基础模型是基于2亿+的双语数据训练完成,如果紧接用用4w+(非垂直领域)数据进行微调,可能看不出明显效果;(2)loss过大,可以排查一下预处理阶段是否有误,一般微调初始阶段的loss会在2-4之间(排除这4w+数据属于极特别的垂直领域、与通用场景差异较大的情况);(3)迭代步数过少,模型尚未收敛。
赞1
踩1