modelscope-funasr这个问题怎么处理? 用 离线中文模型 微调的时候,由于我的 训练集里 语音内容 说话时 会混杂一些英文,不是纯的中文,微调之后,我发现 模型英文能力 变得很差,连基本的分词能力都没有了,直接输出都是HELLOWORLD 这样大写字母 没空格
数据清洗试试,在训练模型之前,对训练数据进行清洗,尽量只包含中文内容。你可以编写脚本或手动检查数据,将其中的英文内容去除或者替换成中文。
import re
def separate_chinese_and_english(sentence):
# 使用正则表达式匹配中文和英文
chinese_pattern = re.compile(r'[\u4e00-\u9fff]+')
english_pattern = re.compile(r'[a-zA-Z]+')
chinese_matches = chinese_pattern.findall(sentence)
english_matches = english_pattern.findall(sentence)
chinese_text = ''.join(chinese_matches)
english_text = ''.join(english_matches)
return chinese_text, english_text
# 示例使用
sentence = "Hello, 你好!This is a test. 测试一下。"
chinese, english = separate_chinese_and_english(sentence)
print("中文:", chinese)
print("英文:", english)
参考;