modelscope-funasr这个问题怎么处理?

modelscope-funasr这个问题怎么处理? 用 离线中文模型 微调的时候,由于我的 训练集里 语音内容 说话时 会混杂一些英文,不是纯的中文,微调之后,我发现 模型英文能力 变得很差,连基本的分词能力都没有了,直接输出都是HELLOWORLD 这样大写字母 没空格

展开
收起
三分钟热度的鱼 2024-03-13 21:19:32 77 分享 版权
1 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    数据清洗试试,在训练模型之前,对训练数据进行清洗,尽量只包含中文内容。你可以编写脚本或手动检查数据,将其中的英文内容去除或者替换成中文。

    import re  
    
    def separate_chinese_and_english(sentence):  
        # 使用正则表达式匹配中文和英文  
        chinese_pattern = re.compile(r'[\u4e00-\u9fff]+')  
        english_pattern = re.compile(r'[a-zA-Z]+')  
    
        chinese_matches = chinese_pattern.findall(sentence)  
        english_matches = english_pattern.findall(sentence)  
    
        chinese_text = ''.join(chinese_matches)  
        english_text = ''.join(english_matches)  
    
        return chinese_text, english_text  
    
    # 示例使用  
    sentence = "Hello, 你好!This is a test. 测试一下。"  
    chinese, english = separate_chinese_and_english(sentence)  
    print("中文:", chinese)  
    print("英文:", english)
    

    参考;
    image.png

    2024-03-14 21:46:17
    赞同 展开评论

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

热门讨论

热门文章

还有其他疑问?
咨询AI助理