开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

训练nlp 翻译模型,如何让较长的中英文药品名不自动分词

训练nlp 翻译模型nlp_csanmt_translation_en2zh,有比较长的英文药品名,对应中文名也比较长
结果给中文自动分词了,这个怎么解决

展开
收起
1696268512718304 2023-08-15 10:35:32 227 0
1 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    中英文药品名自动进行了分词,你可以尝试以下方法来解决这个问题:

    添加特殊标记:在训练数据中,为较长的中英文药品名添加特殊标记,以防止模型自动进行分词。你可以在药品名的开头或结尾添加一些特殊字符,例如"##",以指示模型不应该将其分割为多个单词。在预测时,你需要在输入的药品名中同样添加这些特殊标记。

    调整分词器:如果模型使用了分词器(tokenizer),你可以尝试使用不同的分词模式或配置参数来处理较长的药品名。一些分词器可能会根据空格或标点符号进行分词,你可以尝试设置分词器的最大词长度,以确保较长的药品名不会被分割。

    预处理输入数据:在输入数据传递给模型之前,你可以对较长的药品名进行预处理。例如,你可以将药品名中的空格替换为特殊字符,或者使用连字符将多个单词连接起来,以确保药品名被视为一个整体。

    后处理输出结果:如果模型输出的中文翻译结果出现了错误的分词,你可以使用中文分词工具对结果进行后处理,将错误的分词进行修正。常见的中文分词工具包括jieba和pkuseg等。

    2023-08-16 07:54:17
    赞同 展开评论 打赏

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

相关产品

  • 自然语言处理
  • 相关电子书

    更多
    自然语言处理得十个发展趋势 立即下载
    自然语言处理的十个发展趋势 立即下载
    深度学习与自然语言处理 立即下载