开发者社区 > ModelScope模型即服务 > 正文

训练训练nlp_csanmt_translation_en2zh_base的问题的问题

1、我准备好了train.en和train.zh,然后按照预处理步骤

预处理
训练数据预处理流程如下:

Tokenization
英文通过mosesdecoder进行Tokenization

perl tokenizer.perl -l en < train.en > train.en.tok
中文通过jieba进行中文分词

import jieba

fR = open('train.zh', 'r', encoding='UTF-8')
fW = open('train.zh.tok', 'w', encoding='UTF-8')

for sent in fR:
sent = fR.read()
sent_list = jieba.cut(sent)
fW.write(' '.join(sent_list))

fR.close()
fW.close()
Byte-Pair-Encoding
subword-nmt apply-bpe -c bpe.en < train.en.tok > train.en.tok.bpe

subword-nmt apply-bpe -c bpe.zh < train.zh.tok > train.zh.tok.bpe

处理完后还需要做什么操作吗,这时候直接进行训练,好像训练后的模型没有任何变化,文件大小没变化,测试数据的结果也没变化

展开
收起
游客sgmjzhr5t4xu4 2023-10-13 11:23:41 83 0
0 条回答
写回答
取消 提交回答

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

相关产品

  • 自然语言处理
  • 相关电子书

    更多
    自然语言处理得十个发展趋势 立即下载
    自然语言处理的十个发展趋势 立即下载
    深度学习与自然语言处理 立即下载