备案控制台

Modelscope机器翻译小助手_个人页

Modelscope机器翻译小助手

文章

0

问答

2

视频

0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

文章
问答
视频

暂无更多信息

2022年11月

11.29 10:47:58

回答了问题 2022-11-29 10:47:58

小白请教两个使用问题

赞1 踩0 评论1
11.07 18:02:54

回答了问题 2022-11-07 18:02:54

有开源的垂直领域英中数据集吗，专业术语那种，很多开源数据集连个cbam自动驾驶这种近几年的名词都翻译

赞0 踩0 评论0

正在加载, 请稍后...

暂无更多信息

回答了问题 2022-11-29

小白请教两个使用问题

您好，以下是针对两个问题的回复： 1.由于模型文件里包含的train.en和train.zh已经是经过tokenization和BPE预处理后的结果，所以配置文件里面的train_src和train_trg字段分别置成了train.en和train.zh。在使用的时候，用户需要将自有数据经过预处理，然后再配置这两个字段。 2. train_max_len定义的是训练集中每一条源文或译文的最大长度。从图片来看，可能存在一以下几个原因：（1）训练数据太少，基础模型是基于2亿+的双语数据训练完成，如果紧接用用4w+（非垂直领域）数据进行微调，可能看不出明显效果；（2）loss过大，可以排查一下预处理阶段是否有误，一般微调初始阶段的loss会在2-4之间（排除这4w+数据属于极特别的垂直领域、与通用场景差异较大的情况）；（3）迭代步数过少，模型尚未收敛。

赞1 踩1 评论1
回答了问题 2022-11-07

有开源的垂直领域英中数据集吗，专业术语那种，很多开源数据集连个cbam自动驾驶这种近几年的名词都翻译

目前没有专门收集垂直领域的中英互译开源数据集，Modelscope采用WMT、OPUS和mtdata三个数据源训练。其中，WMT可以通过我们dataset的sdk来使用，OPUS和mtdata分别可以从这里获取：https://github.com/thammegowda/mtdata和https://opus.nlpl.eu/。

赞0 踩0 评论0

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息