备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

小白请教两个使用问题

已解决

一、train_src是否应该填写.bpe文件？根据模型介绍里预处理后得到的两个文件是train.en.tok.bpe&train.zh.tok.bpe。 configuration.json配置的train_src和train_trg应该是这两个bpe文件吧？看了下源码读取的就是填写的文件，但是预处理后生成的是bpe文件，有一点困惑。

二、train_max_len定义的是每一条训练数据的长度吧？配置了自己找的语料库(4w+数据)后，训练完成执行测试总感觉没有任何效果。。不知道是不是哪个参数配置错误了，看代码应该是跑了，不知道是不是我的配置有问题。

附图是我训练时的执行结果。

展开

收起

1707843559411554 2022-11-27 08:01:46 895 版权

1 条回答

写回答

取消提交回答

Modelscope机器翻译小助手

采纳回答

您好，以下是针对两个问题的回复： 1.由于模型文件里包含的train.en和train.zh已经是经过tokenization和BPE预处理后的结果，所以配置文件里面的train_src和train_trg字段分别置成了train.en和train.zh。在使用的时候，用户需要将自有数据经过预处理，然后再配置这两个字段。 2. train_max_len定义的是训练集中每一条源文或译文的最大长度。从图片来看，可能存在一以下几个原因：（1）训练数据太少，基础模型是基于2亿+的双语数据训练完成，如果紧接用用4w+（非垂直领域）数据进行微调，可能看不出明显效果；（2）loss过大，可以排查一下预处理阶段是否有误，一般微调初始阶段的loss会在2-4之间（排除这4w+数据属于极特别的垂直领域、与通用场景差异较大的情况）；（3）迭代步数过少，模型尚未收敛。

2022-11-29 10:54:26

赞同 1 展开评论

相关问答

自然语言处理

购买阿里国外的云服务器是否可以访问谷歌？

83981

47

0

请问下我访问接口不通什么原因 Provisional headers are shown

3888

1

0

this xml file does not appear to have any style in

52024

10

0

重启Docker后报错：Error response from daemon

2413

0

0

sql server的用户名和密码怎么查啊？

37602

21

0

LoRa的网络覆盖能力范围是怎么样的？

3238

1

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

61010

32

0

OSS的endpoint如何查看

37577

6

0

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3728

1

0

阿里云服务器如何重置系统？

24791

4

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

收录在圈子:

自然语言处理

168

+ 订阅

相关文章

蚂蚁百宝箱“一箱搞定”会展智能，「桐小乌」为乌镇互联网大会提供全天候一站式向导服务

最佳实践丨让苏东坡“复活”！我用Qwen3-8B实现了与千古文豪的跨时空对话

全来店×蚂蚁百宝箱：智能体开启连锁餐饮智慧化服务新时代

贝聿铭的 “数字续作”：蚂蚁百宝箱 × 苏州博物馆，用 AI 重构文化地标

一年输送旅客数千万次，浦东国际机场的效率秘密藏在这个智能体里

热门讨论

热门文章

在modelscope-funasr想自己训练一种low resource 的方言，有训练的方案吗？

modelscope-funasr实时ASR的微调该怎么操作？

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

modelscope-funasr的paraformer热词版本配置是不是不支持添加权重？

请问微调开元模型qwe1.5b 和 7b 分别支持数据集的上下文长度是多少个汉字/token？

modelscope-funasr实时设别，mode:2pass 还是online，2个有啥不一样？

modelscope-funasr支持粤语么？

modelscope-funasr输出的结果里可以区分说话人吗？

modelscope-funasr 热词如何设置？

modelscope-funasr中8k模型与16k的区别有文档介绍或者说明吗？一直没找到在哪里？

展开全部

中文大模型体验

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

Qlib：华尔街颤抖！微软开源金融AI量化投资神器，助力智能投研

FireCrawl：开源 AI 网络爬虫工具，自动爬取网站及子页面内容，预处理为结构化数据

告别Hugging Face模型下载难题：掌握高效下载策略，畅享无缝开发体验

Cline：29.7K Star！一文详解VSCode最强开源AI编程搭子：一键生成代码+自动跑终端+操控浏览器...

pdf-craft：PDF秒转Markdown/EPUB！接入DeepSeek轻松生成电子书，自动整理目录、注释和引文

FastAPI开发者福音！FastAPI-MCP：将FastAPI秒变MCP服务器的开源神器，无需配置自动转换！

RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

Yuxi-Know：开源智能问答系统，基于大模型RAG与知识图谱技术快速构建知识库

展开全部

还有其他疑问?