文档备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

训练nlp 翻译模型，如何让较长的中英文药品名不自动分词

训练nlp 翻译模型nlp_csanmt_translation_en2zh，有比较长的英文药品名，对应中文名也比较长
结果给中文自动分词了，这个怎么解决

展开

收起

CSANMT连续语义增强机器翻译-英中-通用领域-large

1696268512718304 2023-08-15 10:35:32 454 版权

1 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

中英文药品名自动进行了分词，你可以尝试以下方法来解决这个问题：

添加特殊标记：在训练数据中，为较长的中英文药品名添加特殊标记，以防止模型自动进行分词。你可以在药品名的开头或结尾添加一些特殊字符，例如"##"，以指示模型不应该将其分割为多个单词。在预测时，你需要在输入的药品名中同样添加这些特殊标记。

调整分词器：如果模型使用了分词器（tokenizer），你可以尝试使用不同的分词模式或配置参数来处理较长的药品名。一些分词器可能会根据空格或标点符号进行分词，你可以尝试设置分词器的最大词长度，以确保较长的药品名不会被分割。

预处理输入数据：在输入数据传递给模型之前，你可以对较长的药品名进行预处理。例如，你可以将药品名中的空格替换为特殊字符，或者使用连字符将多个单词连接起来，以确保药品名被视为一个整体。

后处理输出结果：如果模型输出的中文翻译结果出现了错误的分词，你可以使用中文分词工具对结果进行后处理，将错误的分词进行修正。常见的中文分词工具包括jieba和pkuseg等。

2023-08-16 07:54:17

赞同展开评论

相关问答

NLP自学习平台 Structbert模型用了500个数据训练出来准确率等结果仍然为零是怎么回事呢？

217

1

0

NLP自学习平台如何在分词的时候自定义停顿词？

322

10

0

NLP自学习平台分词停顿词接口在哪？

173

1

0

NLP自学习平台阿里云nlp的分词功能中支持上传停顿词的操作嘛，请问相关接口参数是什么呢？

194

1

0

NLP自学习平台这个报错，模型预测结果为空是什么意思呢？

200

1

0

NLP自学习平台测试模型用到的测试集有格式要求吗？

174

1

0

NLP自学习平台像这样训练完成的模型发布不了一直显示加速中，取消发布显示部署失败是怎么回事呢？

201

0

0

NLP自学习平台非融合类型的文本分类模型这个使用文档有吗？

149

0

0

NLP自学习平台在训练文本实体抽取的模型时训练失败了，训练日志报错是这样，怎么解决？

189

1

0

NLP自学习平台模型准确率90%以上但是测试没有结果是怎么回事？

167

1

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

相关文章

阿里云Token Plan是什么？在百炼怎么开通Token Plan并按Credits计费？

阿里云百炼TokenPlan和CodingPlan有啥区别？选哪个API调用模型更划算？对照表

阿里云发布 OSS Agent：对象存储的下一个交互方式，是自然语言

注意力偏误与规则的结构性补偿

2026年企业建设智能客服系统要多少钱？费用、选型、落地

相关解决方案

更多

基于 Spark 和 PyTorch 的模型训练方案

一键训练模型及部署GPU共享推理服务

OpenAI 重磅开源，快速部署GPT-OSS模型

模型蒸馏：让0.6B模型媲美235B模型

AI 视频翻译：打破语言壁垒，连接全球观众

热门讨论

热门文章

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

modelscope-funasr这个报错怎么处理？

modelscope-funasr 热词如何设置？

如何修改通义千问的system prompt，以修改自定义名字

在modelscope-funasr针对中文通话 SenseVoice和paraforma效果谁好？

我是一个小白，本机部署adaseq，vscode找不到modelscope的module

使用modelscope、Qwen1.8B-chat 模型推理时报错编码错误

modelscope-funasr解析出来的角色人对话不全，是哪里参数没设置对吗？

modelscope-funasr实现runtime编译成sdk后怎么支持说话人分离？

codefuse 适用modelscope 本地加载模型时报错

展开全部

[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南

使用宝塔面板部署 AstrBot 与 NapCat 实现 QQ 机器人

CodeArena：在线 LLM 编程竞技场！用于测试不同开源 LLM 的编程能力，实时更新排行榜

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

ComfyUI-Copilot：阿里把AI助手塞进ComfyUI：一句话生成工作流，自动布线/调参/选模型，小白秒变大神！

[大模型实战 03预备] 云端炼丹房 1：Google Colab 上手指南

Cline：29.7K Star！一文详解VSCode最强开源AI编程搭子：一键生成代码+自动跑终端+操控浏览器...

Open Interpreter：AI 赋能终端！在终端中对话AI模型进行编程，通过运行代码来完成各种计算机操作任务

FireCrawl：开源 AI 网络爬虫工具，自动爬取网站及子页面内容，预处理为结构化数据

KAG：增强 LLM 的专业能力！蚂蚁集团推出专业领域知识增强框架，支持逻辑推理和多跳问答

展开全部

还有其他疑问?