备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

我看预训练模型里面的有和多@符号以及<OOV>的modelscope-funasr这种词，是啥意思？

关于tokens.json的生成，我看预训练模型里面的有和多@符号以及的modelscope-funasr这种词，是啥意思？如果用aishell里面的脚本来生成token，是所有的词都需要吗？还是需要根据词频来？

展开

收起

三分钟热度的鱼 2024-04-17 20:42:13 88 版权

阿里云 AI 助理回答

关于 tokens.json 文件的生成以及其中包含的特殊符号（如 @ 符号）和特定词汇（如 modelscope-funasr），以下是详细的解答：

1. `tokens.json` 文件的作用

tokens.json 是一个用于定义模型词汇表的文件，通常在自然语言处理（NLP）任务中使用。它包含了模型能够识别的所有 token（词或子词单元）及其对应的索引值。这些 token 是模型输入和输出的基本单位。

Token 的来源：
Token 可以来自训练数据集中的词汇，也可以通过特定的分词算法（如 BPE、WordPiece 等）生成。
特殊符号的意义：
- @ 符号或其他特殊字符可能是分词算法生成的子词标记。例如，在子词分割中，modelscope-funasr 可能被拆分为 modelscope 和 @funasr，以表示其是一个复合词或专有名词。
- 这些特殊符号有助于模型更好地处理未登录词（OOV, Out-of-Vocabulary）问题。

2. 是否需要所有词？

在生成 tokens.json 文件时，并非所有词都需要包含，而是根据以下原则进行筛选：

（1）基于词频筛选

高频词优先：通常只保留训练数据集中出现频率较高的词，低频词可能会被忽略或合并为 <unk>（未知词）标记。
词频阈值：可以根据实际需求设置一个词频阈值，低于该阈值的词将被丢弃。

（2）基于分词算法

如果使用子词分割算法（如 BPE 或 WordPiece），则不需要显式列出所有词。算法会自动将词汇分解为更小的子词单元，从而减少词汇表的大小。
例如，modelscope-funasr 可能会被分解为 modelscope 和 @funasr，而不是作为一个整体词存储。

（3）领域相关性

对于特定领域的任务（如语音合成或文本摘要），可以优先保留与领域相关的词汇。例如，在语音合成任务中，可能需要保留与语音特征相关的术语。

3. 如何用 AIShell 脚本生成 tokens.json？

AIShell 是一个常用的中文语音数据集，其脚本通常用于处理语音和文本数据。以下是生成 tokens.json 的步骤：

（1）准备训练数据

使用 AIShell 数据集中的文本部分作为输入。
清洗数据，去除噪声（如标点符号、特殊字符等）。

（2）统计词频

遍历整个数据集，统计每个词的出现频率。
根据词频筛选出高频词。

（3）应用分词算法

使用 BPE 或 WordPiece 等分词算法对高频词进行分割。
生成子词单元及其对应的索引。

（4）保存为 JSON 格式

将生成的词汇表保存为 tokens.json 文件，格式如下：
```
{
"<pad>": 0,
"<unk>": 1,
"modelscope": 2,
"@funasr": 3,
...
}
```
- <pad>：填充标记，用于对齐序列长度。
- <unk>：未知词标记，用于处理未登录词。

4. 注意事项

词汇表大小：词汇表的大小会影响模型的性能和内存占用。较大的词汇表可能导致更高的计算成本，而较小的词汇表可能无法覆盖所有必要的词。
领域适配：如果目标任务是特定领域（如语音合成或文本摘要），建议根据领域数据重新生成词汇表，以提高模型的表现。
兼容性：确保生成的 tokens.json 文件与预训练模型的分词器兼容。如果不兼容，可能需要重新训练分词器。

总结

tokens.json 文件中的特殊符号（如 @）和词汇（如 modelscope-funasr）通常是分词算法生成的子词标记，用于处理复合词或未登录词。
在生成 tokens.json 时，并非所有词都需要包含，而是根据词频和领域相关性进行筛选。
使用 AIShell 脚本生成 tokens.json 时，建议结合分词算法（如 BPE）和词频统计，以生成高效且领域适配的词汇表。

希望以上信息能够帮助您更好地理解 tokens.json 的生成过程！

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

相关问答

对modelscope的实体命名预训练模型进行微调上出现错误

247

1

0

modelscope-funasr的online流式实时听写，没有标点符号，需要如何设置？

301

0

0

modelscope-funasr识别的结果如何加标点符号呢？

223

1

0

用训练后的ModelScope模型，替换文件后，推理出问题，翻译出来的都是标点符号啥的，怎么解决？

63

1

0

modelscope-funasr这个sensevoice识别出来的符号是什么意思？

97

1

0

modelscope的 StructBERT的中文Base预训练模型有关系吗？

101

0

0

ModelScope中damofd_34G_kps预训练模型如何下载呢？

76

0

0

官方ModelScope是没有对qwen模型进行“二次预训练”的文档吗？

99

1

0

需求是对qwen1.5-14B-chat进行二次预训练，有没有相关ModelScope文档？

123

1

0

ModelScope中，instruct数据不好构造，是不是可以继续预训练？大概需要多少数据量？

130

1

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

相关文章

“日志别再只会翻了，教它自己说话”——聊聊用 NLP 玩转日志分析

《10分钟开发电商页！CodeBuddy自然语言转代码实测：程序员效率革命》

Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用（229）

从“写SQL”到“聊数据”：NL2SQL如何用自然语言解锁数据库？

蚂蚁百宝箱联手深铁打造全国首个地铁 AI 智能体「深铁宝」：你的全能城市向导来啦~

热门讨论

热门文章

modelscope-funasr模型选择whisper large v3，不出时间戳是正常的吗？

部署funasr-sdk-cpu-0.4.7，无法切换vad为8k模型，提示不存在v2.0.6版本

modelscope-funasr如何释放显存呢？

modelscope-funasr实时设别，mode:2pass 还是online，2个有啥不一样？

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

练的pth模型文件，怎么转成bin文件？

modelscope-funasr 热词如何设置？

在modelscope-funasr想自己训练一种low resource 的方言，有训练的方案吗？

modelscope-funasr的python websocket怎么实现多用户并发啊？

如何下载llama模型到本地？

展开全部

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

告别Hugging Face模型下载难题：掌握高效下载策略，畅享无缝开发体验

Qlib：华尔街颤抖！微软开源金融AI量化投资神器，助力智能投研

Cline：29.7K Star！一文详解VSCode最强开源AI编程搭子：一键生成代码+自动跑终端+操控浏览器...

RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

FastAPI开发者福音！FastAPI-MCP：将FastAPI秒变MCP服务器的开源神器，无需配置自动转换！

让AI读懂K线图！ChatTS-14B：字节开源的时间序列理解和推理大模型，自然语言提问秒解趋势密码！

Yuxi-Know：开源智能问答系统，基于大模型RAG与知识图谱技术快速构建知识库

蚂蚁百宝箱联手深铁打造全国首个地铁 AI 智能体「深铁宝」：你的全能城市向导来啦~

FastExcel：开源的 JAVA 解析 Excel 工具，集成 AI 通过自然语言处理 Excel 文件，完全兼容 EasyExcel

展开全部

还有其他疑问?