modelscope-funasr UniASR粤语语音识别，你们使用的什么语料进行训练的呢？

展开

收起

嘟嘟嘟嘟嘟嘟 2023-12-20 08:23:57 322 版权

阿里云 AI 助理回答

关于 modelscope-funasr UniASR粤语语音识别 所使用的训练语料，目前知识库中并未明确提及具体的语料来源或组成。然而，根据相关文档的说明，可以推测出以下信息：

语料来源与要求
智能语音交互服务中的定制语言模型通常基于领域相关的文本进行训练，这些文本需要与待识别的语音数据尽可能接近，以优化识别效果。对于粤语语音识别模型，可能使用了粤语相关的语料，例如：
- 粤语日常对话文本
- 粤语新闻、广播或影视字幕
- 粤语特定领域的专业术语（如金融、医疗等）
语料格式与规范
根据训练语料的要求，语料文件需满足以下条件：
- 使用 UTF-8（无 BOM）编码格式。
- 文件大小不超过 10 MB。
- 每行包含一句话或一个关键词，长度控制在 500 个字符以内。
- 数字需转换为对应的汉字发音（如“58.9元”需写为“五十八点九元”）。
- 只保留逗号、句号、问号和感叹号，其他标点符号需去除。
定制化训练的可能性
如果您对粤语语音识别有更高的准确率需求，可以通过自学习平台上传业务相关的语料进行模型优化。例如：
- 将粤语特有的词汇、短语或句子加入训练语料。
- 针对识别不准确的关键词，通过复制多行或设置热词权重的方式加强训练。
预训练模型的基础
在某些情况下，模型可能基于公开的粤语数据集进行预训练，例如 THCHS-30 的部分数据或其他粤语语音资源。但具体到 UniASR 粤语模型的语料构成，建议直接联系阿里云技术支持团队以获取更详细的信息。