文档备案控制台

开发者社区 ModelScope模型即服务正文

modelscope-funasr有微调的教程吗？英文模型的。

modelscope-funasr有微调的教程吗？英文模型的。

展开

收起

嘟嘟嘟嘟嘟嘟 2023-12-27 08:01:51 275 版权

阿里云 AI 助理回答

根据现有知识库资料，目前没有直接提到ModelScope-FunASR针对英文模型的微调教程。不过，我们可以从相关文档中提取一些通用步骤和方法，帮助您完成FunASR的微调任务。以下是基于现有资料整理的结构化内容：

1. 安装FunASR

在开始微调之前，需要确保正确安装FunASR工具包。以下是安装步骤：

1.1 克隆代码仓库

git clone https://github.com/alibaba-damo-academy/FunASR.git
cd FunASR

1.2 安装依赖

安装所需的Python依赖包：

pip install -r requirements.txt

1.3 安装FunClip

FunASR支持语音合成相关的功能，可以通过以下命令安装FunClip模块：

pip install funasr[clip]

1.4 验证安装

运行以下命令验证FunASR是否安装成功：

python -c "import funasr.utils.cli_utils; funasr.utils.cli_utils.print_info()"

如果安装成功，将显示一条消息，表明FunASR已正确安装。

2. 准备数据集

微调模型需要准备适合的训练数据集。虽然知识库中未明确提到FunASR的英文数据集，但可以参考其他模型的微调流程，例如Llama系列模型的数据集准备方式。

2.1 数据格式

FunASR通常使用语音-文本对作为训练数据。数据集应包含以下内容： - 音频文件：如.wav格式。 - 标注文件：与音频对应的文本标注，通常是.txt或.json格式。

2.2 示例数据集

您可以参考公开的英文语音数据集，例如： - LibriSpeech：一个高质量的英文语音数据集。 - Common Voice：Mozilla提供的多语言语音数据集，包含大量英文语音。

下载并解压数据集后，将其组织为FunASR支持的格式。

3. 配置微调环境

微调FunASR模型需要配置合适的环境参数。以下是一些关键配置建议：

3.1 硬件要求

GPU：推荐使用V100（16GB）或更高显存的GPU。
Python版本：建议使用Python 3.7及以上版本。

3.2 镜像选择

如果您使用阿里云DSW实例，可以选择官方镜像以加速环境搭建。例如：

dsw-registry-vpc.REGION.cr.aliyuncs.com/pai-training-algorithm/llm_deepspeed_peft:v0.0.3

其中，REGION需要替换为实例所属地域的代号。

4. 微调模型

微调FunASR模型的具体步骤可能因任务类型而异。以下是一个通用的微调流程：

4.1 启动微调脚本

进入FunASR根目录后，运行微调脚本。假设您已经准备好数据集，可以使用以下命令启动训练：

python funasr/bin/train.py --config_path configs/train.yaml --data_dir /path/to/dataset

其中： - --config_path：指定微调的配置文件路径。 - --data_dir：指定数据集的存储路径。

4.2 配置文件说明

配置文件（如train.yaml）中需要设置以下关键参数： - 模型架构：选择适合的模型类型。 - 学习率：建议初始值为1e-4。 - 计算类型：根据硬件选择fp16或bf16。 - 梯度累计步数：建议设置为2以提高拟合效果。

5. 监控微调过程

微调过程中，可以通过日志查看训练状态。如果使用阿里云百炼平台，可以参考以下命令查看日志：

dashscope fine_tunes.stream -j <替换为您的微调任务ID>

6. 部署微调后的模型

微调完成后，可以将模型部署为在线服务。以下是部署步骤：

6.1 上传模型文件

将训练好的模型文件上传至OSS Bucket或其他存储服务。

6.2 部署到EAS

登录PAI控制台，选择目标工作空间，进入EAS页面，单击部署服务，选择ModelScope模型部署。

6.3 调用服务

通过API接口调用部署的模型服务。示例代码如下：

import requests
import json

service_url = 'YOUR_SERVICE_URL'
token = 'YOUR_SERVICE_TOKEN'

request = {"prompt": "Your input text", "history": []}
resp = requests.post(service_url, headers={"Authorization": token}, data=json.dumps(request))
result = json.loads(resp.text)
print(result['response'])

重要提醒

数据集格式：确保数据集符合FunASR的要求，否则可能导致训练失败。
硬件资源：微调大模型需要较高的计算资源，请确保GPU显存充足。
许可证：使用Meta等第三方模型前，请阅读并遵守其官方许可证。

以上是基于现有知识库整理的FunASR微调教程。如果您需要更详细的指导或遇到具体问题，可以进一步提供信息以便我们协助解决。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

相关问答

modelscope-funasr微调时日志结果没有cer_att指标

154

0

0

对modelscope的实体命名预训练模型进行微调上出现错误

454

1

0

通过modelscope环境搭建LLama Factory使用 WebUI微调训练，访问页面报错

857

1

0

有没有详细一些的微调modelscope-funasr上模型的教程（非大模型）？

296

0

0

modelscope-funasr如何进行标点恢复模型的微调训练？

270

1

0

modelscope-funasr中如果用10小时数据做微调， 2张T4的卡，大概耗时多久？

294

1

0

在modelscope-funasr中funasr有在自有数据集上重新训练新模型的教程吗？

346

1

0

在modelscope-funasr中有funclip的安装包和教程吗?

260

0

0

ModelScope新手入门有啥教程可以参考呢？

335

1

0

ModelScope中，想在本地的RAG上面搭建agent，有什么教程链接吗？

254

1

0

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！欢迎加入技术交流群：微信公众号：魔搭ModelScope社区，钉钉答疑群：44837352

我要提问

相关解决方案

更多

零代码微调，打造领域专属大模型

基于 Spark 和 PyTorch 的模型训练方案

OpenAI 重磅开源，快速部署GPT-OSS模型

模型蒸馏：让0.6B模型媲美235B模型

一键训练模型及部署GPU共享推理服务

热门讨论

热门文章

modelscope 中，如何指定从ms下载模型以及指定下载路径？

ModelScope中，模型下载默认路径在哪个路径？

我下载的gguf文件，最新的LMSTUDIO仍然无法识别什么问题

com/action/joingroup?code=v1是什么意思

modelscope cache 环境变量是啥？

ModelScope下载速度慢怎么解决？

modelscope-funasr的onnxruntime c++只能使用onnx结尾的模型吗？

如何修改通义千问的system prompt，以修改自定义名字

问一下ModelScope AI能驱动数字人吗？

ModelScope这个免费额度可以在哪里查询啊？

展开全部

高效部署通义万相Wan2.1：ComfyUI文生/图生视频实战，工作流直取！

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

嵌入式开发必备！Keil uVision5 C51 V9.61 安装激活 + 汉化完整教程, 含（Keil MDK 5.39）

阿里云通义千问向全社会开放！

美团开源发布 LongCat-Flash-Chat：专为高效智能体任务设计，推理速度超100 tokens/s

在 AMD ROCm DSW 上跑通 DeepSeek-V4-Flash：vLLM 兼容部署、长上下文验证与 8K 性能扫参

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

docker安装部署FunASR

DeepSeek-V4开源：百万上下文，Agent能力比肩顶级闭源模型

GLM-4V-Flash：智谱 AI 免费开放的图像理解大模型 API 接口

展开全部

还有其他疑问?