备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

modelscope-funasr这个失效了之后，如果需要使用非量化的模型，需要怎么设置呢？

modelscope-funasr这个失效了之后，如果需要使用非量化的模型，需要怎么设置呢？在我的应用场景量化和非量化准确率还是有一定差距的

展开

收起

三分钟热度的鱼 2024-04-03 22:16:10 93 版权

阿里云 AI 助理回答

在使用ModelScope-FunASR时，如果需要切换到非量化的模型以避免量化带来的准确率损失，可以按照以下步骤进行设置和操作：

1. 确认非量化模型的来源

非量化模型通常是指未经任何压缩或精度降低处理的原始浮点模型（如FP32）。在ModelScope中，您可以直接从模型库中获取非量化版本的模型。确保选择的模型版本未经过量化优化。

操作步骤：
1. 登录ModelScope平台。
2. 在模型页面中查找目标模型，并确认其版本信息。
3. 确保下载或使用的模型为非量化版本（通常标注为FP32或未明确标注量化）。

2. 安装依赖并加载非量化模型

在本地环境中，您需要正确安装依赖并加载非量化模型。以下是具体操作步骤：

（1）克隆代码仓库

git clone https://github.com/alibaba-damo-academy/FunASR.git
cd FunASR

（2）安装依赖包

确保安装所有必要的依赖包，包括PyTorch和其他相关工具：

pip install -r requirements.txt

（3）加载非量化模型

在代码中加载非量化模型时，需指定模型路径并确保不启用量化配置。例如：

import torch
from funasr import AutoModel

# 加载非量化模型
model = AutoModel(model="path_to_non_quantized_model")

注意：确保path_to_non_quantized_model指向的是未经过量化的模型文件。

3. 禁用量化配置

如果您使用的是PAI-Blade或其他量化工具，需明确禁用量化功能以保证模型运行在非量化模式下。

（1）禁用量化优化

在调用PAI-Blade进行模型优化时，可以通过配置参数禁用量化的执行。例如：

import blade

# 禁用量化优化
optimized_model, opt_spec, report = blade.optimize(
    model=original_model,
    optimization_level='o0',  # 设置为'o0'以禁用优化
    device_type='gpu',
    test_data=test_data,
    calib_data=calib_data
)

（2）验证模型精度

在禁用量化后，建议对模型进行精度验证，确保其性能符合预期：

# 验证非量化模型的输出
output = model(input_data)
print(output)

4. 调整推理服务配置

在部署推理服务时，需确保服务配置与非量化模型的要求一致。例如，在ACK或PAI-EAS中部署时，需调整资源分配和环境变量以适配非量化模型的需求。

（1）资源配置

非量化模型通常对内存和计算资源的需求较高，建议根据模型规模调整实例规格： - 普通Pipeline模型：内存不低于8 GB。 - 大语言对话模型：建议选择GPU实例（如ml.gu7i.c16m60.1-gu30）。

（2）环境变量配置

在部署服务时，确保环境变量中未启用量化相关的配置。例如：

MODEL_ID=iic/nlp_csanmt_translation_en2zh
TASK=translation
REVISION=v1.0.1

5. 测试与验证

完成上述设置后，需对非量化模型进行充分的测试，确保其准确率满足应用需求。

（1）启动WebUI调用模型服务

通过WebUI界面测试模型输出： 1. 单击服务页面中的查看Web应用。 2. 在测试内容框中输入请求数据，单击执行测试，观察返回结果。

（2）通过API接口调用模型服务

使用API接口发送请求，验证模型输出是否符合预期。例如：

curl -XPOST http://localhost:8000/generate \
-H "Content-Type: application/json" \
-d '{"text_input": "什么是人工智能？", "parameters": {"stream": false}}'

重要提醒

量化与非量化的权衡：量化虽然能显著提升推理速度和降低资源消耗，但可能会导致模型准确率下降。如果您的应用场景对准确率要求较高，建议始终使用非量化模型。
硬件资源需求：非量化模型对计算资源的需求较高，请确保部署环境具备足够的GPU显存和内存。

通过以上步骤，您可以成功切换到非量化模型，并确保其在您的应用场景中正常运行。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

相关问答

为什么modelscope模型库里面chinese-hubert-base 页面是错误，是模型下架吗

122

0

0

modelscope-funasr有没有配置项可以设置cpu大小？

440

13

0

modelscope-funasr这个量化模型在哪里下载？

186

0

0

modelscope-funasr的online流式实时听写，没有标点符号，需要如何设置？

303

0

0

modelscope-funasr部属完成后，发生错误。可是用demo没有问题。该怎么设置？

119

1

0

modelscope-funasr设置这个单位长度是什么参数？

309

1

0

您好我想问一下，在modelscope用OneKE模型去做知识图谱应该用re 还是ner 呀？

112

0

0

ModelScope创空间没有看见设置，怎样”换个python3.10的镜像“？

134

1

0

ModelScope中，以本地模型为原型训练模型怎么实现，能用.gguf格式的模型训练吗？

142

1

0

ModelScope 漏译是模型的问题吗？

78

1

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

相关文章

“日志别再只会翻了，教它自己说话”——聊聊用 NLP 玩转日志分析

《10分钟开发电商页！CodeBuddy自然语言转代码实测：程序员效率革命》

Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用（229）

从“写SQL”到“聊数据”：NL2SQL如何用自然语言解锁数据库？

蚂蚁百宝箱联手深铁打造全国首个地铁 AI 智能体「深铁宝」：你的全能城市向导来啦~

热门讨论

热门文章

modelscope-funasr如何释放显存呢？

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

练的pth模型文件，怎么转成bin文件？

modelscope-funasr 热词如何设置？

在modelscope-funasr想自己训练一种low resource 的方言，有训练的方案吗？

modelscope-funasr实时设别，mode:2pass 还是online，2个有啥不一样？

部署funasr-sdk-cpu-0.4.7，无法切换vad为8k模型，提示不存在v2.0.6版本

modelscope-funasr的asr，itn，标点这几个模块串起来的例子有吗，流式运行？

modelscope-funasr有说话人分离功能吗？

modelscope-funasr实时ASR的微调该怎么操作？

展开全部

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

告别Hugging Face模型下载难题：掌握高效下载策略，畅享无缝开发体验

Qlib：华尔街颤抖！微软开源金融AI量化投资神器，助力智能投研

Cline：29.7K Star！一文详解VSCode最强开源AI编程搭子：一键生成代码+自动跑终端+操控浏览器...

KTransformers：告别天价显卡！国产框架让单卡24G显存跑DeepSeek-R1 671B大模型：推理速度飙升28倍

蚂蚁百宝箱联手深铁打造全国首个地铁 AI 智能体「深铁宝」：你的全能城市向导来啦~

RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型，创建个性化 AI 助手

SPO：如何优化提示词？大模型最懂如何优化自己！开源自监督提示词优化工具，让AI自主优化提示词

Memoripy：支持 AI 应用上下文感知的记忆管理 Python 库

展开全部

还有其他疑问?