开发者社区 ModelScope模型即服务自然语言处理正文

modelscope-funasr有什么推理加速的方法吗？

modelscope-funasr有什么推理加速的方法吗？加大batch_size，单条语音的推理速度略微提升，还有其他方法吗（单机单卡）？

展开

收起

三分钟热度的鱼 2024-03-13 20:10:02 221 版权

阿里云 AI 助理回答

在使用ModelScope-FunASR进行推理时，除了通过加大batch_size来略微提升单条语音的推理速度外，还有其他方法可以进一步优化推理性能，尤其是在单机单卡环境下。以下是几种可行的推理加速方法：

1. 模型量化

模型量化是一种常见的推理加速技术，通过降低模型权重和激活值的精度（如从FP32降到INT8或FP16），可以显著减少计算量和显存占用，从而提升推理速度。

实现方式：
- 使用支持量化的推理引擎（如BladeLLM）对FunASR模型进行量化压缩。
- 如果FunASR本身支持量化工具（如PyTorch的torch.quantization模块），可以通过量化后导出模型以加速推理。
注意事项：
- 量化可能会对模型精度产生一定影响，需根据实际需求权衡速度与精度。

2. 使用高效的推理引擎

选择专为大语言模型或语音模型优化的推理引擎，可以显著提升推理效率。例如，阿里云的BladeLLM推理引擎支持多种优化技术（如张量并行、流水线并行、Prompt缓存等），能够有效加速模型推理。

实现方式：
- 将FunASR模型转换为BladeLLM支持的格式，并利用其提供的高效算子库（如BlaDNN和FlashNN）进行推理。
- 配置BladeLLM的参数（如Continuous Batching和Speculative Decoding）以进一步优化推理性能。
优势：
- BladeLLM在典型负载下可将首包响应时间（TTFT）加速约2倍到3倍，吞吐量（QPS）提升约2倍。

3. 优化输入数据预处理

语音模型的推理性能不仅取决于模型本身，还受到输入数据预处理的影响。优化数据加载和预处理流程可以减少推理延迟。

实现方式：
- 使用OSS加速器加载语音数据集，避免I/O瓶颈。
- 在数据预处理阶段，尽量减少不必要的操作（如重复解码或格式转换），并将预处理逻辑与模型推理流水线紧密结合。

示例代码：

def obj_to_tensor(object):
  data = object.read()
  numpy_array_from_binary = np.frombuffer(data, dtype=np.float32).reshape([3, IMG_DIM_224, IMG_DIM_224])
  return torch.from_numpy(numpy_array_from_binary)

4. 调整推理参数

通过调整推理参数，可以在一定程度上优化推理速度。以下是一些常用的参数调整方法：

降低max_length：限制生成文本的最大长度，减少推理计算量。
减少num_beams：降低束搜索的分支数量，虽然可能会影响生成质量，但能显著提升速度。
启用do_sample和top_p：通过采样生成文本，避免全量搜索，从而加快推理速度。

示例配置：

{
"max_length": 50,
"num_beams": 2,
"do_sample": true,
"top_p": 0.9,
"temperature": 0.7
}

5. 利用GPU加速工具

阿里云提供了多种GPU加速工具，可以进一步提升推理性能。例如，Deepytorch Inference是一款专为PyTorch模型设计的推理加速工具，能够显著降低推理延迟。

实现方式：

安装Deepytorch Inference：

pip install torch==2.0.1 deepytorch-inference -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-torch/stable-diffusion/aiacctorch_stable-diffusion.html

在推理脚本中编译模型：

import deepytorch_inference
mod_jit = torch.jit.script(model)
compiled_model = deepytorch_inference.compile(mod_jit)

性能效果：
- 根据测试数据，ResNet50模型的推理时间从3.686 ms降至0.396 ms，Bert-Base模型从4.955 ms降至0.418 ms。

6. 多线程和异步推理

如果单条语音的推理任务较轻，可以通过多线程或异步推理的方式提高整体吞吐量。

实现方式：
- 使用Python的concurrent.futures模块或多线程库（如threading）并行处理多个推理请求。
- 在服务端实现异步推理接口，确保多个请求可以同时被处理。

示例代码：

from concurrent.futures import ThreadPoolExecutor

def infer_single(audio_data):
  # 单条语音推理逻辑
  return model(audio_data)

with ThreadPoolExecutor(max_workers=4) as executor:
  results = list(executor.map(infer_single, audio_data_list))