开发者社区 > ModelScope模型即服务 > 正文

如何提高千问本地化部署情况下,推理速度?

GPU RTX3080,16G,开了加速,推理速度还是慢。

这个东西只有A100版本:
Warning: import flash_attn rms_norm fail, please install FlashAttention layer_norm to get higher efficiency https://github.com/Dao-AILab/flash-attention/tree/main/csrc/layer_norm

有人知道这个是干嘛的吗?

展开
收起
游客6itfah2ioe4kg 2023-08-10 15:34:35 593 0
1 条回答
写回答
取消 提交回答
  • 优化模型
    优化模型是提高推理速度的一个有效手段。可以通过以下方式优化模型:

    使用模型压缩技术,如量化、剪枝等,减少模型大小和计算量。
    使用模型加速技术,如模型并行、数据并行等,提高模型推理速度。
    使用高性能硬件
    使用高性能硬件也是提高推理速度的一个有效手段。可以使用 GPU、TPU 等高性能硬件来运行模型。

    使用模型服务
    使用模型服务可以实现模型的动态调度和资源管理,从而提高推理速度。

    使用其他优化策略
    除了以上几种方法,还可以使用其他一些优化策略来提高推理速度,如 cache 优化、内存优化等。

    具体如何提高推理速度,需要根据具体的业务场景和模型特性来确定。

    2023-09-26 10:53:55
    赞同 展开评论 打赏

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载