DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。本文主要分为产品介绍、功能介绍、基础环境依赖和安装包、相关文件说明及相关文档这几个部分进行讲解。
一、产品介绍
DeepGPU-LLM作为阿里云开发的一套推理引擎,具有易用性和广泛适用性,旨在优化大语言模型在GPU云服务器上的推理过程,通过优化和并行计算等技术手段,为您提供免费的高性能、低延迟推理服务。
DeepGPU-LLM的关联布局图如下所示:
二、功能介绍
DeepGPU-LLM的主要功能包括:
- 支持多GPU并行(Tensor Parallel)功能。
- 支持Llama 1/2系列、ChatGLM 1/2/3系列、Baichuan 1/2系列、通义千问Qwen系列等主流模型。
- 支持fp16,以及int8/int4低精度推理(量化模式:目前支持权重量化和KV-Cache量化)。
- 支持多卡之间通信优化。
- 支持stream chat输出和chat直接对话功能。
三、基础环境依赖
DeepGPU-LLM所需的基础环境依赖如下所示:
类别 |
规格或版本 |
GPU规格 |
SM=70, 75, 80, 86, 89(例如A800、A30、A10、V100, T4等) |
操作系统 |
Ubuntu 20.04 |
CUDA版本 |
11.7、11.8、12.1 |
PyTorch版本 |
1.13、2.0、2.1 |
OpenMPI |
4.0.3版本及以上 |
四、安装包及相关文件说明
使用DeepGPU-LLM处理大语言模型(LLM)在GPU上的推理优化时,需要您提前准备如下安装包:
安装包名称 |
说明 |
|
LLM模型推理加速安装包。
|
LLM模型推理加速安装包中所包含的文件如下所示:
文件名称 |
说明 |
|
主流模型的推理依赖代码 |
|
主流模型权重转换脚本 |
|
安装包提供的可运行示例代码 说明 准备好模型后可以直接运行示例代码,通过--help可查看具体参数配置。 |
五、相关文档
在大语言模型推理场景下,如果您想通过推理引擎DeepGPU-LLM进行不同模型(例如Llama、ChatGLM、Baichuan、通义千问Qwen等模型)的推理优化,请参见安装并使用DeepGPU-LLM。
好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8
【扫码填写上方调研问卷】
欢迎每位来到弹性计算的开发者们来反馈问题哦~