【Hello AI】推理引擎DeepGPU-LLM-提供免费的高性能、低延迟推理服务

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
云服务器(按量付费),48vCPU 186GiB
简介: DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。

DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。本文主要分为产品介绍、功能介绍、基础环境依赖安装包、相关文件说明及相关文档这几个部分进行讲解

一、产品介绍

DeepGPU-LLM作为阿里云开发的一套推理引擎,具有易用性和广泛适用性,旨在优化大语言模型在GPU云服务器上的推理过程,通过优化和并行计算等技术手段,为您提供免费的高性能、低延迟推理服务。

DeepGPU-LLM的关联布局图如下所示:

二、功能介绍

DeepGPU-LLM的主要功能包括:

  • 支持多GPU并行(Tensor Parallel)功能。
  • 支持Llama 1/2系列、ChatGLM 1/2/3系列、Baichuan 1/2系列、通义千问Qwen系列等主流模型。
  • 支持fp16,以及int8/int4低精度推理(量化模式:目前支持权重量化和KV-Cache量化)。
  • 支持多卡之间通信优化。
  • 支持stream chat输出和chat直接对话功能。

三、基础环境依赖

DeepGPU-LLM所需的基础环境依赖如下所示:

类别

规格或版本

GPU规格

SM=70, 75, 80, 86, 89(例如A800、A30、A10、V100, T4等)

操作系统

Ubuntu 20.04

CUDA版本

11.7、11.8、12.1

PyTorch版本

1.13、2.0、2.1

OpenMPI

4.0.3版本及以上

四、安装包及相关文件说明

使用DeepGPU-LLM处理大语言模型(LLM)在GPU上的推理优化时,需要您提前准备如下安装包:

安装包名称

说明

  • deepgpu_llm-x.x.x+pt1.13cu117-py3-none-any.whl
  • deepgpu_llm-x.x.x+pt2.0cu117-py3-none-any.whl
  • deepgpu_llm-x.x.x+pt2.1cu121-py3-none-any.whl

LLM模型推理加速安装包。

  • x.x.x指待安装的DeepGPU-LLM版本号。
  • 支持PyTorch 1.13、PyTorch 2.0、PyTorch 2.1版本。
  • 支持单卡或多卡GPU推理。

LLM模型推理加速安装包中所包含的文件如下所示:

文件名称

说明

  • llama_model.py
  • chatglm_model.py
  • baichuan_model.py
  • qwen_model.py
  • deepgpu_utils.py

主流模型的推理依赖代码

  • huggingface_llama_convert
  • huggingface_glm_convert
  • huggingface_chatglm2_convert
  • huggingface_baichuan_convert
  • huggingface_qwen_convert

主流模型权重转换脚本

  • baichuan_cli
  • baichuan_hf_cli
  • chatglm_cli
  • chatglm_hf_cli
  • llama_cli
  • qwen_cli

安装包提供的可运行示例代码

说明

准备好模型后可以直接运行示例代码,通过--help可查看具体参数配置。

五、相关文档

在大语言模型推理场景下,如果您想通过推理引擎DeepGPU-LLM进行不同模型(例如Llama、ChatGLM、Baichuan、通义千问Qwen等模型)的推理优化,请参见安装并使用DeepGPU-LLM


好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
18天前
|
人工智能 NoSQL atlas
4大企业实例解析:为何MongoDB Atlas成为AI服务构建的首选
本文所提及的仅是MongoDB Atlas在AI领域可实现功能的冰山一角
1604 1
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
2024年AI辅助研发:科技创新的引擎
2024年AI辅助研发:科技创新的引擎
106 1
|
2天前
|
人工智能 物联网 API
LLM 大模型学习必知必会系列(十三):基于SWIFT的VLLM推理加速与部署实战
LLM 大模型学习必知必会系列(十三):基于SWIFT的VLLM推理加速与部署实战
LLM 大模型学习必知必会系列(十三):基于SWIFT的VLLM推理加速与部署实战
|
2天前
|
机器学习/深度学习 缓存 算法
LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]
LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]
LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]
|
2天前
|
人工智能 对象存储 异构计算
AI模型推理服务在Knative中最佳配置实践
Knative和AI结合提供了快速部署、高弹性和低成本的技术优势,对于一些需要频繁变动计算资源的AI应用,如模型推理等尤其明显。那么在Knative上部署AI模型推理时可以遵循这些最佳实践,以提升AI推理服务能力和GPU资源利用率。
|
3天前
|
机器学习/深度学习 人工智能 测试技术
阿里云连续三年入围Gartner云AI开发者服务挑战者象限
Gartner正式发布了《云AI开发者服务魔力象限》报告(Magic Quadrant for Cloud AI Developer Services),阿里云成功入选,是唯一一家入围“挑战者”(Challengers)象限的中国厂商,并且保持连续三年入围。
|
5天前
|
缓存 人工智能 自然语言处理
LLM 大模型学习必知必会系列(三):LLM和多模态模型高效推理实践
LLM 大模型学习必知必会系列(三):LLM和多模态模型高效推理实践
LLM 大模型学习必知必会系列(三):LLM和多模态模型高效推理实践
|
8天前
|
存储 弹性计算 人工智能
【阿里云弹性计算】AI 训练与推理在阿里云 ECS 上的高效部署与优化
【5月更文挑战第25天】阿里云ECS为AI训练和推理提供弹性、可扩展的计算资源,确保高性能和稳定性。通过灵活配置实例类型、利用存储服务管理数据,以及优化模型和代码,用户能实现高效部署和优化。自动伸缩、任务调度和成本控制等策略进一步提升效率。随着AI技术发展,阿里云ECS将持续助力科研和企业创新,驱动人工智能新时代。
25 0
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
OpenAI 推出 GPT-4o,免费向所有人提供GPT-4级别的AI ,可以实时对音频、视觉和文本进行推理,附使用详细指南
GPT-4o不仅提供与GPT-4同等程度的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力,无论你是付费用户,还是免费用户,都能通过它体验GPT-4了
63 1
|
18天前
|
人工智能 JSON 机器人
[译][AI OpenAI-doc] 延迟优化
本指南涵盖了一系列核心原则,您可以应用这些原则来改善在各种LLM相关用例中的延迟。这些技术来自于与广泛的客户和开发人员在生产应用程序上的合作,因此无论您正在构建什么——从细粒度的工作流程到端到端的聊天机器人,都应该适用!
[译][AI OpenAI-doc] 延迟优化