【Hello AI】推理引擎DeepGPU-LLM-提供免费的高性能、低延迟推理服务

简介: DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。

DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。本文主要分为产品介绍、功能介绍、基础环境依赖安装包、相关文件说明及相关文档这几个部分进行讲解

一、产品介绍

DeepGPU-LLM作为阿里云开发的一套推理引擎,具有易用性和广泛适用性,旨在优化大语言模型在GPU云服务器上的推理过程,通过优化和并行计算等技术手段,为您提供免费的高性能、低延迟推理服务。

DeepGPU-LLM的关联布局图如下所示:

二、功能介绍

DeepGPU-LLM的主要功能包括:

  • 支持多GPU并行(Tensor Parallel)功能。
  • 支持Llama 1/2系列、ChatGLM 1/2/3系列、Baichuan 1/2系列、通义千问Qwen系列等主流模型。
  • 支持fp16,以及int8/int4低精度推理(量化模式:目前支持权重量化和KV-Cache量化)。
  • 支持多卡之间通信优化。
  • 支持stream chat输出和chat直接对话功能。

三、基础环境依赖

DeepGPU-LLM所需的基础环境依赖如下所示:

类别

规格或版本

GPU规格

SM=70, 75, 80, 86, 89(例如A800、A30、A10、V100, T4等)

操作系统

Ubuntu 20.04

CUDA版本

11.7、11.8、12.1

PyTorch版本

1.13、2.0、2.1

OpenMPI

4.0.3版本及以上

四、安装包及相关文件说明

使用DeepGPU-LLM处理大语言模型(LLM)在GPU上的推理优化时,需要您提前准备如下安装包:

安装包名称

说明

  • deepgpu_llm-x.x.x+pt1.13cu117-py3-none-any.whl
  • deepgpu_llm-x.x.x+pt2.0cu117-py3-none-any.whl
  • deepgpu_llm-x.x.x+pt2.1cu121-py3-none-any.whl

LLM模型推理加速安装包。

  • x.x.x指待安装的DeepGPU-LLM版本号。
  • 支持PyTorch 1.13、PyTorch 2.0、PyTorch 2.1版本。
  • 支持单卡或多卡GPU推理。

LLM模型推理加速安装包中所包含的文件如下所示:

文件名称

说明

  • llama_model.py
  • chatglm_model.py
  • baichuan_model.py
  • qwen_model.py
  • deepgpu_utils.py

主流模型的推理依赖代码

  • huggingface_llama_convert
  • huggingface_glm_convert
  • huggingface_chatglm2_convert
  • huggingface_baichuan_convert
  • huggingface_qwen_convert

主流模型权重转换脚本

  • baichuan_cli
  • baichuan_hf_cli
  • chatglm_cli
  • chatglm_hf_cli
  • llama_cli
  • qwen_cli

安装包提供的可运行示例代码

说明

准备好模型后可以直接运行示例代码,通过--help可查看具体参数配置。

五、相关文档

在大语言模型推理场景下,如果您想通过推理引擎DeepGPU-LLM进行不同模型(例如Llama、ChatGLM、Baichuan、通义千问Qwen等模型)的推理优化,请参见安装并使用DeepGPU-LLM


好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
20天前
|
机器学习/深度学习 自然语言处理 测试技术
CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用
【10月更文挑战第17天】链式思维(CoT)曾被认为是大型语言模型(LLM)激发推理能力的关键方法,但最新研究显示,CoT仅在数学和符号推理任务中有效,其他任务中效果不明显。加州大学伯克利分校、斯坦福大学和卡内基梅隆大学的联合研究打破了CoT作为LLM标配的神话,为重新评估LLM的推理能力提供了新视角。
29 1
|
2月前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
312 73
|
6天前
|
人工智能 自然语言处理
重要的事情说两遍!Prompt复读机,显著提高LLM推理能力
【10月更文挑战第30天】本文介绍了一种名为“问题重读”(Question Re-reading)的提示策略,旨在提高大型语言模型(LLMs)的推理能力。该策略受人类学习和问题解决过程的启发,通过重新审视输入提示中的问题信息,使LLMs能够提取更深层次的见解、识别复杂模式,并建立更细致的联系。实验结果显示,问题重读策略在多个推理任务上显著提升了模型性能。
18 2
|
16天前
|
JSON 人工智能 算法
探索LLM推理全阶段的JSON格式输出限制方法
文章详细讨论了如何确保大型语言模型(LLMs)输出结构化的JSON格式,这对于提高数据处理的自动化程度和系统的互操作性至关重要。
|
16天前
|
人工智能 运维 Serverless
Serverless GPU:助力 AI 推理加速
近年来,AI 技术发展迅猛,企业纷纷寻求将 AI 能力转化为商业价值,然而,在部署 AI 模型推理服务时,却遭遇成本高昂、弹性不足及运维复杂等挑战。本文将探讨云原生 Serverless GPU 如何从根本上解决这些问题,以实现 AI 技术的高效落地。
|
22天前
|
机器学习/深度学习 自然语言处理 测试技术
CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用
【10月更文挑战第16天】近期,加州大学伯克利分校、斯坦福大学和卡内基梅隆大学联合研究发现,链式思维(CoT)方法在数学和符号推理任务中表现优异,但在其他类型任务中效果不明显。这一研究打破了CoT作为大型语言模型(LLM)标配的神话,为重新审视LLM的推理能力提供了新视角。
24 2
|
24天前
|
人工智能 自然语言处理 数据可视化
阿里云AI大模型助力客户对话分析——全方位提升服务与体验
随着数字化转型的推进,企业愈发重视客户互动数据的价值。阿里云推出了一套基于AI大模型的客户对话分析解决方案,通过自动化手段分析大量客户对话数据,提取有价值信息,优化服务流程,提升客户体验。本文将结合技术文档和实际体验,全面评测这一解决方案。
47 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云百炼大模型:引领企业智能化升级的下一代 AI 驱动引擎
随着人工智能技术的快速发展,大规模预训练模型正在改变各行各业的智能化进程。阿里云百炼大模型(Ba-Lian Large Model)作为阿里云推出的企业级 AI 解决方案,通过深度学习、自然语言处理、计算机视觉等前沿技术,帮助企业实现智能化升级,提升业务效率和创新能力。本文将详细介绍阿里云百炼大模型的核心技术、应用场景及其优势,帮助企业更好地理解和利用这一革命性工具。
181 1
|
10天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置选项,包括CPU+GPU、CPU+FPGA等组合,支持高性能计算需求。本文汇总了阿里云GPU服务器的价格信息,涵盖NVIDIA A10、V100、T4、P4、P100等多款GPU卡,适用于人工智能、机器学习和深度学习等场景。详细价格表和实例规格见文内图表。
|
2月前
|
人工智能 Prometheus 监控
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
本文介绍了在阿里云容器服务 ACK 上部署 NVIDIA NIM,结合云原生 AI 套件和 KServe 快速构建高性能模型推理服务的方法。通过阿里云 Prometheus 和 Grafana 实现实时监控,并基于排队请求数配置弹性扩缩容策略,提升服务稳定性和效率。文章提供了详细的部署步骤和示例,帮助读者快速搭建和优化模型推理服务。
156 7
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理