【Hello AI】推理引擎DeepGPU-LLM-提供免费的高性能、低延迟推理服务

本文涉及的产品
轻量应用服务器 2vCPU 4GiB,适用于搭建容器环境
轻量应用服务器 2vCPU 4GiB,适用于搭建Web应用/小程序
轻量应用服务器 2vCPU 1GiB,适用于搭建电商独立站
简介: DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。

DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。本文主要分为产品介绍、功能介绍、基础环境依赖安装包、相关文件说明及相关文档这几个部分进行讲解

一、产品介绍

DeepGPU-LLM作为阿里云开发的一套推理引擎,具有易用性和广泛适用性,旨在优化大语言模型在GPU云服务器上的推理过程,通过优化和并行计算等技术手段,为您提供免费的高性能、低延迟推理服务。

DeepGPU-LLM的关联布局图如下所示:

二、功能介绍

DeepGPU-LLM的主要功能包括:

  • 支持多GPU并行(Tensor Parallel)功能。
  • 支持Llama 1/2系列、ChatGLM 1/2/3系列、Baichuan 1/2系列、通义千问Qwen系列等主流模型。
  • 支持fp16,以及int8/int4低精度推理(量化模式:目前支持权重量化和KV-Cache量化)。
  • 支持多卡之间通信优化。
  • 支持stream chat输出和chat直接对话功能。

三、基础环境依赖

DeepGPU-LLM所需的基础环境依赖如下所示:

类别

规格或版本

GPU规格

SM=70, 75, 80, 86, 89(例如A800、A30、A10、V100, T4等)

操作系统

Ubuntu 20.04

CUDA版本

11.7、11.8、12.1

PyTorch版本

1.13、2.0、2.1

OpenMPI

4.0.3版本及以上

四、安装包及相关文件说明

使用DeepGPU-LLM处理大语言模型(LLM)在GPU上的推理优化时,需要您提前准备如下安装包:

安装包名称

说明

  • deepgpu_llm-x.x.x+pt1.13cu117-py3-none-any.whl
  • deepgpu_llm-x.x.x+pt2.0cu117-py3-none-any.whl
  • deepgpu_llm-x.x.x+pt2.1cu121-py3-none-any.whl

LLM模型推理加速安装包。

  • x.x.x指待安装的DeepGPU-LLM版本号。
  • 支持PyTorch 1.13、PyTorch 2.0、PyTorch 2.1版本。
  • 支持单卡或多卡GPU推理。

LLM模型推理加速安装包中所包含的文件如下所示:

文件名称

说明

  • llama_model.py
  • chatglm_model.py
  • baichuan_model.py
  • qwen_model.py
  • deepgpu_utils.py

主流模型的推理依赖代码

  • huggingface_llama_convert
  • huggingface_glm_convert
  • huggingface_chatglm2_convert
  • huggingface_baichuan_convert
  • huggingface_qwen_convert

主流模型权重转换脚本

  • baichuan_cli
  • baichuan_hf_cli
  • chatglm_cli
  • chatglm_hf_cli
  • llama_cli
  • qwen_cli

安装包提供的可运行示例代码

说明

准备好模型后可以直接运行示例代码,通过--help可查看具体参数配置。

五、相关文档

在大语言模型推理场景下,如果您想通过推理引擎DeepGPU-LLM进行不同模型(例如Llama、ChatGLM、Baichuan、通义千问Qwen等模型)的推理优化,请参见安装并使用DeepGPU-LLM


好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
14天前
|
机器学习/深度学习 人工智能 缓存
英伟达提出全新Star Attention,10倍加速LLM推理!登顶Hugging Face论文榜
英伟达推出的Star Attention技术,旨在解决Transformer模型在长序列推理中的高计算成本与速度瓶颈问题。通过两阶段块稀疏近似方法,第一阶段利用块局部注意力并行处理上下文信息,第二阶段通过全局注意力机制交互查询与缓存令牌,从而显著提升计算效率并减少通信开销。该技术可无缝集成到现有LLM中,将内存需求和推理时间降低多达11倍,同时保持高准确性。然而,其在极长序列处理中可能面临内存限制,并增加模型复杂性。尽管如此,Star Attention为长序列推理提供了创新解决方案,推动了Transformer模型的实际应用潜力。
47 19
|
2天前
|
人工智能 城市大脑 新制造
AI赋能:高质量发展新引擎与生成式人工智能(GAI)认证的兴起
人工智能(AI)正成为推动高质量发展的核心动力,从智能制造到智慧城市,应用场景日益丰富。内蒙古等地抢抓AI发展机遇,通过智慧矿山、城市大脑等项目实现产业升级。生成式人工智能(GAI)认证的引入,填补了AI技能培养的空白,为企业和求职者提供了科学规范的标准。未来,需进一步融合AI赋能与GAI认证,加强人才培养与政策支持,推动经济社会持续健康发展。
|
10天前
|
存储 人工智能 Kubernetes
ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践
本文介绍了如何利用阿里云容器服务ACK推出的ACK Gateway with AI Extension组件,在Kubernetes环境中为大语言模型(LLM)推理服务提供智能路由和负载均衡能力。文章以部署和优化QwQ-32B模型为例,详细展示了从环境准备到性能测试的完整实践过程。
|
9天前
|
存储 人工智能 物联网
ACK Gateway with AI Extension:大模型推理的模型灰度实践
本文介绍了如何使用 ACK Gateway with AI Extension 组件在云原生环境中实现大语言模型(LLM)推理服务的灰度发布和流量分发。该组件专为 LLM 推理场景设计,支持四层/七层流量路由,并提供基于模型服务器负载感知的智能负载均衡能力。通过自定义资源(CRD),如 InferencePool 和 InferenceModel,可以灵活配置推理服务的流量策略,包括模型灰度发布和流量镜像。
|
22天前
|
机器学习/深度学习 人工智能 算法
PRefLexOR:MIT自进化AI框架上线!动态知识图谱+跨域推理,重塑自主思考
PRefLexOR 是 MIT 团队推出的新型自学习 AI 框架,结合偏好优化和强化学习,通过递归推理和多步反思,动态生成知识图谱,支持跨领域推理和自主学习。
109 3
PRefLexOR:MIT自进化AI框架上线!动态知识图谱+跨域推理,重塑自主思考
|
8天前
|
人工智能 自然语言处理 Java
对话即服务:Spring Boot整合MCP让你的CRUD系统秒变AI助手
本文介绍了如何通过Model Context Protocol (MCP) 协议将传统Spring Boot服务改造为支持AI交互的智能系统。MCP作为“万能适配器”,让AI以统一方式与多种服务和数据源交互,降低开发复杂度。文章以图书管理服务为例,详细说明了引入依赖、配置MCP服务器、改造服务方法(注解方式或函数Bean方式)及接口测试的全流程。最终实现用户通过自然语言查询数据库的功能,展示了MCP在简化AI集成、提升系统易用性方面的价值。未来,“对话即服务”有望成为主流开发范式。
533 3
|
1月前
|
人工智能 算法 测试技术
OctoTools:斯坦福开源AI推理神器!16项测试准确率碾压GPT-4o,一键搞定复杂任务
OctoTools 是斯坦福大学推出的开源智能体框架,通过标准化工具卡片和自动化工具集优化算法,显著提升复杂推理任务的解决效率,支持多领域应用。
77 3
OctoTools:斯坦福开源AI推理神器!16项测试准确率碾压GPT-4o,一键搞定复杂任务
|
6天前
|
消息中间件 存储 负载均衡
AI 推理场景的痛点和解决方案
一个典型的推理场景面临的问题可以概括为限流、负载均衡、异步化、数据管理、索引增强 5 个场景。通过云数据库 Tair 丰富的数据结构可以支撑这些场景,解决相关问题,本文我们会针对每个场景逐一说明。
AI 推理场景的痛点和解决方案
|
16天前
|
人工智能 运维 监控
领先AI企业经验谈:探究AI分布式推理网络架构实践
当前,AI行业正处于快速发展的关键时期。继DeepSeek大放异彩之后,又一款备受瞩目的AI智能体产品Manus横空出世。Manus具备独立思考、规划和执行复杂任务的能力,其多智能体架构能够自主调用工具。在GAIA基准测试中,Manus的性能超越了OpenAI同层次的大模型,展现出卓越的技术实力。
|
27天前
|
存储 Kubernetes 测试技术
企业级LLM推理部署新范式:基于ACK的DeepSeek蒸馏模型生产环境落地指南
企业级LLM推理部署新范式:基于ACK的DeepSeek蒸馏模型生产环境落地指南
59 12