使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 本文介绍了在阿里云容器服务 ACK 上部署 NVIDIA NIM,结合云原生 AI 套件和 KServe 快速构建高性能模型推理服务的方法。通过阿里云 Prometheus 和 Grafana 实现实时监控,并基于排队请求数配置弹性扩缩容策略,提升服务稳定性和效率。文章提供了详细的部署步骤和示例,帮助读者快速搭建和优化模型推理服务。

大语言模型(LLM)是近年来发展迅猛并且激动人心的热点话题,引入了许多新场景,满足了各行各业的需求。随着开源模型能力的不断增强,越来越多的企业开始尝试在生产环境中部署开源模型,将 AI 模型接入到现有的基础设施,优化系统延迟和吞吐量,完善监控和安全等方面。然而要在生产环境中部署这一套模型推理服务过程复杂且耗时。为了简化流程,帮助企业客户加速部署生成式 AI 模型,本文结合 **NVIDIA NIM**(一套专为安全、可靠地部署高性能 AI 模型推理而设计的微服务,是一套易于使用的预构建容器化工具)和阿里云容器服务 ACK(https://help.aliyun.com/zh/ack/)等产品,提供了一套开箱即用,可以快速构建一个高性能、可观测、灵活弹性的 LLM 模型推理服务的操作指南。


阿里云容器服务 (ACK)云原生 AI 套件


阿里云容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)是全球首批通过 Kubernetes 一致性认证的服务平台,提供高性能的容器应用管理服务,支持企业级 Kubernetes 容器化应用的生命周期管理,让您轻松高效地在云端运行 Kubernetes 容器化应用。


云原生 AI 套件(https://help.aliyun.com/zh/ack/cloud-native-ai-suite/)是阿里云容器服务 ACK 提供的云原生 AI 技术和产品方案。使用云原生 AI 套件,您可以充分利用云原生架构和技术,在 Kubernetes 容器平台上快速定制化构建 AI 生产系统,并为 AI/ML 应用和系统提供全栈优化。云原生 AI 套件支持使用 Kubeflow 社区开源的命令行工具 Arena(https://github.com/kubeflow/arena),对深度学习核心生产环节(包括数据管理、模型训练、模型评估、推理服务部署等)任务进行简单抽象和高效管理,同时降低 Kubernetes 复杂概念带来的使用复杂度。Arena 可以实现分布式训练任务的快速提交,并进行任务的生命周期管理。此外,云原生 AI 套件还提供针对分布式场景优化的调度策略,例如 Binpack 算法分配策略,提升 GPU 利用率,还支持自定义的任务优先级管理和租户弹性资源配额控制,在确保用户资源分配的基础上,通过资源共享的方式来提升集群的整体资源利用率。


阿里云云市场与计算巢一键部署

在阿里云云市场,提供了组件的一键部署服务:https://market.aliyun.com/products/201214006/cmgj00067281.html

image.png


方案介绍


本文将介绍如何在阿里云 ACK 集群上,使用云原生 AI 套件集成开源推理服务框架 KServe(https://github.com/kserve/kserve),快速部署 NVIDIA NIM。同时,结合阿里云的 Prometheus 和 Grafana 服务,快速搭建监控大盘,实时观测推理服务状态。利用 NVIDIA NIM 提供丰富的监控指标,如 num_requests_waiting,配置推理服务弹性扩缩容策略。当有突发流量导致推理服务处理请求排队时,能自动扩容新的实例来应对高峰流量。整体解决方案架构如下所示。

640.png


本文将介绍在 ACK 集群上部署 NVIDIA NIM 的步骤,总体步骤如下:

  1. 创建 ACK 集群并安装云原生 AI 套件,ack-kserve 等组件。
  2. 使用 Arena 提交 KServe 推理服务,使用 NIVDIA NIM 容器,部署 Llama3-8B 模型。
  3. 为推理服务配置监控,实时观测推理服务状态。
  4. 基于排队中请求数指标配置弹性扩缩容策略,自动灵活地调整模型服务实例的规模。


部署流程


首先需要创建包含 GPU 的 Kubernetes 集群,并部署云原生 AI 套件。为了在集群中使用 KServe 管理推理服务,还需要安装 ack-kserve️。集群环境准备好后,就可以参考下列步骤开始部署服务了。


重要

- 您应自觉遵守第三方模型的用户协议、使用规范和相关法律法规,并就使用第三方模型的合法性、合规性自行承担相关责任。


1. 参考 NVIDIA NIM 文档,生成 NVIDIA NGC API key,访问需要部署的模型镜像,比如本文中使用的 Llama3-8b-instruct:

https://docs.nvidia.com/nim/large-language-models/latest/getting-started.html#generate-an-api-key

请阅读并承诺遵守 Llama 模型的自定义可商用开源协议:

https://llama.meta.com/llama-downloads/


2. 创建 imagePullSecret,用于从 NGC 私有仓库拉取 NIM 镜像。

export NGC_API_KEY=<your-ngc-api-key>

kubectl create secret docker-registry ngc-secret \

--docker-server=nvcr.io\

--docker-username='$oauthtoken'\

--docker-password=${NGC_API_KEY}


3. 创建 nvidia-nim-secret,用于在容器内访问 NGC 私有仓库,参考 nim-deploy 部署文档:

https://github.com/NVIDIA/nim-deploy/blob/main/kserve/README.md

kubectl apply -f-<<EOF

apiVersion: v1

kind: Secret

metadata:

 name: nvidia-nim-secrets

stringData:

 NGC_API_KEY: <your-ngc-api-key>

EOF


4. 为目标集群配置存储卷 PV 和存储声明 PVC,后续模型文件将会下载到创建的共享存储中。具体操作,请参见使用 NAS 静态存储卷:

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/mount-statically-provisioned-nas-volumes


以下为示例 PV 的配置信息:

640 (1).png


以下为示例 PVC 的配置信息:

640 (2).png


5. 执行下列命令,部署一个 KServe 推理服务,使用 NVIDIA NIM 提供的镜像,指定使用一个 NVIDIA GPU,将 PVC 挂载到容器内的 /mnt/models 目录用于保存模型文件,配置 autoscalerClass=external 指定使用自定义 HPA 策略,同时还开启 Prometheus 采集推理服务监控指标,用于后续在 Grafana 中搭建监控大盘。等待容器启动后,即可使用 Llama3-8b-instruct 模型提供推理服务。

arena serve kserve \

   --name=llama3-8b-instruct \

   --image=nvcr.io/nim/meta/llama3-8b-instruct:1.0.0 \

   --image-pull-secret=ngc-secret \

   --gpus=1 \

   --cpu=8 \

   --memory=32Gi \

   --share-memory=32Gi \

   --port=8000 \

   --security-context runAsUser=0 \

   --annotation=serving.kserve.io/autoscalerClass=external \

   --env NIM_CACHE_PATH=/mnt/models \

   --env-from-secret NGC_API_KEY=nvidia-nim-secrets \

   --enable-prometheus=true \

   --metrics-port=8000 \

   --data=nim-model:/mnt/models


预期输出:

INFO[0004] The Job llama3-8b-instruct has been submitted successfully

INFO[0004] You can run `arena serve get llama3-8b-instruct --type kserve -n default` to check the job status


输出结果表明推理服务已部署成功。


6. 推理部署完成后,可通过执行以下命令,查看 KServe 推理服务的部署情况。

arena serve get llama3-8b-instruct


预期输出:

Name:       llama3-8b-instruct

Namespace:  default

Type:       KServe

Version:    1

Desired:    1

Available:  1

Age:        24m

Address:    http://llama3-8b-instruct-default.example.com

Port:       :80

GPU:        1



Instances:

 NAME                                           STATUS   AGE  READY  RESTARTS  GPU  NODE

 ----                                           ------   ---  -----  --------  ---  ----

 llama3-8b-instruct-predictor-545445b4bc-97qc5  Running  24m

   1/1    0         1    ap-southeast-1.172.16.xx.xxx


输出结果表明,KServe 推理服务部署成功,模型访问地址为:

http://llama3-8b-instruct-default.example.com


7. 接下来就可以访问推理服务了,可通过使用获取到的 Nginx Ingress 网关地址访问推理服务。

# Obtain the IP address of the Nginx ingress.

NGINX_INGRESS_IP=$(kubectl -n kube-system get svc nginx-ingress-lb -ojsonpath='{.status.loadBalancer.ingress[0].ip}')

# Obtain the Hostname of the Inference Service.

SERVICE_HOSTNAME=$(kubectl get inferenceservice llama3-8b-instruct -o jsonpath='{.status.url}' | cut -d "/" -f 3)

# Send a request to access the inference service.

curl -H "Host: $SERVICE_HOSTNAME" -H "Content-Type: application/json" http://$NGINX_INGRESS_IP:80/v1/chat/completions -d '{"model": "meta/llama3-8b-instruct", "messages": [{"role": "user", "content": "Once upon a time"}], "max_tokens": 64, "temperature": 0.7, "top_p": 0.9, "seed": 10}'


预期输出:

{"id":"cmpl-70af7fa8c5ba4fe7b903835e326325ce","object":"chat.completion","created":1721557865,"model":"meta/llama3-8b-instruct","choices":[{"index":0,"message":{"role":"assistant","content":"It sounds like you're about to tell a story! I'd love to hear it. Please go ahead and continue with \"Once upon a time...\""},"logprobs":null,"finish_reason":"stop","stop_reason":128009}],"usage":{"prompt_tokens":14,"total_tokens":45,"completion_tokens":31}}


输出结果表明,已经能够通过 Nginx Ingress 网关地址访问推理服务,并成功返回推理结果。


监控


NVIDIA NIM 提供了丰富的 Prometheus 监控指标,比如首 token 时延、当前正在运行的请求数、请求 token 数、生成 token 数等指标。结合阿里云 Prometheus 和 Grafana 服务,可以快速在 Grafana 中搭建监控大盘,实时观测推理服务状态。


  1. 已开启阿里云 Prometheus 监控组件。具体操作,请参见开启阿里云 Prometheus 监控
    https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/use-alibaba-cloud-prometheus-service-to-monitor-an-ack-cluster?spm=a2c4g.11186623.0.0.612b63c5QDfm5F#section-o0u-mkk-58y

  2. 创建 grafana 工作区,登录 Grafana 的 Dashboards 页面。

  3. 导入 NVIDIA NIM 提供的 dashboard 样例:
    https://docscontent.nvidia.com/sphinx/0000018f-7ee8-d345-a7bf-ffeadf9c0000/0000018f-7ee7-db2d-a1ff-7ef744750000/nim/large-language-models/latest/_downloads/66e67782ce543dcccec574b1483f0ea0/nim-dashboard-example.json

640 (3).png

成功导入后,dashboard 示例如下

640 (4).png

弹性伸缩


在部署与管理 KServe 模型服务过程中,需应对模型推理服务面临的高度动态负载波动。KServe 通过集成 Kubernetes 原生的 HPA(Horizontal Pod Autoscaler)技术及扩缩容控制器,实现了根据 CPU 利用率、内存占用情况、GPU 利用率以及自定义性能指标,自动灵活地调整模型服务 Pod 的规模,以确保服务效能与稳定性。


基于排队请求数配置自定义指标的弹性扩缩容策略


自定义指标的扩缩容依赖 ACK 提供的 ack-alibaba-cloud-metrics-adapter 组件与 Kubernetes HPA 机制实现。详细信息,请参见基于阿里云 Prometheus 指标的容器水平伸缩

https://help.aliyun.com/zh/ack/serverless-kubernetes/user-guide/horizontal-pod-scaling-based-on-prometheus-service-metrics-1


以下示例演示如何基于 NVIDIA NIM 提供的 num_requests_waiting 指标配置扩缩容策略。


  1. 已部署阿里云 Prometheus 和 ack-alibaba-cloud-metrics-adapter,请参见基于阿里云 Prometheus 指标的容器水平伸缩:
    https://help.aliyun.com/zh/ack/serverless-kubernetes/user-guide/horizontal-pod-scaling-based-on-prometheus-service-metrics-1

  2. 在 Helm 列表的操作列,单击 ack-alibaba-cloud-metrics-adapter 对应的更新。在 custom 字段下添加如下 rules。

- seriesQuery: num_requests_waiting{namespace!="",pod!=""}

 resources:

   overrides:

     namespace: {resource: "namespace"}

     pod: {resource: "pod"}

 metricsQuery: sum(<<.Series>>{<<.LabelMatchers>>}) by (<<.GroupBy>>)


  1. 通过 Custom Metrics 进行容器伸缩,示例配置了当等待中的请求数超过 10 则进行扩容。


使用以下内容,创建 hpa.yaml 文件。

apiVersion: autoscaling/v2

kind: HorizontalPodAutoscaler

metadata:

 name: llama3-8b-instruct-hpa

 namespace: default

spec:

 # The minReplicas and maxReplicas for the HPA.

 minReplicas: 1

 maxReplicas: 3

 # An array of monitoring metrics that supports the coexistence of multiple types of metrics.

 metrics:

 - pods:

     metric:

       name: num_requests_waiting

     target:

       averageValue: 10

       type: AverageValue

   type: Pods

 # The scaling target description for the HPA, which dynamically adjusts the number of Pods for the target object.

 scaleTargetRef:

   apiVersion: apps/v1

   kind: Deployment

   name: llama3-8b-instruct-predictor


执行以下命令,创建 HPA 应用。

kubectl apply -f hpa.yam


执行以下命令,创建 HPA 应用。

kubectl  get hpa llama3-8b-instruct-hpa


预期输出:

NAME                     REFERENCE                                 TARGETS   MINPODS   MAXPODS   REPLICAS   AGE

llama3-8b-instruct-hpa   Deployment/llama3-8b-instruct-predictor   0/10      1         3         1          34s


  1. 执行以下命令,对服务进行压测。
    说明 Hey 压测工具的详细介绍,请参

https://github.com/rakyll/hey

hey -z 5m -c 400 -m POST -host $SERVICE_HOSTNAME -H "Content-Type: application/json" -d '{"model": "meta/llama3-8b-instruct", "messages": [{"role": "user", "content": "Once upon a time"}], "max_tokens": 64}' http://$NGINX_INGRESS_IP:80/v1/chat/completions


  1. 在压测期间,重新打开一个终端,执行以下命令查看服务的扩缩容情况。

kubectl describe hpa llama3-8b-instruct-hpa


预期输出包含如下内容:

Events:

 Type    Reason             Age   From                       Message

 ----    ------             ----  ----                       -------

 Normal  SuccessfulRescale  52s   horizontal-pod-autoscaler  New size: 3; reason: pods metric num_requests_waiting above target


  1. 预期输出表明在压测期间 Pod 数会扩容到 2,而当压测结束后,经过一段时间(约为 5 分钟),Pod 缩容到 1。即可以实现自定义指标的扩缩容。


总结


本文通过在阿里云容器服务 ACK 上部署 NVIDIA NIM,结合阿里云 Prometheus 和 Grafana 服务,快速在 Grafana 中搭建监控大盘,实时观测推理服务状态。为应对模型推理服务面临的动态负载波动,基于排队中的请求数配置自定义指标的弹性扩缩容策略,使模型推理服务实例根据等待中的请求数动态扩缩容。通过以上方式,可以快速构建一个高性能、可观测、极致弹性的模型推理服务。


相关链接:

1、基于NVIDIA NIM快速部署LLM模型推理服务:https://market.aliyun.com/products/201214006/cmgj00067281.html

2、NVIDIA AIE-License授权:https://market.aliyun.com/products/201214006/cmfw00067311.html







相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
24天前
|
人工智能 弹性计算 运维
ACK Edge与IDC:高效容器网络通信新突破
本文介绍如何基于ACK Edge以及高效的容器网络插件管理IDC进行容器化。
|
2天前
|
供应链 安全 Cloud Native
阿里云飞天企业版获【可信云·容器平台安全能力】先进级认证
阿里云飞天企业版容器系列产品获中国信息通信研究院【可信云·容器平台安全能力】先进级认证,这是飞天企业版容器产品获得《等保四级PaaS平台》和《 云原生安全配置基线规范V2.0》之后,本年度再一次获得行业权威认可,证明飞天企业版的容器解决方案具备符合行业标准的最高等级容器安全能力。
阿里云飞天企业版获【可信云·容器平台安全能力】先进级认证
|
2天前
|
开发框架 Prometheus 监控
使用阿里云服务网格高效管理LLM流量:(二)流量可观测
本文介绍如何使用阿里云服务网格提供的增强能力灵活、全面的观测集群中的LLM流量。
|
25天前
|
人工智能 运维 监控
阿里云ACK容器服务生产级可观测体系建设实践
本文整理自2024云栖大会冯诗淳(花名:行疾)的演讲,介绍了阿里云容器服务团队在生产级可观测体系建设方面的实践。冯诗淳详细阐述了容器化架构带来的挑战及解决方案,强调了可观测性对于构建稳健运维体系的重要性。文中提到,阿里云作为亚洲唯一蝉联全球领导者的容器管理平台,其可观测能力在多项关键评测中表现优异,支持AI、容器网络、存储等多个场景的高级容器可观测能力。此外,还介绍了阿里云容器服务在多云管理、成本优化等方面的最新进展,以及即将推出的ACK AI助手2.0,旨在通过智能引擎和专家诊断经验,简化异常数据查找,缩短故障响应时间。
阿里云ACK容器服务生产级可观测体系建设实践
|
10天前
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
12天前
|
JSON 人工智能 算法
探索大型语言模型LLM推理全阶段的JSON格式输出限制方法
本篇文章详细讨论了如何确保大型语言模型(LLMs)输出结构化的JSON格式,这对于提高数据处理的自动化程度和系统的互操作性至关重要。
|
29天前
|
机器学习/深度学习 存储 缓存
ORCA:基于持续批处理的LLM推理性能优化技术详解
大语言模型(LLMs)的批处理优化面临诸多挑战,尤其是由于推理过程的迭代性导致的资源利用不均问题。ORCA系统通过引入迭代级调度和选择性批处理技术,有效解决了这些问题,大幅提高了GPU资源利用率和系统吞吐量,相比FasterTransformer实现了最高37倍的性能提升。
122 26
|
20天前
|
弹性计算 自然语言处理 数据库
通过阿里云Milvus和LangChain快速构建LLM问答系统
本文介绍如何通过整合阿里云Milvus、阿里云DashScope Embedding模型与阿里云PAI(EAS)模型服务,构建一个由LLM(大型语言模型)驱动的问题解答应用,并着重演示了如何搭建基于这些技术的RAG对话系统。
|
25天前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
阿里云容器服务ACK提供强大的产品能力,支持弹性、调度、可观测、成本治理和安全合规。针对拥有IDC或三方资源的企业,ACK One分布式云容器平台能够有效解决资源管理、多云多集群管理及边缘计算等挑战,实现云上云下统一管理,提升业务效率与稳定性。
|
25天前
|
Kubernetes 算法 调度
阿里云 ACK FinOps成本优化最佳实践
本文源自2024云栖大会梁成昊演讲,讨论了成本优化策略的选择与实施。文章首先介绍了成本优化的基本思路,包括优化购买方式、调整资源配置等基础策略,以及使用弹性、资源混部等高级策略。接着,文章详细探讨了集群优化和应用优化的具体方法,如使用抢占式实例降低成本、通过资源画像识别并优化资源配置,以及利用智能应用弹性策略提高资源利用效率。

相关产品

  • 容器服务Kubernetes版