通过阿里云计算巢部署NVIDIA NIM,加速企业大语言模型SaaS化

简介: 在人工智能飞速发展的今天,大语言模型(LLM)为各个行业带来了全新的场景和机遇。诸如客户服务数字人,计算机辅助药物研发的生成式虚拟筛选,基于检索增强生成(RAG)的企业多模态PDF数据提取,网络安全流数据过滤、处理和分类优化等工作流,正在无缝集成和运行在定制化的企业AI应用,企业还能够基于专有业务数据和用户反馈数据,不断优化AI应用。

【阅读原文】戳:通过阿里云计算巢部署NVIDIA NIM,加速企业大语言模型SaaS化

 

在人工智能飞速发展的今天,大语言模型(LLM)为各个行业带来了全新的场景和机遇。诸如客户服务数字人,计算机辅助药物研发的生成式虚拟筛选,基于检索增强生成(RAG)的企业多模态PDF数据提取,网络安全流数据过滤、处理和分类优化等工作流,正在无缝集成和运行在定制化的企业AI应用,企业还能够基于专有业务数据和用户反馈数据,不断优化AI应用。

 

同时,企业也面临着如何高效、安全地部署LLM的挑战。阿里云计算巢基于NVIDIA加速计算技术,通过阿里云云市场为企业和开发者提供NVIDIA AI Enterprise软件套件,其包含了NVIDIA NIM™ Agent Blueprint、NVIDIA NIMNVIDIA NeMo™等企业级AI开发工作流和AI开发工具链。其中,NVIDIA NIM提供可靠、高性能的LLM推理服务,结合阿里云计算巢实现一站式云上部署,助力企业加速实现LLM的SaaS化。

 

本文以Llama3为例,介绍该方案的整体架构和部署方式。

 

 

 

 

NVIDIA NIM:

易于使用的预构建容器工具

 

 

 

NVIDIA NIM微服务是一套易于使用的预构建容器工具,目的是帮助企业客户在云、数据中心和工作站上安全、可靠地部署高性能AI模型。作为NVIDIA AI Enterprise的一部分,NIM具备以下核心优势:

 

安全、灵活的部署:NIM在不同环境的CUDA GPU加速基础设施和Kubernetes发行版中经过严格验证和基准测试,它支持企业在云、数据中心、工作站上安全可靠地部署高性能的AI推理,只需5分钟即可完成部署。

 

加速产品上市:企业通过预构建、持续维护的微服务,能够快速将产品推向市场,缩短开发周期。

 

开发者友好:开发者使用标准API和几行代码即可轻松将NIM集成到企业级AI应用程序中。

 

优化的推理引擎:NIM基于Triton™推理服务器TensorRTTensorRT-LLM和PyTorch等强大的推理引擎构建, 提供行业领先的吞吐率、延迟和token生成速度,确保服务响应更快。

 

企业级支持:NIM采用企业级基础容器构建,提供严格的验证、定期安全更新,适合企业生产环境部署。

 

 

 

 

阿里云计算巢:专为服务商

及其客户打造的云集成PaaS平台

 

 

 

阿里云计算巢服务是一个开放给企业应用服务商(包括:企业应用服务商、IT集成服务商、交付服务商和管理服务提供商等)及其用户的服务管理PaaS平台,提供软件上云的“一站式”解决方案。

 

阿里云计算巢能提供软件的交付、部署、运维流程标准化的服务,支持软件和资源的一体化交付,真正实现了软件的开箱即用。

 

阿里云计算巢服务集成了阿里云一系列底层产品能力,通过通用的应用管控框架、租户管理框架,帮助服务商提升服务的交付效率、管理效率和服务能力,在提升用户满意度的同时降低运营成本;并为用户提供了统一管理多种应用服务的平台,提升用户使用服务的效率和安全性,降低用户获取服务和管理服务的成本。

 

 

 

 

方案介绍

 

 

 

下图展示了通过阿里云计算巢快速部署NVIDIA NIM的整体架构。以Llama3为例,我们通过计算巢来创建、管理LLM推理服务:在阿里云容器服务ACK(容器服务Kubernetes版)集群上,我们使用阿里云ACK的云原生AI套件,集成开源推理服务框架KServe,来部署NVIDIA NIM。

 

同时,结合ACK的Prometheus和Grafana监控服务,快速搭建监控大盘,实时观测推理服务状态;利用NVIDIA NIM提供丰富的监控指标,如num_requests_waiting,配置推理服务弹性扩缩容策略。

 

这里列出的云上资源,以及阿里云弹性计算服务(ECS)、专有网络(VPC)等基础资源,都可以通过计算巢来轻松配置,一键拉起,最终实现一个云上高性能、可实时观测、极致弹性的大语言模型推理服务。用户只需要根据该服务创建实例,便可部署该服务。

 

图 1. 通过阿里云计算巢快速部署

NVIDIA NIM架构图

(图片来源于阿里云,如您有任何疑问或需要使用本图片,请联系阿里云)

 

 

 

部署流程

 

 

 

1. 参考NVIDIA NIM文档,生成NVIDIA NGC API Key,用于访问需要部署的模型镜像。以本文用到的Llama-3-8B-Instruct为例,可以通过NVIDIA NGC目录来获取:

 

https://org.ngc.nvidia.com/setup/personal-keys

 

 

同时,请阅读并承诺遵守Llama模型的自定义可商用开源协议:

 

https://www.llama.com/llama-downloads/

 

2. 在阿里云计算巢服务目录中找到“基于NVIDIA NIM快速部署LLM模型推理服务”,并进入实例部署页面:

 

https://computenest.console.aliyun.com/service/detail/cn-hangzhou/service-8cd0757070b848a399e4

 

如下图所示,主要配置服务的基本信息和云上资源,以及第一步中获取的NVIDIA NGC API Key,需要填写在下图相应位置。

 

图 2. 在阿里云计算巢创建服务实例

(图片来源于阿里云,如您有任何疑问或需要使用本图片,请联系阿里云)

 

 

因为服务部署在阿里云ACK集群之上,这里也包含了Kubernetes配置:

 

图 3. 阿里云ACK集群上Kubernetes

选项页面

(图片来源于阿里云,如您有任何疑问或需要使用本图片,请联系阿里云)

 

 

3. 按照页面提示完成所有配置之后,点击下一步:确认订单,在这里确认第2步配置的服务实例信息和价格预览。

 

图 4. 确认服务实例信息和价格预览

(图片来源于阿里云,如您有任何疑问或需要使用本图片,请联系阿里云)

 

 

部署过程中,用户需要创建和访问阿里云资源,当阿里云账号属于RAM账号时,需要开通以下权限,页面上也有开通这些权限的入口。

 

 

 

4. 点击立即创建,开始部署。过程中会涉及阿里云资源的创建、NIM模型镜像的拉取等。拉取过程的日志,可通过”点击资源tab->找到ACK集群->页面左侧的工作负载->无状态”来查看。部署完成后,进入服务实例详情查看使用说明。通过curl发送HTTP请求访问推理服务,修改content字段,便可自定义和推理服务交互的内容。

 

图 5. 服务实例详情页面截图

(图片来源于阿里云,如您有任何疑问或需要使用本图片,请联系阿里云)

 

 

 

 

通过阿里云的云市场获取

NVIDIA AI Enterprise使用该方案

 

 

 

NVIDIA NIM是NVIDIA AI Enterprise的一部分,正式使用时须获得NVIDIA AI Enterprise的许可证授权。现在,企业用户可以通过阿里云云市场获取NVIDIA AI Enterprise来使用该方案。阿里云市场提供了概念验证(PoC)测试服务和购买NVIDIA AI Enterprise许可证,共两个下单页面。

 

PoC 测试服务

https://market.aliyun.com/products/201214006/cmgj00067281.html

 

提供90天NVIDIA AI Enterprise PoC License,暨90天免费试用,而使用时须支付阿里云计算资源的费用。

 

 

通过阿里云的云市场购买NVIDIA AI Enterprise许可证

https://market.aliyun.com/products/201214006/cmfw00067311.html

 

该页面提供的信息仅供参考,用户需要通过该页面的“NVIDIA服务咨询”钉钉来沟通采购,最终通过云市场官网推送下单链接获取NVIDIA AI Enterprise许可证。

 

 

 

 

总结

 

 

 

本文介绍了通过阿里云计算巢快速部署NVIDIA NIM的方案收益和部署方式,该方案充分利用了NIM的安全与高性能的无缝AI 推理功能,以及计算巢的软件一站式上云和交付能力,从而打造极致弹性、高性能、可实时观测的云上LLM推理服务。更多LLM上云部署参考示例请查看NVIDIA NGC目录

 

https://catalog.ngc.nvidia.com/?filters=nvidia_nim%7CNVIDIA+NIM%7Cnimmcro_nvidia_nim%2CresourceType%7CContainer%7Ccontainer

 

欢迎大家体验和试用。

 

查看更多计算巢服务 :https://computenest.aliyun.com


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
2048小游戏
基于计算巢&ECS云服务器快速部署,带您畅玩2048小游戏。
相关文章
|
2月前
|
存储 Serverless 数据库
科普文:云计算服务类型IaaS, PaaS, SaaS, BaaS, Faas说明
本文介绍了云计算服务的几种主要类型,包括IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)、BaaS(后端即服务)和FaaS(函数即服务)。每种服务模式提供了不同的服务层次和功能,从基础设施的提供到应用的开发和运行,再到软件的交付使用,满足了企业和个人用户在不同场景下的需求。文章详细阐述了每种服务模式的特点、优势和缺点,并列举了相应的示例。云计算服务的发展始于21世纪初,随着互联网技术的普及,这些服务模式不断演进,为企业和个人带来了高效、灵活的解决方案。然而,使用这些服务时也需要注意服务的稳定性、数据安全性和成本等问题。
1659 4
|
7月前
|
存储 运维 持续交付
探索云计算的不同服务模型:IaaS、PaaS、SaaS
【5月更文挑战第23天】本文探讨了云计算的三大服务模型:IaaS、PaaS和SaaS。IaaS提供基础设施租赁,允许用户按需付费,聚焦业务创新而非设备维护。PaaS在IaaS基础上提供开发、测试和部署环境,简化应用管理,支持弹性扩展。SaaS则为用户提供可通过互联网访问的软件应用,实现多租户共享,提升工作灵活性。这三种模型满足了不同用户从基础设施到软件服务的多元化需求。
|
2月前
|
Cloud Native 持续交付 云计算
云端新纪元:探索云原生技术的奥秘在当今数字化时代,云计算已成为推动企业创新和增长的关键动力。随着云平台的不断成熟,云原生技术应运而生,以其独特的优势引领着一场新的技术革命。本文将深入探讨云原生的核心概念、主要特点以及它如何改变现代软件开发和部署的方式,为您揭开云原生这一神秘面纱。
云原生是一种构建和运行应用程序的方法,充分利用了云平台的弹性、分布式本质以及声明式基础设施。本文将解析云原生的十二要素,微服务架构的优势,以及容器化、持续集成与持续部署(CI/CD)等核心技术的实践应用。通过深入浅出的方式,让读者理解云原生不仅是一种技术,更是一种文化和方法论,它正在重塑软件开发流程,提高资源利用率和应用系统的可扩展性与容错性。
|
4月前
|
机器学习/深度学习 监控 API
基于云计算的机器学习模型部署与优化
【8月更文第17天】随着云计算技术的发展,越来越多的数据科学家和工程师开始使用云平台来部署和优化机器学习模型。本文将介绍如何在主要的云计算平台上部署机器学习模型,并讨论模型优化策略,如模型压缩、超参数调优以及分布式训练。
846 2
|
4月前
|
人工智能 云计算 数据中心
云计算演进问题之阿里云自研CPU倚天710的部署如何解决
云计算演进问题之阿里云自研CPU倚天710的部署如何解决
|
5月前
|
Oracle 安全 关系型数据库
ERP系统的云计算与SaaS模式:实现高效灵活的企业管理
【7月更文挑战第29天】 ERP系统的云计算与SaaS模式:实现高效灵活的企业管理
299 4
|
4月前
|
存储 分布式计算 监控
Hadoop在云计算环境下的部署策略
【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。随着云计算技术的发展,越来越多的企业开始利用云平台的优势来部署Hadoop集群,以实现更高的可扩展性、可用性和成本效益。本文将探讨如何在公有云、私有云及混合云环境下部署和管理Hadoop集群,并提供具体的部署策略和代码示例。
170 0
|
7月前
|
消息中间件 缓存 Java
【Java】全套云HIS(医院信息管理系统)可对接医保 采用云端SaaS模式部署
总体框架: SaaS应用,全浏览器访问 前后端分离,多服务协同 服务可拆分,功能易扩展
173 1
【Java】全套云HIS(医院信息管理系统)可对接医保 采用云端SaaS模式部署
|
7月前
|
消息中间件 缓存 Java
java基于云部署的SaaS医院云HIS系统源码 心理CT、B超 lis、电子病历
云HIS系统是一款满足基层医院各类业务需要的健康云产品。该产品能帮助基层医院完成日常各类业务,提供病患预约挂号支持、病患问诊、电子病历、开药发药、会员管理、统计查询、医生工作站和护士工作站等一系列常规功能,还能与公卫、PACS等各类外部系统融合,实现多层机构之间的融合管理。
122 12
|
7月前
|
存储 运维 JavaScript
SaaS云HIS平台源码 采用云部署模式,部署一套可支持多家医院共同使用
通过基于SaaS模式的医院管理系统,院内的医护人员、患者可快速建立互联协同。不仅如此,通过SaaS模式提供的解决方案,医院机构可实现远程医疗,从而为不同地区的患者带来优质医疗资源,促进医疗公平。
138 5