官方博客-第26页-阿里云开发者社区

阿里云云原生

2025-06-30

405

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

本文介绍了如何使用 llmaz 快速部署基于 vLLM 的大语言模型推理服务，并结合 Higress AI 网关实现流量控制、可观测性、故障转移等能力，构建稳定、高可用的大模型服务平台。

阿里云云原生

405

豁朗

2021-08-13

2412

用SLS配置日志关键字告警的N种方法

本文主要介绍一种免运维，高性能，支持灵活配置的方案，使用SLS接入日志和告警。

豁朗

2,412

阿里云实时数仓Hologres

2022-12-06

1626

升级JSONB列式存储，Hologres助力淘宝搜索2022双11降本增效

升级JSONB列式存储，Hologres助力淘宝搜索2022双11降本增效。

阿里云实时数仓Hologres

1,626

隽驰

2022-12-28

1604

阿里CCO基于Hologres的亿级明细BI探索分析实践

阿里CCO基于Hologres的亿级明细BI探索分析实践。

隽驰

1,604

元乙

2024-05-15

61703

面向全栈可观测的分布式链路追踪

全栈可观测App提供了一套完整的分析工具，从数据统计分析能力到数据关联，再到具备智能化和自动化特性的相关工具，以解决人们在可观测性方面所遇到的问题。未来，我们将持续提供更加丰富和强大的分析工具来满足用户的需求。

元乙

61,703

百宝

2024-05-15

715

ECS多场景迁移上云最佳实践

阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践，详细阐述如何利用CloudOps工具实现运维提效、弹性降本。

百宝

715

ModelScope

2024-05-15

1127

vLLM部署Yuan2.0：高吞吐、更便捷

vLLM是UC Berkeley开源的大语言模型高速推理框架，其内存管理核心——PagedAttention、内置的加速算法如Continues Batching等，一方面可以提升Yuan2.0模型推理部署时的内存使用效率，另一方面可以大幅提升在实时应用场景下Yuan2.0的吞吐量。

ModelScope

1,127

遥方

2024-05-15

381

多账号共享一套ACR方案

一家多业务组织的客户来说往往会有多个云账号，分别部署各个业务线的容器服务。但集团可能想使用一套统一的容器镜像仓库（ACR），就会面临多账号内多个ACK共享一套ACR了。那如何合理规划好ACR实例上的命名空间，打通各个业务ACK集群与ACR的网络，包括如何精细化授权，都是客户需要考虑的。

遥方

381

ModelScope

2024-05-15

1107

LISA微调技术解析：比LoRA更低的显存更快的速度

LISA是Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning的简写，由UIUC联合LMFlow团队于近期提出的一项LLM微调技术，可实现把全参训练的显存使用降低到之前的三分之一左右，而使用的技术方法却是非常简单。

ModelScope

1,107

官方博客-第26页-阿里云开发者社区

类目筛选

内容类型

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

用SLS配置日志关键字告警的N种方法

升级JSONB列式存储，Hologres助力淘宝搜索2022双11降本增效

阿里CCO基于Hologres的亿级明细BI探索分析实践

面向全栈可观测的分布式链路追踪

ECS多场景迁移上云最佳实践

vLLM部署Yuan2.0：高吞吐、更便捷

多账号共享一套ACR方案

LISA微调技术解析：比LoRA更低的显存更快的速度

官方博客-第26页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

用SLS配置日志关键字告警的N种方法

升级JSONB列式存储，Hologres助力淘宝搜索2022双11降本增效

阿里CCO基于Hologres的亿级明细BI探索分析实践

面向全栈可观测的分布式链路追踪

ECS多场景迁移上云最佳实践

vLLM部署Yuan2.0：高吞吐、更便捷

多账号共享一套ACR方案

LISA微调技术解析：比LoRA更低的显存更快的速度