官方博客-第26页-阿里云开发者社区

阿里云云原生

2025-06-30

405

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

本文介绍了如何使用 llmaz 快速部署基于 vLLM 的大语言模型推理服务，并结合 Higress AI 网关实现流量控制、可观测性、故障转移等能力，构建稳定、高可用的大模型服务平台。

阿里云云原生

405

阿里云实时数仓Hologres

2022-12-06

1626

升级JSONB列式存储，Hologres助力淘宝搜索2022双11降本增效

升级JSONB列式存储，Hologres助力淘宝搜索2022双11降本增效。

阿里云实时数仓Hologres

1,626

别梦

2023-08-07

619

MaxCompute ODPS 重装上阵，QUALIFY

MaxCompute支持QUALIFY语法过滤Window函数的结果，使得查询语句更简洁易理解。Window函数和QUALIFY语法之间的关系可以类比聚合函数+GROUP BY语法和HAVING语法。

别梦

619

匡大虎

2024-05-15

1551

从方法论到最佳实践，深度解析企业云原生 DevSecOps 体系构建

本文主要介绍了云原生安全的现状以及企业应用在云原生化转型中面临的主要安全挑战以及相对成熟的一部分安全体系方法论，深度解析企业云原生 DevSecOps 体系构建。

匡大虎

1,551

斜阳

2024-05-15

133375

谈谈 RocketMQ 5.0 分级存储背后一些有挑战的技术优化

斜阳

133,375

雅纯

2024-05-15

121882

云效AppStack+阿里云MSE实现应用服务全链路灰度

在应用开发测试验证通过后、进行生产发布前，为了降低新版本发布带来的风险，期望能够先部署到灰度环境，用小部分业务流量进行全链路灰度验证，验证通过后再全量发布生产。本文主要介绍如何通过阿里云MSE 微服务引擎和云效应用交付平台AppStack 实现灰度发布。

雅纯

121,882

ModelScope

2024-05-15

1127

vLLM部署Yuan2.0：高吞吐、更便捷

vLLM是UC Berkeley开源的大语言模型高速推理框架，其内存管理核心——PagedAttention、内置的加速算法如Continues Batching等，一方面可以提升Yuan2.0模型推理部署时的内存使用效率，另一方面可以大幅提升在实时应用场景下Yuan2.0的吞吐量。

ModelScope

1,127

ModelScope

2024-05-15

1107

LISA微调技术解析：比LoRA更低的显存更快的速度

LISA是Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning的简写，由UIUC联合LMFlow团队于近期提出的一项LLM微调技术，可实现把全参训练的显存使用降低到之前的三分之一左右，而使用的技术方法却是非常简单。

ModelScope

1,107

阿里云云原生

2024-05-21

57446

函数计算助力领健信息为“看牙”注入 AI 活力

口腔治疗+函数计算=效率提升🚀 领健作为业界领先的口腔机构，面向口腔诊所提供正畸算法，但早期的算法部署遇到较多问题，因此在对比了阿里云的多个云产品之后，最终选择了函数计算。通过将 GPU 计算负载放到函数计算，领健技术团队达到了很好的降本效果，相比早前的按月持有 GPU 资源，函数计算的费用降低了 90% 左右，并大大提升了使用体验，实现了前所未有的敏捷性和效率。

阿里云云原生

57,446

官方博客-第26页-阿里云开发者社区

类目筛选

内容类型

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

升级JSONB列式存储，Hologres助力淘宝搜索2022双11降本增效

MaxCompute ODPS 重装上阵，QUALIFY

从方法论到最佳实践，深度解析企业云原生 DevSecOps 体系构建

谈谈 RocketMQ 5.0 分级存储背后一些有挑战的技术优化

云效AppStack+阿里云MSE实现应用服务全链路灰度

vLLM部署Yuan2.0：高吞吐、更便捷

LISA微调技术解析：比LoRA更低的显存更快的速度

函数计算助力领健信息为“看牙”注入 AI 活力

官方博客-第26页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

升级JSONB列式存储，Hologres助力淘宝搜索2022双11降本增效

MaxCompute ODPS 重装上阵，QUALIFY

从方法论到最佳实践，深度解析企业云原生 DevSecOps 体系构建

谈谈 RocketMQ 5.0 分级存储背后一些有挑战的技术优化

云效AppStack+阿里云MSE实现应用服务全链路灰度

vLLM部署Yuan2.0：高吞吐、更便捷

LISA微调技术解析：比LoRA更低的显存更快的速度

函数计算助力领健信息为“看牙”注入 AI 活力