官方博客-第23页-阿里云开发者社区

阿里云云原生

2025-06-30

405

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

本文介绍了如何使用 llmaz 快速部署基于 vLLM 的大语言模型推理服务，并结合 Higress AI 网关实现流量控制、可观测性、故障转移等能力，构建稳定、高可用的大模型服务平台。

阿里云云原生

405

阿里云实时数仓Hologres

2022-12-06

1626

升级JSONB列式存储，Hologres助力淘宝搜索2022双11降本增效

升级JSONB列式存储，Hologres助力淘宝搜索2022双11降本增效。

阿里云实时数仓Hologres

1,626

隽驰

2022-12-28

1604

阿里CCO基于Hologres的亿级明细BI探索分析实践

阿里CCO基于Hologres的亿级明细BI探索分析实践。

隽驰

1,604

ModelScope

2024-05-15

1127

vLLM部署Yuan2.0：高吞吐、更便捷

vLLM是UC Berkeley开源的大语言模型高速推理框架，其内存管理核心——PagedAttention、内置的加速算法如Continues Batching等，一方面可以提升Yuan2.0模型推理部署时的内存使用效率，另一方面可以大幅提升在实时应用场景下Yuan2.0的吞吐量。

ModelScope

1,127

遥方

2024-05-15

381

多账号共享一套ACR方案

一家多业务组织的客户来说往往会有多个云账号，分别部署各个业务线的容器服务。但集团可能想使用一套统一的容器镜像仓库（ACR），就会面临多账号内多个ACK共享一套ACR了。那如何合理规划好ACR实例上的命名空间，打通各个业务ACK集群与ACR的网络，包括如何精细化授权，都是客户需要考虑的。

遥方

381

ModelScope

2024-05-15

1107

LISA微调技术解析：比LoRA更低的显存更快的速度

LISA是Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning的简写，由UIUC联合LMFlow团队于近期提出的一项LLM微调技术，可实现把全参训练的显存使用降低到之前的三分之一左右，而使用的技术方法却是非常简单。

ModelScope

1,107

阿里云云原生

2024-05-21

57446

函数计算助力领健信息为“看牙”注入 AI 活力

口腔治疗+函数计算=效率提升🚀 领健作为业界领先的口腔机构，面向口腔诊所提供正畸算法，但早期的算法部署遇到较多问题，因此在对比了阿里云的多个云产品之后，最终选择了函数计算。通过将 GPU 计算负载放到函数计算，领健技术团队达到了很好的降本效果，相比早前的按月持有 GPU 资源，函数计算的费用降低了 90% 左右，并大大提升了使用体验，实现了前所未有的敏捷性和效率。

阿里云云原生

57,446

赵世振

2024-08-21

1443

阿里云百炼应用实践系列-10分钟构建能主动提问的智能导购

通过使用阿里云百炼平台，您可以快速构建一个多代理（Multi-Agent）架构的智能导购助手。该助手能够通过多轮互动了解顾客的具体需求，收集详细信息后，利用阿里云百炼的知识检索增强功能或已有的商品数据库进行商品搜索，为顾客推荐最合适的产品。

赵世振

1,443

喻奎

2024-08-23

284

MaxCompute 近实时增全量处理一体化新架构和使用场景介绍

本文主要介绍基于 MaxCompute 的离线近实时一体化新架构如何来支持这些综合的业务场景，提供基于Delta Table的近实时增全量一体的数据存储和计算解决方案。

喻奎

284

官方博客-第23页-阿里云开发者社区

类目筛选

内容类型

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

升级JSONB列式存储，Hologres助力淘宝搜索2022双11降本增效

阿里CCO基于Hologres的亿级明细BI探索分析实践

vLLM部署Yuan2.0：高吞吐、更便捷

多账号共享一套ACR方案

LISA微调技术解析：比LoRA更低的显存更快的速度

函数计算助力领健信息为“看牙”注入 AI 活力

阿里云百炼应用实践系列-10分钟构建能主动提问的智能导购

MaxCompute 近实时增全量处理一体化新架构和使用场景介绍

官方博客-第23页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

升级JSONB列式存储，Hologres助力淘宝搜索2022双11降本增效

阿里CCO基于Hologres的亿级明细BI探索分析实践

vLLM部署Yuan2.0：高吞吐、更便捷

多账号共享一套ACR方案

LISA微调技术解析：比LoRA更低的显存更快的速度

函数计算助力领健信息为“看牙”注入 AI 活力

阿里云百炼应用实践系列-10分钟构建能主动提问的智能导购

MaxCompute 近实时增全量处理一体化新架构和使用场景介绍