官方博客-第13页-阿里云开发者社区

阿里云云原生

2025-06-30

422

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

本文介绍了如何使用 llmaz 快速部署基于 vLLM 的大语言模型推理服务，并结合 Higress AI 网关实现流量控制、可观测性、故障转移等能力，构建稳定、高可用的大模型服务平台。

阿里云云原生

422

阿里云云原生

2025-08-07

353

Function AI 助力用户自主开发 MCP 服务，一键上云高效部署

在 AI 与云原生融合的趋势下，开发者面临模型协同与云端扩展的挑战。MCP（模型上下文协议）提供统一的交互规范，简化模型集成与服务开发。Function AI 支持 MCP 代码一键上云，提供绑定代码仓库、OSS 上传、本地交付物部署及镜像部署等多种构建方式，助力开发者高效部署智能服务，实现快速迭代与云端协同。

阿里云云原生

353

ModelScope

2024-05-15

939

Modelscope结合α-UMi：基于Modelscope的多模型协作Agent

基于单个开源小模型的工具调用Agent，由于模型容量和预训练能力获取的限制，无法在推理和规划、工具调用、回复生成等任务上同时获得比肩大模型等性能。

ModelScope

939

ModelScope

2024-05-15

1452

零一万物开源Yi系列“理科状元”Yi-9B，消费级显卡可跑，魔搭社区最佳实践

零一万物发布并开源了Yi系列中的“理科状元”——Yi-9B，可在魔搭体验

ModelScope

1,452

ModelScope

2024-05-15

1938

新一代端侧模型，面壁 MiniCPM 2.0开源，魔搭社区最佳实践

MiniCPM-V 2.0 不仅带来优秀端侧多模态通用能力，更带来惊艳的 OCR 表现。通过自研的高清图像解码技术，可以突破传统困境，让更为精准地识别充满纷繁细节的街景、长图在端侧成为可能。

ModelScope

1,938

ModelScope

2024-05-15

1122

LISA微调技术解析：比LoRA更低的显存更快的速度

LISA是Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning的简写，由UIUC联合LMFlow团队于近期提出的一项LLM微调技术，可实现把全参训练的显存使用降低到之前的三分之一左右，而使用的技术方法却是非常简单。

ModelScope

1,122

阿里云云原生

2024-08-22

19651

一线实战：运维人少，我们从 0 到 1 实践 DevOps 和云原生

上海经证科技有限公司为有效推进软件项目管理和开发工作，选择了阿里云云效作为 DevOps 解决方案。通过云效，实现了从 0 开始，到现在近百个微服务、数百条流水线与应用交付的全面覆盖，有效支撑了敏捷开发流程。

阿里云云原生

19,651

望宸

2025-02-20

648

大模型推理服务全景图

推理性能的提升涉及底层硬件、模型层，以及其他各个软件中间件层的相互协同，因此了解大模型技术架构的全局视角，有助于我们对推理性能的优化方案进行评估和选型。

望宸

648

亦达

2025-02-20

710

破解 vLLM + DeepSeek 规模化部署的“不可能三角”

vLLM 是一种便捷的大型语言模型（LLM）推理服务，旨在简化个人和企业用户对复杂模型的使用。通过 vLLM，用户可以轻松发起推理请求，享受高效、稳定的 LLM 服务。针对大规模部署 vLLM 的挑战，如大模型参数量、高效推理能力和上下文理解等，阿里云函数计算（FC）提供了 GPU 预留实例闲置计费功能，优化了性能、成本和稳定性之间的平衡。此外，FC 支持简便的部署流程和多种应用集成方式，帮助企业快速上线并管理 vLLM 服务。总结来说，vLLM 结合 FC 的解决方案为企业提供了强大的技术支持和灵活的部署选项，满足不同业务需求。

亦达

710

官方博客-第13页-阿里云开发者社区

类目筛选

内容类型

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

Function AI 助力用户自主开发 MCP 服务，一键上云高效部署

Modelscope结合α-UMi：基于Modelscope的多模型协作Agent

零一万物开源Yi系列“理科状元”Yi-9B，消费级显卡可跑，魔搭社区最佳实践

新一代端侧模型，面壁 MiniCPM 2.0开源，魔搭社区最佳实践

LISA微调技术解析：比LoRA更低的显存更快的速度

一线实战：运维人少，我们从 0 到 1 实践 DevOps 和云原生

大模型推理服务全景图

破解 vLLM + DeepSeek 规模化部署的“不可能三角”

官方博客-第13页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

Function AI 助力用户自主开发 MCP 服务，一键上云高效部署

Modelscope结合α-UMi：基于Modelscope的多模型协作Agent

零一万物开源Yi系列“理科状元”Yi-9B，消费级显卡可跑，魔搭社区最佳实践

新一代端侧模型，面壁 MiniCPM 2.0开源，魔搭社区最佳实践

LISA微调技术解析：比LoRA更低的显存更快的速度

一线实战：运维人少，我们从 0 到 1 实践 DevOps 和云原生

大模型推理服务全景图

破解 vLLM + DeepSeek 规模化部署的“不可能三角”