官方博客-第16页-阿里云开发者社区

阿里云云原生

2025-06-30

400

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

本文介绍了如何使用 llmaz 快速部署基于 vLLM 的大语言模型推理服务，并结合 Higress AI 网关实现流量控制、可观测性、故障转移等能力，构建稳定、高可用的大模型服务平台。

阿里云云原生

400

赫曦

2024-05-15

93146

阿里云云原生弹性方案，用弹性解决集群资源利用率难题

本文主要介绍了通过弹性，实现成本优化，解决集群资源利用率难题。

赫曦

93,146

吴昆

2024-05-15

49918

秒级弹性，探索弹性调度与虚拟节点如何迅速响应瞬时算力需求

秒级弹性！探索弹性调度与虚拟节点如何迅速响应瞬时算力需求？

吴昆

49,918

ModelScope

2024-05-15

3499

Qwen1.5-MoE开源，魔搭社区推理训练最佳实践教程来啦

通义千问团队推出Qwen系列的首个MoE模型，Qwen1.5-MoE-A2.7B。

ModelScope

3,499

李鹏

2024-05-15

564

Serverless Kubernetes 开发实践：异构资源，按需使用

Kubernetes 作为当今云原生业界标准，具备良好的生态以及跨云厂商能力。Kubernetes 很好的抽象了 IaaS 资源交付标准，使得云资源交付变的越来越简单，与此同时用户期望更多的聚焦于业务自身，做到面向应用交付，Serverless 理念也因此而生。那么如何通过原生 k8s 提供Serverless 能力？如何实现GPU等异构资源按需使用？这里给大家介绍一下我们在Serverless Kubernetes 开发实践：异构资源，按需使用。

李鹏

564

阿里云云原生

2024-08-12

459

5 大场景上手通义灵码企业知识库 RAG

大家好，我是通义灵码，你的智能编程助手！今天就跟大家分享下企业知识库能帮开发者做些什么。

阿里云云原生

459

牛俊

2024-08-15

11724

动手实践：高效构建企业级AI搜索

本文介绍了基于阿里云 Elasticsearch的AI搜索产品能力、业务价值、场景应用，以及搭建演示等。

牛俊

11,724

虎仔

2024-10-22

1131

最佳实践：通义灵码生成单元测试，让单测更简单

本文首先讲述了什么是单元测试、单元测试的价值、一个好的单元测试所具备的原则，进而引入如何去编写一个好的单元测试，通义灵码是如何快速生成单元测试的。

虎仔

1,131

寒斜

2024-11-19

719

基于事件驱动构建 AI 原生应用

AI 应用在商业化服务的阶段会面临诸多挑战，比如更快的服务交付速度，更实时、精准的结果以及更人性化的体验等，传统架构限制于同步交互，无法满足上述需求，本篇文章给大家分享一下如何基于事件驱动架构应对上述挑战。

寒斜

719

官方博客-第16页-阿里云开发者社区

类目筛选

内容类型

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

阿里云云原生弹性方案，用弹性解决集群资源利用率难题

秒级弹性，探索弹性调度与虚拟节点如何迅速响应瞬时算力需求

Qwen1.5-MoE开源，魔搭社区推理训练最佳实践教程来啦

Serverless Kubernetes 开发实践：异构资源，按需使用

5 大场景上手通义灵码企业知识库 RAG

动手实践：高效构建企业级AI搜索

最佳实践：通义灵码生成单元测试，让单测更简单

基于事件驱动构建 AI 原生应用

官方博客-第16页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

阿里云云原生弹性方案，用弹性解决集群资源利用率难题

秒级弹性，探索弹性调度与虚拟节点如何迅速响应瞬时算力需求

Qwen1.5-MoE开源，魔搭社区推理训练最佳实践教程来啦

Serverless Kubernetes 开发实践：异构资源，按需使用

5 大场景上手通义灵码企业知识库 RAG

动手实践：高效构建企业级AI搜索

最佳实践：通义灵码生成单元测试，让单测更简单

基于事件驱动构建 AI 原生应用