官方博客-第14页-阿里云开发者社区

阿里云云原生

2025-06-30

400

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

本文介绍了如何使用 llmaz 快速部署基于 vLLM 的大语言模型推理服务，并结合 Higress AI 网关实现流量控制、可观测性、故障转移等能力，构建稳定、高可用的大模型服务平台。

阿里云云原生

400

赫曦

2024-05-15

93146

阿里云云原生弹性方案，用弹性解决集群资源利用率难题

本文主要介绍了通过弹性，实现成本优化，解决集群资源利用率难题。

赫曦

93,146

吴昆

2024-05-15

49918

秒级弹性，探索弹性调度与虚拟节点如何迅速响应瞬时算力需求

秒级弹性！探索弹性调度与虚拟节点如何迅速响应瞬时算力需求？

吴昆

49,918

ModelScope

2024-05-15

3499

Qwen1.5-MoE开源，魔搭社区推理训练最佳实践教程来啦

通义千问团队推出Qwen系列的首个MoE模型，Qwen1.5-MoE-A2.7B。

ModelScope

3,499

李鹏

2024-05-15

564

Serverless Kubernetes 开发实践：异构资源，按需使用

Kubernetes 作为当今云原生业界标准，具备良好的生态以及跨云厂商能力。Kubernetes 很好的抽象了 IaaS 资源交付标准，使得云资源交付变的越来越简单，与此同时用户期望更多的聚焦于业务自身，做到面向应用交付，Serverless 理念也因此而生。那么如何通过原生 k8s 提供Serverless 能力？如何实现GPU等异构资源按需使用？这里给大家介绍一下我们在Serverless Kubernetes 开发实践：异构资源，按需使用。

李鹏

564

阿里云云原生

2024-08-12

459

5 大场景上手通义灵码企业知识库 RAG

大家好，我是通义灵码，你的智能编程助手！今天就跟大家分享下企业知识库能帮开发者做些什么。

阿里云云原生

459

牛俊

2024-08-15

11724

动手实践：高效构建企业级AI搜索

本文介绍了基于阿里云 Elasticsearch的AI搜索产品能力、业务价值、场景应用，以及搭建演示等。

牛俊

11,724

喻奎

2024-08-23

277

MaxCompute 近实时增全量处理一体化新架构和使用场景介绍

本文主要介绍基于 MaxCompute 的离线近实时一体化新架构如何来支持这些综合的业务场景，提供基于Delta Table的近实时增全量一体的数据存储和计算解决方案。

喻奎

277

虎仔

2024-10-22

1131

最佳实践：通义灵码生成单元测试，让单测更简单

本文首先讲述了什么是单元测试、单元测试的价值、一个好的单元测试所具备的原则，进而引入如何去编写一个好的单元测试，通义灵码是如何快速生成单元测试的。

虎仔

1,131

官方博客-第14页-阿里云开发者社区

类目筛选

内容类型

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

阿里云云原生弹性方案，用弹性解决集群资源利用率难题

秒级弹性，探索弹性调度与虚拟节点如何迅速响应瞬时算力需求

Qwen1.5-MoE开源，魔搭社区推理训练最佳实践教程来啦

Serverless Kubernetes 开发实践：异构资源，按需使用

5 大场景上手通义灵码企业知识库 RAG

动手实践：高效构建企业级AI搜索

MaxCompute 近实时增全量处理一体化新架构和使用场景介绍

最佳实践：通义灵码生成单元测试，让单测更简单

官方博客-第14页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

阿里云云原生弹性方案，用弹性解决集群资源利用率难题

秒级弹性，探索弹性调度与虚拟节点如何迅速响应瞬时算力需求

Qwen1.5-MoE开源，魔搭社区推理训练最佳实践教程来啦

Serverless Kubernetes 开发实践：异构资源，按需使用

5 大场景上手通义灵码企业知识库 RAG

动手实践：高效构建企业级AI搜索

MaxCompute 近实时增全量处理一体化新架构和使用场景介绍

最佳实践：通义灵码生成单元测试，让单测更简单