官方博客-第3页-阿里云开发者社区

悦达

2025-03-21

1226

监控vLLM等大模型推理性能

本文将深入探讨 AI 推理应用的可观测方案，并基于 Prometheus 规范提供一套完整的指标观测方案，帮助开发者构建稳定、高效的推理应用。

悦达

1,226

刘佳旭

2023-09-26

139066

云原生场景下高可用架构的最佳实践

刘佳旭

139,066

任庆盛

2023-02-22

23245

Flink CDC+Kafka 加速业务实时化

阿里巴巴开发工程师，Apache Flink Committer 任庆盛，在 9 月 24 日 Apache Flink Meetup 的分享。

任庆盛

23,245

乐忱

2024-06-14

39965

阿里云存储产品高级解决方案架构师欧阳雁（乐忱）分享了中国企业在全闪存高端存储市场的快速增长，指出AI大模型的发展推动了企业级存储市场。去年，高端企业级存储闪存占比约为25%，相较于欧美50%的比例，显示出中国在AI领域的巨大增长潜力。演讲涵盖AI业务流程，包括数据预处理、训练和推理的痛点，以及针对这些环节的存储解决方案，强调了稳定、高性能和生命周期管理的重要性。此外，还介绍了数据预处理的全球加速和弹性临时盘技术，训练阶段的高性能存储架构，推理场景的加速器和AI Agent的应用，以及应对大数据业务的存储考量，如对象存储、闪电立方和冷归档存储产品。

乐忱

39,965

子白

2024-05-15

102501

大语言模型推理提速，TensorRT-LLM 高性能推理实践

大型语言模型（Large language models,LLM）是基于大量数据进行预训练的超大型深度学习模型，本文主要讲述TensorRT-LLM利用量化、In-Flight Batching、Attention、Graph Rewriting提升 LLM 模型推理效率。

子白

102,501

隆基

2024-05-15

142880

深度剖析 RocketMQ 5.0，架构解析：云原生架构如何支撑多元化场景？

了解 RocketMQ 5.0 的核心概念和架构概览；然后我们会从集群角度出发，从宏观视角学习 RocketMQ 的管控链路、数据链路、客户端和服务端如何交互；学习 RocketMQ 如何实现数据的存储，数据的高可用，如何利用云原生存储进一步提升竞争力。

隆基

142,880

阿里云云原生

2024-07-01

33183

详解微服务应用灰度发布最佳实践

相对于传统软件研发，微服务架构下典型的需求交付最大的区别在于有了能够小范围真实验证的机制，且交付单位较小，风险可控，灰度发布可以弥补线下测试的不足。本文从 DevOps 视角概述灰度发布实践，介绍如何将灰度发布与 DevOps 工作融合，快来了解吧~

阿里云云原生

33,183

望宸

2025-02-07

867

浏览量超 10w 的热图，描述 RAG 的主流架构

大模型性能的持续提升，进一步挖掘了 RAG 的潜力，RAG 将检索系统与生成模型相结合，带来诸多优势，如实时更新知识、降低成本等。点击本文，为您梳理 RAG 的基本信息，并介绍提升大模型生成结果的方法，快一起看看吧~

望宸

867

阿里云云原生

2024-05-16

57116

容器内存可观测性新视角：WorkingSet 与 PageCache 监控

本文介绍了 Kubernetes 中的容器工作内存（WorkingSet）概念，它用于表示容器内存的实时使用量，尤其是活跃内存。

阿里云云原生

57,116

官方博客-第3页-阿里云开发者社区

类目筛选

内容类型

监控vLLM等大模型推理性能

云原生场景下高可用架构的最佳实践

Flink CDC+Kafka 加速业务实时化

AI时代：云存储加速多模态数据存储与管理创新

大语言模型推理提速，TensorRT-LLM 高性能推理实践

深度剖析 RocketMQ 5.0，架构解析：云原生架构如何支撑多元化场景？

详解微服务应用灰度发布最佳实践

浏览量超 10w 的热图，描述 RAG 的主流架构

容器内存可观测性新视角：WorkingSet 与 PageCache 监控

官方博客-第3页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

监控vLLM等大模型推理性能

云原生场景下高可用架构的最佳实践

Flink CDC+Kafka 加速业务实时化

AI时代：云存储加速多模态数据存储与管理创新

大语言模型推理提速，TensorRT-LLM 高性能推理实践

深度剖析 RocketMQ 5.0，架构解析：云原生架构如何支撑多元化场景？

详解微服务应用灰度发布最佳实践

浏览量超 10w 的热图，描述 RAG 的主流架构

容器内存可观测性新视角：WorkingSet 与 PageCache 监控