官方博客-第3页-阿里云开发者社区

悦达

2025-03-21

1227

监控vLLM等大模型推理性能

本文将深入探讨 AI 推理应用的可观测方案，并基于 Prometheus 规范提供一套完整的指标观测方案，帮助开发者构建稳定、高效的推理应用。

悦达

1,227

资源编排ROS

2024-05-15

1767

大模型不知不觉已经火了快一年了，拥有一个能够随时对话使用的大模型已经成为不少人的刚需。然而，最大的问题可能是如何访问和调用对话模型。如果，我是说如果，能在您的即时通讯软件钉钉中直接与通义千问对话，是不是会让这一切更方便快捷？！按照传统方案，我们要实现上述场景可能需要非常繁琐的接入步骤，甚至还需要自行开发很多代码，这样的准入门槛实在，太！高！啦！而今天，我要向各位隆重介绍一个新的解决方案——阿里云计算巢AppFlow应用与数据集成平台，无需任何代码开发，简单快捷，自动连接企业内部应用与外部应用或数据，搭建企业的自动化服务流程，帮助个人、企业降低了集成实施的周期和成本。

资源编排ROS

1,767

刘佳旭

2023-09-26

139067

云原生场景下高可用架构的最佳实践

刘佳旭

139,067

望宸

2025-02-07

870

浏览量超 10w 的热图，描述 RAG 的主流架构

大模型性能的持续提升，进一步挖掘了 RAG 的潜力，RAG 将检索系统与生成模型相结合，带来诸多优势，如实时更新知识、降低成本等。点击本文，为您梳理 RAG 的基本信息，并介绍提升大模型生成结果的方法，快一起看看吧~

望宸

870

隆基

2024-05-15

142882

深度剖析 RocketMQ 5.0，架构解析：云原生架构如何支撑多元化场景？

了解 RocketMQ 5.0 的核心概念和架构概览；然后我们会从集群角度出发，从宏观视角学习 RocketMQ 的管控链路、数据链路、客户端和服务端如何交互；学习 RocketMQ 如何实现数据的存储，数据的高可用，如何利用云原生存储进一步提升竞争力。

隆基

142,882

阿里云云原生

2024-07-01

33185

详解微服务应用灰度发布最佳实践

相对于传统软件研发，微服务架构下典型的需求交付最大的区别在于有了能够小范围真实验证的机制，且交付单位较小，风险可控，灰度发布可以弥补线下测试的不足。本文从 DevOps 视角概述灰度发布实践，介绍如何将灰度发布与 DevOps 工作融合，快来了解吧~

阿里云云原生

33,185

子白

2024-05-15

102501

大语言模型推理提速，TensorRT-LLM 高性能推理实践

大型语言模型（Large language models,LLM）是基于大量数据进行预训练的超大型深度学习模型，本文主要讲述TensorRT-LLM利用量化、In-Flight Batching、Attention、Graph Rewriting提升 LLM 模型推理效率。

子白

102,501

隆基

2024-05-15

108510

深度剖析 RocketMQ 5.0，Apache RocketMQ：如何从互联网时代演进到云时代？

从整体技术架构上学习 RocketMQ 5.0 的云原生架构、一体化架构，最后再分别从业务场景切入，详细介绍 RocketMQ 5.0 在不同的业务场景提供的能力和关键技术原理，包括业务消息、流处理、物联网以及面向云时代的事件驱动场景。

隆基

108,510

阿里云云原生

2024-05-16

57117

容器内存可观测性新视角：WorkingSet 与 PageCache 监控

本文介绍了 Kubernetes 中的容器工作内存（WorkingSet）概念，它用于表示容器内存的实时使用量，尤其是活跃内存。

阿里云云原生

57,117

官方博客-第3页-阿里云开发者社区

类目筛选

内容类型

监控vLLM等大模型推理性能

简单几步，钉钉机器人秒变通义千问对话机器人

云原生场景下高可用架构的最佳实践

浏览量超 10w 的热图，描述 RAG 的主流架构

深度剖析 RocketMQ 5.0，架构解析：云原生架构如何支撑多元化场景？

详解微服务应用灰度发布最佳实践

大语言模型推理提速，TensorRT-LLM 高性能推理实践

深度剖析 RocketMQ 5.0，Apache RocketMQ：如何从互联网时代演进到云时代？

容器内存可观测性新视角：WorkingSet 与 PageCache 监控

官方博客-第3页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

监控vLLM等大模型推理性能

简单几步，钉钉机器人秒变通义千问对话机器人

云原生场景下高可用架构的最佳实践

浏览量超 10w 的热图，描述 RAG 的主流架构

深度剖析 RocketMQ 5.0，架构解析：云原生架构如何支撑多元化场景？

详解微服务应用灰度发布最佳实践

大语言模型推理提速，TensorRT-LLM 高性能推理实践

深度剖析 RocketMQ 5.0，Apache RocketMQ：如何从互联网时代演进到云时代？

容器内存可观测性新视角：WorkingSet 与 PageCache 监控