官方博客-第11页-阿里云开发者社区

米基

2024-05-15

3761

大模型推理优化实践：KV cache复用与投机采样

在本文中，我们将详细介绍两种在业务中实践的优化策略：多轮对话间的 KV cache 复用技术和投机采样方法。我们会细致探讨这些策略的应用场景、框架实现，并分享一些实现时的关键技巧。

米基

3,761

阿里云云原生

2024-05-16

57040

容器内存可观测性新视角：WorkingSet 与 PageCache 监控

本文介绍了 Kubernetes 中的容器工作内存（WorkingSet）概念，它用于表示容器内存的实时使用量，尤其是活跃内存。

阿里云云原生

57,040

青熙

2024-11-15

1212

AI经营｜多Agent择优生成商品标题

商品标题中关键词的好坏是商品能否被主搜检索到的关键因素，使用大模型自动优化标题成为【AI经营】中的核心能力之一，本文讲述大模型如何帮助商家优化商品素材，提升商品竞争力。

青熙

1,212

舟谨

2024-11-29

2036

作为开发者，我如何提高任务型大模型应用的响应性能

本文基于实际场景，分享了作为开发者提高大模型响应性能的四个实用方法。

舟谨

2,036

望宸

2025-02-07

764

浏览量超 10w 的热图，描述 RAG 的主流架构

大模型性能的持续提升，进一步挖掘了 RAG 的潜力，RAG 将检索系统与生成模型相结合，带来诸多优势，如实时更新知识、降低成本等。点击本文，为您梳理 RAG 的基本信息，并介绍提升大模型生成结果的方法，快一起看看吧~

望宸

764

阿里云云原生

2024-09-23

1110

重磅！阿里云可观测产品家族全新升级，AI +数据双驱动，打造全栈可观测体系

近日，阿里云可观测产品家族正式发布云监控 2.0，隶属产品日志服务 SLS、云监控 CMS、应用实时监控服务 ARMS 迎来重磅升级。

阿里云云原生

1,110

任庆盛

2023-02-22

23151

Flink CDC+Kafka 加速业务实时化

阿里巴巴开发工程师，Apache Flink Committer 任庆盛，在 9 月 24 日 Apache Flink Meetup 的分享。

任庆盛

23,151

丕天

2025-03-21

1111

AI 推理场景的痛点和解决方案

一个典型的推理场景面临的问题可以概括为限流、负载均衡、异步化、数据管理、索引增强 5 个场景。通过云数据库 Tair 丰富的数据结构可以支撑这些场景，解决相关问题，本文我们会针对每个场景逐一说明。

丕天

1,111

悦达

2025-03-21

1124

监控vLLM等大模型推理性能

本文将深入探讨 AI 推理应用的可观测方案，并基于 Prometheus 规范提供一套完整的指标观测方案，帮助开发者构建稳定、高效的推理应用。

悦达

1,124

官方博客-第11页-阿里云开发者社区

类目筛选

内容类型

大模型推理优化实践：KV cache复用与投机采样

容器内存可观测性新视角：WorkingSet 与 PageCache 监控

AI经营｜多Agent择优生成商品标题

作为开发者，我如何提高任务型大模型应用的响应性能

浏览量超 10w 的热图，描述 RAG 的主流架构

重磅！阿里云可观测产品家族全新升级，AI +数据双驱动，打造全栈可观测体系

Flink CDC+Kafka 加速业务实时化

AI 推理场景的痛点和解决方案

监控vLLM等大模型推理性能

官方博客-第11页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

大模型推理优化实践：KV cache复用与投机采样

容器内存可观测性新视角：WorkingSet 与 PageCache 监控

AI经营｜多Agent择优生成商品标题

作为开发者，我如何提高任务型大模型应用的响应性能

浏览量超 10w 的热图，描述 RAG 的主流架构

重磅！阿里云可观测产品家族全新升级，AI +数据双驱动，打造全栈可观测体系

Flink CDC+Kafka 加速业务实时化

AI 推理场景的痛点和解决方案

监控vLLM等大模型推理性能