官方博客-第10页-阿里云开发者社区

米基

2024-05-15

3843

大模型推理优化实践：KV cache复用与投机采样

在本文中，我们将详细介绍两种在业务中实践的优化策略：多轮对话间的 KV cache 复用技术和投机采样方法。我们会细致探讨这些策略的应用场景、框架实现，并分享一些实现时的关键技巧。

米基

3,843

望宸

2025-02-07

848

浏览量超 10w 的热图，描述 RAG 的主流架构

大模型性能的持续提升，进一步挖掘了 RAG 的潜力，RAG 将检索系统与生成模型相结合，带来诸多优势，如实时更新知识、降低成本等。点击本文，为您梳理 RAG 的基本信息，并介绍提升大模型生成结果的方法，快一起看看吧~

望宸

848

扬流

2024-05-15

119147

Paimon 与 Spark 的集成（二）：查询优化

通过一系列优化，我们将 Paimon x Spark 在 TpcDS 上的性能提高了37+%，已基本和 Parquet x Spark 持平，本文对其中的关键优化点进行了详细介绍。

扬流

119,147

砚染

2024-09-03

1601

速成RAG+Agent框架大模型应用搭建

本文侧重于能力总结和实操搭建部分，从大模型应用的多个原子能力实现出发，到最终串联搭建一个RAG+Agent架构的大模型应用。

砚染

1,601

涯海

2025-01-23

987

快速定位并优化CPU 与 JVM 内存性能瓶颈

本文介绍了 Java 应用常见的 CPU & JVM 内存热点原因及优化思路。

涯海

987

赵世振

2024-12-24

1324

探索大型语言模型LLM推理全阶段的JSON格式输出限制方法

本篇文章详细讨论了如何确保大型语言模型（LLMs）输出结构化的JSON格式，这对于提高数据处理的自动化程度和系统的互操作性至关重要。

赵世振

1,324

阿里云网络

2024-05-15

129417

重磅解读阿里云云网络领域关键技术创新

2023年10月31日，杭州·云栖大会，阿里云技术主论坛带来了一场关于阿里云主力产品与技术创新的深度解读，阿里云网络产品线负责人祝顺民带来《云智创新，网络随行》的主题发言，针对阿里云飞天洛神云网络（下文简称洛神网络）领域产品服务创新以及背后的技术积累进行了深度解读，不少背后的创新技术系首次重磅披露。

阿里云网络

129,417

隆基

2024-05-15

142862

深度剖析 RocketMQ 5.0，架构解析：云原生架构如何支撑多元化场景？

了解 RocketMQ 5.0 的核心概念和架构概览；然后我们会从集群角度出发，从宏观视角学习 RocketMQ 的管控链路、数据链路、客户端和服务端如何交互；学习 RocketMQ 如何实现数据的存储，数据的高可用，如何利用云原生存储进一步提升竞争力。

隆基

142,862

阿里云存储

2024-10-15

1312

AI时代数据湖实践

本文分享了如何利用阿里云的存储解决方案构建一个具备高效处理、高时效性的AI数据湖，通过高吞吐训练和高效推理帮助企业快速实现数据价值，以及用户在使用中的最佳实践。

阿里云存储

1,312

官方博客-第10页-阿里云开发者社区

类目筛选

内容类型

大模型推理优化实践：KV cache复用与投机采样

浏览量超 10w 的热图，描述 RAG 的主流架构

Paimon 与 Spark 的集成（二）：查询优化

速成RAG+Agent框架大模型应用搭建

快速定位并优化CPU 与 JVM 内存性能瓶颈

探索大型语言模型LLM推理全阶段的JSON格式输出限制方法

重磅解读阿里云云网络领域关键技术创新

深度剖析 RocketMQ 5.0，架构解析：云原生架构如何支撑多元化场景？

AI时代数据湖实践

官方博客-第10页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

大模型推理优化实践：KV cache复用与投机采样

浏览量超 10w 的热图，描述 RAG 的主流架构

Paimon 与 Spark 的集成（二）：查询优化

速成RAG+Agent框架大模型应用搭建

快速定位并优化CPU 与 JVM 内存性能瓶颈

探索大型语言模型LLM推理全阶段的JSON格式输出限制方法

重磅解读阿里云云网络领域关键技术创新

深度剖析 RocketMQ 5.0，架构解析：云原生架构如何支撑多元化场景？

AI时代数据湖实践