米基

2024-05-15

大模型推理优化实践：KV cache复用与投机采样

在本文中，我们将详细介绍两种在业务中实践的优化策略：多轮对话间的 KV cache 复用技术和投机采样方法。我们会细致探讨这些策略的应用场景、框架实现，并分享一些实现时的关键技巧。

米基

728

探索云世界

2024-05-15

475

一文理解淘宝购物车背后的逻辑

提升用户的使用体验才是产品升级的核心，本文将从业务发展以及技术沉淀两个方面来总结淘宝购物车的产品升级之路。

探索云世界

475

阿里云云原生

2024-07-29

101

从供应商深度绑定，到走向真正的云原生，他们是这样做的

没有 K8s 的运维权限，开发者也能排查和定位问题。

阿里云云原生

101

ModelScope

2024-05-15

861

Multi-Agent实践第5期：RAG智能体的应用：让AgentScope介绍一下自己吧

本期文章，我们将向大家展示如何使用AgentScope中构建和使用具有RAG功能的智能体，创造AgentScope助手群，为大家解答和AgentScope相关的问题。

ModelScope

861

阿里云百炼

2024-07-03

336

阿里云百炼模型入门篇-大语言模型

本文主要介绍如何快速的通过阿里云百炼，带你如何快速入门通义千问系列大语言模型。

阿里云百炼

336

子白

2024-05-15

101016

大语言模型推理提速，TensorRT-LLM 高性能推理实践

大型语言模型（Large language models,LLM）是基于大量数据进行预训练的超大型深度学习模型，本文主要讲述TensorRT-LLM利用量化、In-Flight Batching、Attention、Graph Rewriting提升 LLM 模型推理效率。

子白

101,016

悟鸣

2024-05-15

238409

一文掌握大模型提示词技巧：从战略到战术

本文将用通俗易懂的语言，带你从战略（宏观）和战术（微观）两个层次掌握大模型提示词的常见技巧，真正做到理论和实践相结合，占领 AI 运用的先机。

悟鸣

238,409

言澈

2024-05-15

393

全景剖析阿里云容器网络数据链路（一）—— Flannel

本文是[全景剖析容器网络数据链路]第一部分，主要介绍Kubernetes Flannel模式下，数据面链路的转转发链路

言澈

393

扬流

2024-05-15

118008

Paimon 与 Spark 的集成（二）：查询优化

通过一系列优化，我们将 Paimon x Spark 在 TpcDS 上的性能提高了37+%，已基本和 Parquet x Spark 持平，本文对其中的关键优化点进行了详细介绍。

扬流

118,008

类目筛选

内容类型

大模型推理优化实践：KV cache复用与投机采样

一文理解淘宝购物车背后的逻辑

从供应商深度绑定，到走向真正的云原生，他们是这样做的

Multi-Agent实践第5期：RAG智能体的应用：让AgentScope介绍一下自己吧

阿里云百炼模型入门篇-大语言模型

大语言模型推理提速，TensorRT-LLM 高性能推理实践

一文掌握大模型提示词技巧：从战略到战术

全景剖析阿里云容器网络数据链路（一）—— Flannel

Paimon 与 Spark 的集成（二）：查询优化