2024-05-15
728

大模型推理优化实践:KV cache复用与投机采样

在本文中,我们将详细介绍两种在业务中实践的优化策略:多轮对话间的 KV cache 复用技术和投机采样方法。我们会细致探讨这些策略的应用场景、框架实现,并分享一些实现时的关键技巧。

728
2024-05-15
475

一文理解淘宝购物车背后的逻辑

提升用户的使用体验才是产品升级的核心,本文将从业务发展以及技术沉淀两个方面来总结淘宝购物车的产品升级之路。

2024-07-29
101

从供应商深度绑定,到走向真正的云原生,他们是这样做的

没有 K8s 的运维权限,开发者也能排查和定位问题。

2024-05-15
104165

SLS 大模型可观测&安全推理审计标准解决方案

本文介绍大模型可观测&安全推理审计解决方案和Demo演示,SLS 提供全面的 LLM 监控和日志记录功能。监控大模型使用情况和性能,自定义仪表盘;SLS 汇总 Actiontrail 事件、云产品可观测日志、LLM 网关明细日志、详细对话明细日志、Prompt Trace 和推理实时调用明细等数据,建设完整统一的大模型可观测方案,为用户的大模型安全推理审计提供全面合规支持。

104,165
2024-05-15
861

Multi-Agent实践第5期:RAG智能体的应用:让AgentScope介绍一下自己吧

本期文章,我们将向大家展示如何使用AgentScope中构建和使用具有RAG功能的智能体,创造AgentScope助手群,为大家解答和AgentScope相关的问题。

2024-05-15
128087

重磅解读阿里云云网络领域关键技术创新

2023年10月31日,杭州·云栖大会,阿里云技术主论坛带来了一场关于阿里云主力产品与技术创新的深度解读,阿里云网络产品线负责人祝顺民带来《云智创新,网络随行》的主题发言,针对阿里云飞天洛神云网络(下文简称洛神网络)领域产品服务创新以及背后的技术积累进行了深度解读,不少背后的创新技术系首次重磅披露。

128,087
2024-05-15
482

阿里云千亿规模实时日志分析的架构设计和实践

本文为阿里云SLS 执少 在《DataFunTalk技术交流会:阿里云实时查询分析专场》分享时的议题内容(文字版本)。首先,阿里云日志服务SLS是一个什么样的产品和服务呢? 我们用一句话来概括的话,那就是我们是一个云上的、一站式的、可观测日志服务平台。 首先呢,我们提供了强大的日志数据采集能力,支持...

482
2024-07-03
336

阿里云百炼模型入门篇-大语言模型

本文主要介绍如何快速的通过阿里云百炼,带你如何快速入门通义千问系列大语言模型。

2024-05-15
101016

大语言模型推理提速,TensorRT-LLM 高性能推理实践

大型语言模型(Large language models,LLM)是基于大量数据进行预训练的超大型深度学习模型,本文主要讲述TensorRT-LLM利用量化、In-Flight Batching、Attention、Graph Rewriting提升 LLM 模型推理效率。

101,016
1
2
3
4
...
23
到第
3/23