子白

2024-05-15

大语言模型推理提速，TensorRT-LLM 高性能推理实践

大型语言模型（Large language models,LLM）是基于大量数据进行预训练的超大型深度学习模型，本文主要讲述TensorRT-LLM利用量化、In-Flight Batching、Attention、Graph Rewriting提升 LLM 模型推理效率。

子白

101,023

ModelScope

2024-05-15

646

Multi-Agent实践第7期：智能体的高效协作

教程第7期

ModelScope

646

施晨尹丰彬筱文李林杨黄俊等

2023-11-07

41963

基于阿里云PAI平台搭建知识库检索增强的大模型对话系统

基于原始的阿里云计算平台产技文档，搭建一套基于大模型检索增强答疑机器人。本方案已在阿里云线上多个场景落地，将覆盖阿里云官方答疑群聊、研发答疑机器人、钉钉技术服务助手等。线上工单拦截率提升10+%，答疑采纳率70+%，显著提升答疑效率。

施晨尹丰彬筱文李林杨黄俊等

41,963

闵子

2023-12-01

1048

从浏览器原理出发聊聊Chrome插件

本文从浏览器架构演进、插件运行机制、插件基本介绍和一些常见的插件实现思路几个方向聊聊Chrome插件。

闵子

1,048

章磊

2023-08-15

21574

迄今为止最完整的DDD实践

对于一个架构师来说，在软件开发中如何降低系统复杂度是一个永恒的挑战。

章磊

21,574

致问

2023-09-15

119386

Hologres RoaringBitmap实践，千亿级画像数据秒级分析

本文将会分享Hologres RoaringBitmap 方案在画像分析的应用实践，实现更快更准的画像分析。

致问

119,386

ModelScope

2024-05-15

359

vLLM部署Yuan2.0：高吞吐、更便捷

vLLM是UC Berkeley开源的大语言模型高速推理框架，其内存管理核心——PagedAttention、内置的加速算法如Continues Batching等，一方面可以提升Yuan2.0模型推理部署时的内存使用效率，另一方面可以大幅提升在实时应用场景下Yuan2.0的吞吐量。

ModelScope

359

遥方

2024-05-15

162

ACK场景下应用程序安全访问云资源最佳实践

在实际的容器安全实践中，怎么样避免应用程序永久访问密钥。本文会介绍基于云原生的产品能力来实现无AK方案。

遥方

162

刘佳旭

2023-09-26

138046

云原生场景下高可用架构的最佳实践

刘佳旭

138,046

类目筛选

内容类型

大语言模型推理提速，TensorRT-LLM 高性能推理实践

Multi-Agent实践第7期：智能体的高效协作

基于阿里云PAI平台搭建知识库检索增强的大模型对话系统

从浏览器原理出发聊聊Chrome插件

迄今为止最完整的DDD实践

Hologres RoaringBitmap实践，千亿级画像数据秒级分析

vLLM部署Yuan2.0：高吞吐、更便捷

ACK场景下应用程序安全访问云资源最佳实践

云原生场景下高可用架构的最佳实践