子白

2024-05-15

大语言模型推理提速，TensorRT-LLM 高性能推理实践

大型语言模型（Large language models,LLM）是基于大量数据进行预训练的超大型深度学习模型，本文主要讲述TensorRT-LLM利用量化、In-Flight Batching、Attention、Graph Rewriting提升 LLM 模型推理效率。

子白

101,024

施晨尹丰彬筱文李林杨黄俊等

2023-11-07

41965

基于阿里云PAI平台搭建知识库检索增强的大模型对话系统

基于原始的阿里云计算平台产技文档，搭建一套基于大模型检索增强答疑机器人。本方案已在阿里云线上多个场景落地，将覆盖阿里云官方答疑群聊、研发答疑机器人、钉钉技术服务助手等。线上工单拦截率提升10+%，答疑采纳率70+%，显著提升答疑效率。

施晨尹丰彬筱文李林杨黄俊等

41,965

扬流

2024-05-15

118011

Paimon 与 Spark 的集成（二）：查询优化

通过一系列优化，我们将 Paimon x Spark 在 TpcDS 上的性能提高了37+%，已基本和 Parquet x Spark 持平，本文对其中的关键优化点进行了详细介绍。

扬流

118,011

阿里云云原生

2024-07-29

109

从供应商深度绑定，到走向真正的云原生，他们是这样做的

没有 K8s 的运维权限，开发者也能排查和定位问题。

阿里云云原生

109

致问

2023-09-15

119386

Hologres RoaringBitmap实践，千亿级画像数据秒级分析

本文将会分享Hologres RoaringBitmap 方案在画像分析的应用实践，实现更快更准的画像分析。

致问

119,386

阿里云云原生

2024-05-24

47277

“黏土风格”轻松拿捏，基于函数计算部署 ComfyUI实现AI生图

使用阿里云函数计算FC，快速部署AI绘画工具ComfyUI，体验高质量图像生成。新用户可享180元试用额度，包括GPU、vCPU、内存和调用次数。开通FC和文件存储NAS，通过应用中心选择ComfyUI模板创建应用。

阿里云云原生

47,277

刘佳旭

2023-09-26

138046

云原生场景下高可用架构的最佳实践

刘佳旭

138,046

ModelScope

2024-05-15

359

vLLM部署Yuan2.0：高吞吐、更便捷

vLLM是UC Berkeley开源的大语言模型高速推理框架，其内存管理核心——PagedAttention、内置的加速算法如Continues Batching等，一方面可以提升Yuan2.0模型推理部署时的内存使用效率，另一方面可以大幅提升在实时应用场景下Yuan2.0的吞吐量。

ModelScope

359

言澈

2024-05-15

423

全景剖析阿里云容器网络数据链路（三）—— Terway ENIIP

本文是[全景剖析容器网络数据链路]第三部分，主要介绍Kubernetes Terway ENIIP模式下，数据面链路的转转发链路。

言澈

423

类目筛选

内容类型

大语言模型推理提速，TensorRT-LLM 高性能推理实践

基于阿里云PAI平台搭建知识库检索增强的大模型对话系统

Paimon 与 Spark 的集成（二）：查询优化

从供应商深度绑定，到走向真正的云原生，他们是这样做的

Hologres RoaringBitmap实践，千亿级画像数据秒级分析

“黏土风格”轻松拿捏，基于函数计算部署 ComfyUI实现AI生图

云原生场景下高可用架构的最佳实践

vLLM部署Yuan2.0：高吞吐、更便捷

全景剖析阿里云容器网络数据链路（三）—— Terway ENIIP