子白

2024-05-15

大语言模型推理提速，TensorRT-LLM 高性能推理实践

大型语言模型（Large language models,LLM）是基于大量数据进行预训练的超大型深度学习模型，本文主要讲述TensorRT-LLM利用量化、In-Flight Batching、Attention、Graph Rewriting提升 LLM 模型推理效率。

子白

100,720

孟威

2024-05-15

104063

SLS 大模型可观测&安全推理审计标准解决方案

本文介绍大模型可观测&安全推理审计解决方案和Demo演示，SLS 提供全面的 LLM 监控和日志记录功能。监控大模型使用情况和性能，自定义仪表盘；SLS 汇总 Actiontrail 事件、云产品可观测日志、LLM 网关明细日志、详细对话明细日志、Prompt Trace 和推理实时调用明细等数据，建设完整统一的大模型可观测方案，为用户的大模型安全推理审计提供全面合规支持。

孟威

104,063

匡大虎

2024-05-15

629

从方法论到最佳实践，深度解析企业云原生 DevSecOps 体系构建

本文主要介绍了云原生安全的现状以及企业应用在云原生化转型中面临的主要安全挑战以及相对成熟的一部分安全体系方法论，深度解析企业云原生 DevSecOps 体系构建。

匡大虎

629

霜键

2024-05-15

112475

线程操纵术之更优雅的并行策略

本文详细介绍了并行编程以及一些并行问题案例中的真实业务场景。

霜键

112,475

林以琳

2024-05-15

723

基于PAI-DSW快速启动Stable Diffusion WebUI

基于PAI-DSW快速启动Stable Diffusion WebUI，创作你的专属冬日主题AI画作！

林以琳

723

王明橙鲤黄俊

2024-05-15

61135

通义千问开源模型在PAI灵骏的最佳实践

本文将展示如何基于阿里云PAI灵骏智算服务，在通义千问开源模型之上进行高效分布式继续预训练、指令微调、模型离线推理验证以及在线服务部署。

王明橙鲤黄俊等

61,135

张佐玮

2023-12-01

855

Koordinator 助力云原生应用性能提升，小红书混部技术实践

本文基于 2023 云栖大会上关于 Koordinator 分享的实录，介绍小红书通过规模化落地混部技术来大幅提升集群资源效能，降低业务资源成本。

张佐玮

855

云服务器ECS

2023-12-01

79937

AI 时代的 GPU 生存工具包，每个开发人员必须知道的最低限度

AI技术迎来了“百花齐放”的春天，这既是我们的挑战也是机会。而AI+千行百业创造了无限可能，也为独立开发者提供了大量的资源、支持以及学习经验的机会。本文分享一篇摘录自Hexmos 期刊的AI 时代的 GPU 生存工具包。

云服务器ECS

79,937

施晨尹丰彬筱文李林杨黄俊等

2023-11-07

39910

基于阿里云PAI平台搭建知识库检索增强的大模型对话系统

基于原始的阿里云计算平台产技文档，搭建一套基于大模型检索增强答疑机器人。本方案已在阿里云线上多个场景落地，将覆盖阿里云官方答疑群聊、研发答疑机器人、钉钉技术服务助手等。线上工单拦截率提升10+%，答疑采纳率70+%，显著提升答疑效率。

施晨尹丰彬筱文李林杨黄俊等

39,910

类目筛选

内容类型

大语言模型推理提速，TensorRT-LLM 高性能推理实践

SLS 大模型可观测&安全推理审计标准解决方案

从方法论到最佳实践，深度解析企业云原生 DevSecOps 体系构建

线程操纵术之更优雅的并行策略

基于PAI-DSW快速启动Stable Diffusion WebUI

通义千问开源模型在PAI灵骏的最佳实践

Koordinator 助力云原生应用性能提升，小红书混部技术实践

AI 时代的 GPU 生存工具包，每个开发人员必须知道的最低限度

基于阿里云PAI平台搭建知识库检索增强的大模型对话系统