异构计算

首页 标签 异构计算
# 异构计算 #
关注
19267内容
|
6天前
| |
vLLM 吞吐量优化实战:10个KV-Cache调优方法让tokens/sec翻倍
十个经过实战检验的 vLLM KV-cache 优化方法 —— 量化、分块预填充、前缀重用、滑动窗口、ROPE 缩放、后端选择等等 —— 提升 tokens/sec。
|
6天前
| |
vLLM 架构学习指南
本指南深入解析vLLM高性能推理引擎架构,涵盖核心创新PagedAttention与连续批处理技术,结合代码结构、学习路径与实践建议,系统指导用户从入门到贡献源码的全过程。
|
7天前
| |
vLLM推理加速指南:7个技巧让QPS提升30-60%
GPU资源有限,提升推理效率需多管齐下。本文分享vLLM实战调优七招:请求塑形、KV缓存复用、推测解码、量化、并行策略、准入控制与预热监控。结合代码与数据,助你最大化吞吐、降低延迟,实现高QPS稳定服务。
|
9天前
| |
来自: 物联网
一种基于连续相位频移键控的高效频谱利用新型雷达信号——论文阅读
本文提出一种基于连续相位频移键控(CPFSK)的新型雷达信号设计方法,通过确保频率切换时相位连续,有效抑制频谱旁瓣与能量泄漏。相比传统FSK信号,该方法在不牺牲脉冲压缩性能的前提下,实现旁瓣降低约20dB,显著提升频谱利用效率,适用于复杂电磁环境下的高性能雷达系统。
阿里云无影云电脑具体价格:个人版、企业版和免费云电脑配置介绍
阿里云无影云电脑2025年最新价格:企业版4核8G低至199元/年,支持办公与设计;个人版分黄金到黑金多款,月费14元起,适配云游戏与AI办公。含GPU高配机型,另享免费试用。
144_推理时延优化:Profiling与瓶颈分析 - 使用PyTorch Profiler诊断推理延迟,优化矩阵运算的独特瓶颈
在2025年的大模型时代,推理时延优化已经成为部署LLM服务的关键挑战之一。随着模型规模的不断扩大(从数亿参数到数千亿甚至万亿参数),即使在最先进的硬件上,推理延迟也常常成为用户体验和系统吞吐量的主要瓶颈。
142_故障容错:冗余与回滚机制 - 配置多副本的独特健康检查
在大语言模型(LLM)的生产环境部署中,系统的可靠性和稳定性至关重要。随着LLM应用场景的不断扩展,从简单的文本生成到复杂的多模态交互,用户对服务可用性和响应质量的要求也日益提高。据2025年最新的AI服务可用性报告显示,顶级AI服务提供商的SLA(服务级别协议)承诺已达到99.99%,这意味着每年的计划外停机时间不得超过52.56分钟。
119_LLM训练的高效内存管理与优化技术:从ZeRO到Flash Attention
大型语言模型(LLM)的训练面临着前所未有的计算和内存挑战。随着模型规模达到数百亿甚至数千亿参数,高效的内存管理成为训练成功的关键因素之一。2025年,LLM训练的内存优化技术已经取得了显著进展,从ZeRO优化器到Flash Attention等创新技术,为训练超大规模模型提供了可能。
免费试用