文章标签:
RDMA
负载均衡
异构计算
并行计算
相关文章
JJLIN距离
|
6月前
|
负载均衡
测试技术
调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
JJLIN距离
1568
4
4
JJLIN距离
|
6月前
|
机器学习/深度学习
缓存
监控
大模型推理优化技术:KV缓存机制详解
本文深入探讨了大语言模型推理过程中的关键技术——KV缓存(Key-Value Cache)机制。通过对Transformer自注意力机制的分析,阐述了KV缓存的工作原理、实现方式及其对推理性能的显著优化效果。文章包含具体的代码实现和性能对比数据,为开发者理解和应用这一关键技术提供实践指导。
JJLIN距离
1892
8
8
霍格沃兹测试开发学社
|
6月前
|
存储
人工智能
NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
霍格沃兹测试开发学社
1368
2
3
阿里云开发者
|
6月前
|
机器学习/深度学习
缓存
自然语言处理
【万字长文】大模型训练推理和性能优化算法总结和实践
我们是阿里云公共云 AI 汽车行业大模型技术团队,致力于通过专业的全栈 AI 技术推动 AI 的落地应用。
阿里云开发者
2595
39
50
JJLIN距离
|
6月前
|
机器学习/深度学习
存储
并行计算
大模型推理加速技术:FlashAttention原理与实现
本文深入解析大语言模型推理加速的核心技术——FlashAttention。通过分析传统注意力机制的计算瓶颈,详细阐述FlashAttention的IO感知算法设计、前向反向传播实现,以及其在GPU内存层次结构中的优化策略。文章包含完整的CUDA实现示例、性能基准测试和实际部署指南,为开发者提供高效注意力计算的全套解决方案。
JJLIN距离
1114
10
10
Deephub
|
7月前
|
机器学习/深度学习
算法
数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
Deephub
957
2
2
JJLIN距离
|
6月前
|
监控
算法
测试技术
大模型推理服务优化:动态批处理与连续批处理技术
本文系统阐述大语言模型推理服务中的关键技术——动态批处理与连续批处理。通过分析传统静态批处理的局限性,深入解析动态批处理的请求调度算法、内存管理策略,以及连续批处理的中断恢复机制。文章包含完整的服务架构设计、核心算法实现和性能基准测试,为构建高性能大模型推理服务提供全面解决方案。
JJLIN距离
763
3
3
JJLIN距离
|
6月前
|
机器学习/深度学习
存储
缓存
大模型推理加速技术:PagedAttention原理与实现
本文深入解析大语言模型推理中的革命性技术——PagedAttention,该技术是vLLM推理引擎的核心创新。通过将操作系统中的虚拟内存分页概念引入注意力机制,PagedAttention有效解决了KV缓存的内存碎片问题,实现了近乎零浪费的KV缓存管理。文章详细阐述其原理、内存管理机制、实现细节,并提供完整的代码示例和性能分析。
JJLIN距离
764
1
1
Deephub
|
7月前
|
机器学习/深度学习
算法
Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定
本文介绍了一种改进的监督微调方法——Proximal Supervised Fine-Tuning (PSFT),旨在解决传统SFT易过拟合、泛化能力差及导致“熵坍塌”的问题。受PPO强化学习算法启发,PSFT通过引入参数更新的稳定性机制,防止模型在训练中变得过于确定,从而提升探索能力与后续强化学习阶段的表现。实验表明,PSFT在数学推理、模型对齐及泛化能力方面均优于传统SFT。
Deephub
698
3
3
热门文章
最新文章
1
中文竞技场(MS)大模型评测
2
科普神文,一次性讲透AI大模型的核心概念
3
Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
4
全新开源通义千问Qwen3,它来了!
5
阿里云百炼已上线超强推理开源模型QwQ-32B,尺寸更小,性能比肩DeepSeek满血版
6
通义千问72B、1.8B、Audio模型开源!魔搭社区最佳实践来啦!
7
企业AI落地实践(三):使用 AI 网关解决 AI Agent 与 LLM 的交互挑战
8
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
9
NL2SQL基础系列(2):主流大模型与微调方法精选集,Text2SQL经典算法技术回顾七年发展脉络梳理
10
AI大模型进阶系列(01)看懂AI大模型的主流技术 | AI对普通人的本质影响是什么
1
大模型强化学习的熵控制:CE-GPPO、EPO与AsyPPO技术方案对比详解
438
2
当AI开始“思考”:为什么大模型的尽头是推理?
558
3
大模型分布式推理:张量并行与流水线并行技术
1568
4
构建AI智能体:一、初识AI大模型与API调用
2272
5
【大模型微调】一文掌握5种大模型微调的方法
5879
6
从“看见”到“预见”:合合信息“多模态文本智能技术”如何引爆AI下一场革命。
284
7
AI Agent的未来之争:任务规划,该由人主导还是AI自主?——阿里云RDS AI助手的最佳实践
1224
8
C3仓库AI代码门禁通用实践:基于Qwen3-Coder+RAG的代码评审
1203
9
Qwen3-VL新成员 2B、32B来啦!更适合开发者体质
5916
10
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
738
相关商品
相关解决方案
更多
一键训练模型及部署GPU共享推理服务
零代码微调,打造领域专属大模型
触手可及,函数计算玩转 AI 大模型
文件下载加速及成本优化
告别低效沟通,使用大模型发起语音通话
相关课程
更多
阿里云大模型工程师ACA认证课程
阿里云百炼大模型产品实践
ADB-PG+大模型一站式AIGC解决方案
阿里云百炼,手把手教你如何构建企业大模型应用服务
云原生AI套件:一键训练大模型及部署GPU共享推理服务
【开眼界】大模型时代的个人应对策略
相关电子书
更多
OpenSearch向量检索和大模型方案
通义万相:视觉生成大模型的进化与应用
达摩院通义视觉生成大模型
下一篇
PHP:将本地文件上传到阿里云OSS存储