异构计算

首页 标签 异构计算
# 异构计算 #
关注
19333内容
|
19天前
| |
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
|
20天前
|
《从PC到移动端:开放世界枫景实时全局光照的全平台适配方案》
本文围绕开放世界3A项目中枫林场景的实时全局光照开发展开,记录从解决动态物体与静态烘焙光照断层问题切入,逐步落地技术方案的全过程。先对比选定改良版SSGI方案,通过“分层深度缓冲”解决透明枫叶光照计算缺陷;再针对移动端性能瓶颈,建立设备分级渲染策略并优化内存占用;随后打通全局光照与动态天气系统的协同接口,解决天气变化时的光照矛盾;还探索光线追踪技术,开发工具排查光线泄露问题;最后尝试“NeRF+实时全局光照”融合方案,突破远场场景光照细节不足的局限。
|
20天前
|
《3D古城场景角色碰撞优化的实战指南》
本文聚焦开放世界3A项目“燕云古城废墟”场景的角色物理碰撞优化,记录从解决“穿模”“帧率骤降”等核心问题切入的工程化实践。先针对静态物体碰撞体冗余,设计“层级碰撞体”方案并制定精度规范,大幅降低计算量;再通过“预破碎资源池”优化可破坏物体,减少实时破碎的性能消耗;开发“动态碰撞剔除系统”,基于距离与视野实现碰撞计算按需触发;结合移动端特性,通过碰撞简化与物理步长调整完成多设备适配;最后构建“碰撞-动画协同系统”,提升交互真实感。
|
21天前
|
阿里云服务器收费标准:包年包月和按量付费费用整理
阿里云服务器提供包年包月与按量付费两种模式,包年包月低至38元起/年,涵盖2核2G到8核32G多款爆款配置,轻量应用服务器享200M峰值带宽不限流量,香港节点25元/月起,GPU服务器亦有优惠,新老用户均可享大幅折扣。
|
22天前
|
《3D植被建模痛点解决:开放世界层级实例化+GPU批处理优化方案》
本文记录开放世界生存游戏“迷雾森林”场景3D植被建模的技术攻坚过程。初期因静态烘焙方案,出现近景纹理拉伸、中景阴影脱节、显存过载闪退等问题,后转向“动态层级实例化”,按空间、模型、材质三维度拆分植被资源,搭建层级参数库。面对实例化数量过载,通过材质分组批处理与GPU实例化优化,将Draw Call从3200次降至210次,帧率回升至58帧。后续开发动态环境响应模块,实现植被随天气调整形态,并优化地形采样算法解决穿模悬浮问题。最终沉淀“四维协同”建模逻辑,还探索AI辅助LOD生成,为开放世界3D资产开发提供可复用路径。
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
23天前
|
《让青岚剑影有国漫分镜感:RPG特效粒子技术实战指南》
本文分享东方仙侠国漫RPG中,男主技能“青岚剑影”特效还原手绘分镜感的实战经验。开发团队摒弃纯帧动画与纯物理粒子方案,采用“笔触路径约束+手绘纹理粒子”混合思路,先联合美术搭建含200组国漫分镜特征的粒子库,拆分剑影运动阶段并设置对应参数;再通过碰撞范围检测解决穿模,用材质合批与LOD优化渲染性能,使移动端帧率稳定58-60帧。
|
24天前
|
大模型推理加速技术:PagedAttention原理与实现
本文深入解析大语言模型推理中的革命性技术——PagedAttention,该技术是vLLM推理引擎的核心创新。通过将操作系统中的虚拟内存分页概念引入注意力机制,PagedAttention有效解决了KV缓存的内存碎片问题,实现了近乎零浪费的KV缓存管理。文章详细阐述其原理、内存管理机制、实现细节,并提供完整的代码示例和性能分析。
|
25天前
|
大模型推理加速技术:FlashAttention原理与实现
本文深入解析大语言模型推理加速的核心技术——FlashAttention。通过分析传统注意力机制的计算瓶颈,详细阐述FlashAttention的IO感知算法设计、前向反向传播实现,以及其在GPU内存层次结构中的优化策略。文章包含完整的CUDA实现示例、性能基准测试和实际部署指南,为开发者提供高效注意力计算的全套解决方案。
免费试用