性能翻倍！Qwen3.5与阿里云APG服务器完成深度优化-阿里云开发者社区

性能翻倍！Qwen3.5与阿里云APG服务器完成深度优化

2026-05-15 304

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 近日，Qwen3.5系列模型正式发布，正式迈向原生多模态智能体，并推出多款模型。阿里云专有云联合通义实验室等团队，基于APG服务器深度优化了Qwen3.5-397B-A17B模型，对比Qwen3-235B性能提升1.5倍以上。

效果佳、成本低——Qwen3.5 实现效率与性能双重飞跃

Qwen3.5-397B-A17B作为原生视觉-语言模型，在推理、编程、智能体能力与多模态理解等全方位基准评估中表现优异，助力开发者与企业显著提升生产力。

核心技术创新

融合多模态、架构效率、可扩展强化学习泛化等领域前沿技术，结合线性注意力（Gated Delta Networks）与稀疏混合专家（MoE）技术，提升模型推理效率；

参数总量提升

Qwen3.5模型总参数量达3970亿，每次前向传播仅激活170亿参数，在保持能力的同时优化速度与成本；

性能提升

Qwen3.5在推理性能方面进行深度优化，性能较Qwen3-235B提升1.5倍以上；

Qwen 3.5 结构创新，兼顾效率与精度

混合注意力机制：采用Gated DeltaNet技术，状态更新采用门控机制和递归状态空间，实现线性推理复杂度，大幅提升长序列性能；结合Full Attention技术保留完整上下文依赖，确保细粒度语义精度；
极致稀疏MoE：显著降低计算瓶颈，在保持原有模型容量的情况下，可实现“大模型效果，小模型成本”；
多Token预测(MTP)：单Decoding Step支持输出多个token，进一步提升推理加速比；

性能提升1.5倍——基于APG服务器实现Qwen 3.5 推理性能优化

阿里云专有云联合通义实验室等团队，基于APG服务器深度优化了Qwen3.5-397B-A17B模型，对比Qwen3-235B性能提升1.5倍以上。

算子性能与推理框架优化，全面提升效率

Linear Attention算子优化调度流程：将Kernel Launch、内存拷贝等捕获为静态计算图，推理时直接重放，避免单独步骤CPU调度开销；

Kernel Fusion策略：融合Gated DeltaNet门控计算、状态更新与输出投影，提升Global Memory 访存效率和算子性能；

软硬结合的DeepEP通信内核：在APG服务器上通过DeepEP降低Token路由的通信开销，并通过环状通信优化，进一步提升Qwen3.5稀疏专家的通信效率；

专家负载均衡：通过分层迁移策略，实现动态的专家Rebalance机制，并通过top-k专家共同激活关系的追踪，进一步结合硬件拓扑优化专家排布

性能翻倍！Qwen3.5与阿里云APG服务器完成深度优化

效果佳、成本低——Qwen3.5 实现效率与性能双重飞跃

Qwen 3.5 结构创新，兼顾效率与精度

性能提升1.5倍——基于APG服务器实现Qwen 3.5 推理性能优化

算子性能与推理框架优化，全面提升效率

阿里云专有云（Apsara Stack）

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

性能翻倍！Qwen3.5与阿里云APG服务器完成深度优化

效果佳、成本低——Qwen3.5 实现效率与性能双重飞跃

Qwen 3.5 结构创新，兼顾效率与精度

性能提升1.5倍——基于APG服务器实现Qwen 3.5 推理性能优化

算子性能与推理框架优化，全面提升效率

阿里云专有云（Apsara Stack）

热门文章

最新文章

相关电子书