效果佳、成本低——Qwen3.5 实现效率与性能双重飞跃
Qwen3.5-397B-A17B作为原生视觉-语言模型,在推理、编程、智能体能力与多模态理解等全方位基准评估中表现优异,助力开发者与企业显著提升生产力。
核心技术创新
融合多模态、架构效率、可扩展强化学习泛化等领域前沿技术,结合线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)技术,提升模型推理效率;
参数总量提升
Qwen3.5模型总参数量达3970亿,每次前向传播仅激活170亿参数,在保持能力的同时优化速度与成本;
性能提升
Qwen3.5在推理性能方面进行深度优化,性能较Qwen3-235B提升1.5倍以上;
Qwen 3.5 结构创新,兼顾效率与精度
- 混合注意力机制:采用Gated DeltaNet技术,状态更新采用门控机制和递归状态空间,实现线性推理复杂度,大幅提升长序列性能;结合Full Attention技术保留完整上下文依赖,确保细粒度语义精度;
- 极致稀疏MoE:显著降低计算瓶颈,在保持原有模型容量的情况下,可实现“大模型效果,小模型成本”;
- 多Token预测(MTP):单Decoding Step支持输出多个token,进一步提升推理加速比;
性能提升1.5倍——基于APG服务器实现Qwen 3.5 推理性能优化
阿里云专有云联合通义实验室等团队,基于APG服务器深度优化了Qwen3.5-397B-A17B模型,对比Qwen3-235B性能提升1.5倍以上。
算子性能与推理框架优化,全面提升效率
Linear Attention算子优化调度流程:将Kernel Launch、内存拷贝等捕获为静态计算图,推理时直接重放,避免单独步骤CPU调度开销;
Kernel Fusion策略:融合Gated DeltaNet门控计算、状态更新与输出投影,提升Global Memory 访存效率和算子性能;
软硬结合的DeepEP通信内核:在APG服务器上通过DeepEP降低Token路由的通信开销,并通过环状通信优化,进一步提升Qwen3.5稀疏专家的通信效率;
专家负载均衡:通过分层迁移策略,实现动态的专家Rebalance机制,并通过top-k专家共同激活关系的追踪,进一步结合硬件拓扑优化专家排布