性能翻倍!Qwen3.5与阿里云APG服务器完成深度优化

简介: 近日,Qwen3.5系列模型正式发布,正式迈向原生多模态智能体,并推出多款模型。阿里云专有云联合通义实验室等团队,基于APG服务器深度优化了Qwen3.5-397B-A17B模型,对比Qwen3-235B性能提升1.5倍以上。

image.png


效果佳、成本低——Qwen3.5 实现效率与性能双重飞跃

Qwen3.5-397B-A17B作为原生视觉-语言模型,在推理、编程、智能体能力与多模态理解等全方位基准评估中表现优异,助力开发者与企业显著提升生产力。


核心技术创新

融合多模态、架构效率、可扩展强化学习泛化等领域前沿技术,结合线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)技术,提升模型推理效率;


参数总量提升

Qwen3.5模型总参数量达3970亿,每次前向传播仅激活170亿参数,在保持能力的同时优化速度与成本;


性能提升

Qwen3.5在推理性能方面进行深度优化,性能较Qwen3-235B提升1.5倍以上;


Qwen 3.5 结构创新,兼顾效率与精度

  • 混合注意力机制:采用Gated DeltaNet技术,状态更新采用门控机制和递归状态空间,实现线性推理复杂度,大幅提升长序列性能;结合Full Attention技术保留完整上下文依赖,确保细粒度语义精度;
  • 极致稀疏MoE:显著降低计算瓶颈,在保持原有模型容量的情况下,可实现“大模型效果,小模型成本”;
  • 多Token预测(MTP):单Decoding Step支持输出多个token,进一步提升推理加速比;


性能提升1.5倍——基于APG服务器实现Qwen 3.5 推理性能优化

阿里云专有云联合通义实验室等团队,基于APG服务器深度优化了Qwen3.5-397B-A17B模型,对比Qwen3-235B性能提升1.5倍以上。



算子性能与推理框架优化,全面提升效率

Linear Attention算子优化调度流程:将Kernel Launch、内存拷贝等捕获为静态计算图,推理时直接重放,避免单独步骤CPU调度开销;


Kernel Fusion策略:融合Gated DeltaNet门控计算、状态更新与输出投影,提升Global Memory 访存效率和算子性能;


软硬结合的DeepEP通信内核:在APG服务器上通过DeepEP降低Token路由的通信开销,并通过环状通信优化,进一步提升Qwen3.5稀疏专家的通信效率;


专家负载均衡:通过分层迁移策略,实现动态的专家Rebalance机制,并通过top-k专家共同激活关系的追踪,进一步结合硬件拓扑优化专家排布

相关文章
|
25天前
|
存储 人工智能 JSON
Litefuse 正式发布:Agent 可观测与效果评估, 比 Langfuse 成本低 88%
Litefuse 是一个 Agent 可观测与评估平台,兼容 Langfuse SDK 和 100 多个 AI 生态,并支持 Hermes、OpenClaw、Claude Code 等通用 Agent。存储成本比 Langfuse 降低 88%、简化部署架构、Trace 文本检索效率提升 10 倍,帮助团队以更低成本构建可靠的观测平台。
607 9
Litefuse 正式发布:Agent 可观测与效果评估, 比 Langfuse 成本低 88%
|
25天前
|
人工智能 安全 专有云
深度访谈:阿里云×平头哥,模型推理提升13倍背后的秘密
2026年初,AI焦点正从“对话”转向“推理”:OpenClaw爆火、AI Coding成新基建、大模型迈向Agent化执行。算力瓶颈、成本压力与安全预警交织,推理效率成为产业主战场。本文深度对话阿里云与平头哥专家,剖析软硬协同、MoE优化、量化压缩等关键技术演进,揭示国产AI基础设施如何通过系统级创新突破“不可能三角”。
172 1
|
5月前
|
专有云
山海征程|2025年阿里云专有云年度盘点
专有云的山海征程——2025年阿里云专有云年度盘点
340 0
|
5月前
|
存储 人工智能 专有云
中智集团接入飞天企业版,行业云成果入选国资委AI标杆!
近日,中智集团接入阿里云飞天企业版打造的“中智行业云”成功入选国务院国资委首批“AI战略性高价值场景”。同时,该成果凭借先进的技术架构与场景赋能价值,还获评中国信息通信研究院“面向AI的智能化专有云底座”创新应用实践,成为AI与云计算在人力资源领域的标杆应用。
282 0
|
26天前
|
人工智能 编解码 运维
告别“氛围编程”:基于 Harness 治理和 SDD 的团队级 AI 研发范式演进与实践
文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。
告别“氛围编程”:基于 Harness 治理和 SDD 的团队级 AI 研发范式演进与实践
|
21天前
|
人工智能 IDE API
阿里云DevBox一键部署Hermes Agent与Claude Code:从零搭建AI驱动开发闭环完整教程
2026年,AI驱动开发已经从辅助工具进化为可独立完成全流程任务的数字化开发团队。Hermes Agent与Claude Code的组合,正是当前最成熟、最稳定、最贴近真实工程场景的AI协同开发架构。阿里云基于云开发机DevBox推出的一键部署方案,让普通开发者无需关心底层环境配置,几分钟内即可拥有一支具备需求分析、方案设计、代码编写、调试优化、经验沉淀能力的全天候AI开发团队。
260 5
|
25天前
|
智能设计 人工智能 数据可视化
入选顶会ACM!阿里云DashChat重塑数据看板设计:从辅助工具进阶为智能设计伙伴
近日,阿里云DataV团队的论文《DashChat: Interactive Authoring of Performance Dashboard Design Prototypes through Conversation with LLM-Powered Agents》在经历多轮评审后,正式被计算机人机交互领域的全球顶级学术会议——ACM CHI 2026录用,将在会议全新改革的Poster赛道上进行宣读和展示。
132 2
入选顶会ACM!阿里云DashChat重塑数据看板设计:从辅助工具进阶为智能设计伙伴
|
13天前
|
人工智能 数据处理 决策智能
《从AI智能体到OPC中国:未来组织协作模式正在发生变化》
OPC中国聚焦“一人公司”(OPC)与“一人部门”(OPD)理念,探索AI智能体时代下组织轻量化与个人能力放大的新范式。它整合AI工作流、多智能体协同、自动化执行等前沿实践,推动AI职业教育升级——培养的不再是单一技能,而是驾驭AI完成复杂协作的核心能力。(239字)
|
25天前
|
数据采集 存储 并行计算
基于MATLAB解决车辆路径问题(VRP)
基于MATLAB解决车辆路径问题(VRP)
281 4