性能翻倍!Qwen3.5与阿里云APG服务器完成深度优化

简介: 近日,Qwen3.5系列模型正式发布,正式迈向原生多模态智能体,并推出多款模型。阿里云专有云联合通义实验室等团队,基于APG服务器深度优化了Qwen3.5-397B-A17B模型,对比Qwen3-235B性能提升1.5倍以上。

image.png


效果佳、成本低——Qwen3.5 实现效率与性能双重飞跃

Qwen3.5-397B-A17B作为原生视觉-语言模型,在推理、编程、智能体能力与多模态理解等全方位基准评估中表现优异,助力开发者与企业显著提升生产力。


核心技术创新

融合多模态、架构效率、可扩展强化学习泛化等领域前沿技术,结合线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)技术,提升模型推理效率;


参数总量提升

Qwen3.5模型总参数量达3970亿,每次前向传播仅激活170亿参数,在保持能力的同时优化速度与成本;


性能提升

Qwen3.5在推理性能方面进行深度优化,性能较Qwen3-235B提升1.5倍以上;


Qwen 3.5 结构创新,兼顾效率与精度

  • 混合注意力机制:采用Gated DeltaNet技术,状态更新采用门控机制和递归状态空间,实现线性推理复杂度,大幅提升长序列性能;结合Full Attention技术保留完整上下文依赖,确保细粒度语义精度;
  • 极致稀疏MoE:显著降低计算瓶颈,在保持原有模型容量的情况下,可实现“大模型效果,小模型成本”;
  • 多Token预测(MTP):单Decoding Step支持输出多个token,进一步提升推理加速比;


性能提升1.5倍——基于APG服务器实现Qwen 3.5 推理性能优化

阿里云专有云联合通义实验室等团队,基于APG服务器深度优化了Qwen3.5-397B-A17B模型,对比Qwen3-235B性能提升1.5倍以上。



算子性能与推理框架优化,全面提升效率

Linear Attention算子优化调度流程:将Kernel Launch、内存拷贝等捕获为静态计算图,推理时直接重放,避免单独步骤CPU调度开销;


Kernel Fusion策略:融合Gated DeltaNet门控计算、状态更新与输出投影,提升Global Memory 访存效率和算子性能;


软硬结合的DeepEP通信内核:在APG服务器上通过DeepEP降低Token路由的通信开销,并通过环状通信优化,进一步提升Qwen3.5稀疏专家的通信效率;


专家负载均衡:通过分层迁移策略,实现动态的专家Rebalance机制,并通过top-k专家共同激活关系的追踪,进一步结合硬件拓扑优化专家排布

相关文章
|
2天前
|
人工智能 编解码 运维
告别“氛围编程”:基于 Harness 治理和 SDD 的团队级 AI 研发范式演进与实践
文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。
告别“氛围编程”:基于 Harness 治理和 SDD 的团队级 AI 研发范式演进与实践
|
1月前
|
安全 JavaScript 前端开发
React2Shell 漏洞自动化凭证窃取攻击机理与防御研究
CVE-2025-55182(React2Shell)是CVSS 10.0的高危RCE漏洞,可无认证、无交互远程接管Next.js等RSC应用服务器。2026年已爆发规模化自动化凭证窃取攻击,单日入侵766台服务器。本文系统剖析漏洞机理与攻击链,构建检测、监控、防御、响应一体化闭环体系,提供可落地的代码与方案。(239字)
216 16
|
1月前
|
存储 人工智能 API
基于Flutter3.41+Dart3.11+DeepSeek生成式AI对话应用App助手
Flutter3.41+Dart3+Dio+Getx+Markdown聚合DeepSeek-chat实战AI流式打字智能会话模板。新增深度思考模式、latex公式、mermaid图表,代码高亮/复制代码、图片预览、链接、表格等功能。
125 4
|
22天前
|
弹性计算 人工智能 自然语言处理
阿里云Qwen3.6 MoE大模型全新开源详解:模型特性、ECS/ACS/计算巢部署流程、vLLM配置与代码调用全教程
阿里云Qwen3.6系列是通义千问团队推出的新一代混合专家(MoE)架构大语言模型,凭借稀疏激活、高效推理、多规格覆盖、原生支持智能体与多语言能力,成为企业私有化部署、AI应用开发、智能体构建的理想选择。该系列全面开源,依托阿里云计算巢平台可实现三步一键部署专有版,搭配vLLM推理框架大幅提升吞吐效率,FP8量化版本更让显存占用降低约一半,兼顾顶尖性能与极致成本优势。本文从模型定位、核心优势、规格选型、阿里云计算巢部署流程、API调用代码、环境配置、常见问题全方面展开,为开发者与企业提供完整可落地的实战指南。
1491 7
|
关系型数据库 Serverless 分布式数据库
PolarDB MySQL 版 Serverless-测评
通过函数计算调用PolarDB数据,拉起暂停状态的PolarDB MySQL 集群。
112148 9
|
1天前
|
数据采集 存储 并行计算
基于MATLAB解决车辆路径问题(VRP)
基于MATLAB解决车辆路径问题(VRP)
41 3
|
23小时前
|
智能设计 人工智能 数据可视化
入选顶会ACM!阿里云DashChat重塑数据看板设计:从辅助工具进阶为智能设计伙伴
近日,阿里云DataV团队的论文《DashChat: Interactive Authoring of Performance Dashboard Design Prototypes through Conversation with LLM-Powered Agents》在经历多轮评审后,正式被计算机人机交互领域的全球顶级学术会议——ACM CHI 2026录用,将在会议全新改革的Poster赛道上进行宣读和展示。
入选顶会ACM!阿里云DashChat重塑数据看板设计:从辅助工具进阶为智能设计伙伴
|
23小时前
|
存储 人工智能 安全
安心无忧养“虾”,阿里云飞天企业版为你保驾护航
近期,因具备“主动进化”能力,开源AI智能体小龙虾OpenClaw在全球范围内迅速走红。作为一款可本地部署的执行型AI代理,它不仅能自主处理邮件、预订服务、操作浏览器,还拥有持久记忆和复杂任务调度能力,被誉为“数字员工”的雏形。然而,火热背后也暗藏风险。相关部门已发布预警:OpenClaw默认配置存在较高安全风险,极易被利用进行网络攻击与信息泄露。其赋予的文件读写、程序执行等系统级权限,一旦失控,可能让攻击者获得“上帝模式”,完全掌控企业终端。
|
23小时前
|
人工智能 安全 专有云
深度访谈:阿里云×平头哥,模型推理提升13倍背后的秘密
2026年初,AI焦点正从“对话”转向“推理”:OpenClaw爆火、AI Coding成新基建、大模型迈向Agent化执行。算力瓶颈、成本压力与安全预警交织,推理效率成为产业主战场。本文深度对话阿里云与平头哥专家,剖析软硬协同、MoE优化、量化压缩等关键技术演进,揭示国产AI基础设施如何通过系统级创新突破“不可能三角”。