性能翻倍!Qwen3.5与阿里云APG服务器完成深度优化

简介: 近日,Qwen3.5系列模型正式发布,正式迈向原生多模态智能体,并推出多款模型。阿里云专有云联合通义实验室等团队,基于APG服务器深度优化了Qwen3.5-397B-A17B模型,对比Qwen3-235B性能提升1.5倍以上。

image.png


效果佳、成本低——Qwen3.5 实现效率与性能双重飞跃

Qwen3.5-397B-A17B作为原生视觉-语言模型,在推理、编程、智能体能力与多模态理解等全方位基准评估中表现优异,助力开发者与企业显著提升生产力。


核心技术创新

融合多模态、架构效率、可扩展强化学习泛化等领域前沿技术,结合线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)技术,提升模型推理效率;


参数总量提升

Qwen3.5模型总参数量达3970亿,每次前向传播仅激活170亿参数,在保持能力的同时优化速度与成本;


性能提升

Qwen3.5在推理性能方面进行深度优化,性能较Qwen3-235B提升1.5倍以上;


Qwen 3.5 结构创新,兼顾效率与精度

  • 混合注意力机制:采用Gated DeltaNet技术,状态更新采用门控机制和递归状态空间,实现线性推理复杂度,大幅提升长序列性能;结合Full Attention技术保留完整上下文依赖,确保细粒度语义精度;
  • 极致稀疏MoE:显著降低计算瓶颈,在保持原有模型容量的情况下,可实现“大模型效果,小模型成本”;
  • 多Token预测(MTP):单Decoding Step支持输出多个token,进一步提升推理加速比;


性能提升1.5倍——基于APG服务器实现Qwen 3.5 推理性能优化

阿里云专有云联合通义实验室等团队,基于APG服务器深度优化了Qwen3.5-397B-A17B模型,对比Qwen3-235B性能提升1.5倍以上。



算子性能与推理框架优化,全面提升效率

Linear Attention算子优化调度流程:将Kernel Launch、内存拷贝等捕获为静态计算图,推理时直接重放,避免单独步骤CPU调度开销;


Kernel Fusion策略:融合Gated DeltaNet门控计算、状态更新与输出投影,提升Global Memory 访存效率和算子性能;


软硬结合的DeepEP通信内核:在APG服务器上通过DeepEP降低Token路由的通信开销,并通过环状通信优化,进一步提升Qwen3.5稀疏专家的通信效率;


专家负载均衡:通过分层迁移策略,实现动态的专家Rebalance机制,并通过top-k专家共同激活关系的追踪,进一步结合硬件拓扑优化专家排布

相关文章
|
16天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23521 12
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
4天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
1303 7
|
5天前
|
人工智能 BI 持续交付
Claude Code 深度适配 DeepSeek V4-Pro 实测:全场景通关与真实体验报告
在 AI 编程工具日趋主流的今天,Claude Code 凭借强大的任务执行、工具调用与工程化能力,成为开发者与自动化运维的核心效率工具。但随着原生模型账号稳定性问题频发,寻找一套兼容、稳定、能力在线的替代方案变得尤为重要。DeepSeek V4-Pro 作为新一代高性能大模型,提供了完整兼容 Claude 协议的 API 接口,只需简单配置即可无缝驱动 Claude Code,且在任务执行、工具调用、复杂流程处理上表现极为稳定。
1405 3
|
10天前
|
人工智能 缓存 Shell
Claude Code 全攻略:命令大全 + 实战工作流(完整版)
Claude Code 是一款运行在终端环境下的 AI 编码助手,能够直接在项目目录中理解代码结构、编辑文件、执行命令、执行开发计划,并支持持久化记忆、上下文压缩、后台任务、多模型切换等专业能力。对于日常开发、项目维护、快速重构、代码审查等场景,它可以大幅减少手动操作、提升编码效率。本文从常用命令、界面模式、核心指令、记忆机制、图片处理、进阶工作流等维度完整说明,帮助开发者快速上手并稳定使用。
2556 4
|
3天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
975 0
|
20天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
6082 22
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
21天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
7345 18