阿里云通义实验室再次引领国产大模型技术浪潮,正式推出 Qwen3.6-Max-Preview —— 新一代千问旗舰模型的早期预览版本。这款模型不仅在权威评测中强势登顶“最佳国产模型”宝座,更在智能体(Agent)编程、世界知识储备和指令遵循能力三大核心维度上,实现了对前代产品Qwen3.6-Plus的全面超越,详细在阿里云通义大模型官网查看。
一、性能登顶:权威评测下的实力证明
根据知名AI评测平台 Artificial Analysis 的最新榜单,Qwen3.6-Max-Preview凭借其卓越的综合性能,一举成为当前表现最佳的国产大语言模型。
这一成就并非偶然,而是其在多项关键基准测试中取得突破性进展的必然结果。
二、三大核心能力跃升:重新定义AI智能体
Qwen3.6-Max-Preview的核心升级聚焦于让AI从“能聊”走向“能干”,尤其在处理复杂、多步骤的真实世界任务时,展现出前所未有的可靠性与效率。
✅ 1. 智能体编程能力:业界领先
在六大主流编程基准测试中,Qwen3.6-Max-Preview均取得了最佳成绩,包括:
- SWE-bench Pro:软件工程问题解决
- Terminal-Bench 2.0:终端命令行操作
- SkillsBench & QwenClawBench:通用与特定技能执行
- QwenWebBench:网页交互与信息提取
- SciCode:科学代码生成与理解
这意味着,它能够更精准地理解开发者的意图,并自主完成从需求分析、代码编写、调试到部署的完整软件开发生命周期中的复杂任务。
✅ 2. 世界知识:广度与深度兼备
模型在 SuperGPQA(高难度科学知识问答)和 QwenChineseBench(中文综合知识)等评测中创下新高。这确保了AI在回答专业领域问题或进行跨学科推理时,能够提供更准确、更可靠的信息,减少“幻觉”现象。
✅ 3. 指令遵循:精准执行每一步
在 ToolcallFormatIFBench 等指令遵循评测中,Qwen3.6-Max-Preview同样表现优异。它能更严格地遵守用户的格式要求和操作步骤,这对于需要精确控制的自动化流程至关重要。
三、真实场景表现:解决更复杂、更长程的任务
理论评测的胜利最终要服务于真实世界的挑战。Qwen3.6-Max-Preview在实际应用中,能够胜任那些需要长期规划、多工具协同和复杂逻辑推理的长程任务。无论是自动完成一个完整的市场分析报告,还是协调多个API接口构建一个自动化工作流,它都展现出了更强的稳定性和成功率。
四、如何体验Qwen3.6-Max-Preview?
阿里云为开发者和企业用户提供了便捷的接入方式:
- 通过阿里云百炼API:模型将很快上线,模型名称为
qwen3.6-max-preview。百炼平台兼容行业标准协议,包括OpenAI和Anthropic的API规范,方便现有应用无缝迁移。 - 通过Qwen Studio:用户可直接在Qwen Studio平台上即时体验该模型的强大功能。
- 在 阿里云权益中心 查看最新阿里云AI大模型免费额度、节省计划费用清单。
🔧 特别功能:preserve_thinking
本次发布还支持一项针对智能体任务的关键功能——preserve_thinking。该功能允许在API请求的消息中保留所有前序轮次的思维链(Chain-of-Thought)内容,极大地提升了智能体在处理多轮、复杂任务时的上下文连贯性和决策质量。
结语
作为一款预览版模型,Qwen3.6-Max-Preview已经展现了其作为下一代旗舰的非凡潜力。它的发布不仅是阿里云在大模型技术上的又一次重大突破,更为整个AI智能体生态的发展注入了强劲动力。随着模型的持续迭代与优化,我们有理由相信,一个由AI智能体深度赋能的高效、自动化未来,正加速到来。