Qwen3-30B-A3B新版本发布,更轻更好用,提升指令遵循与长上下文理解能力!

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: Qwen3-30B-A3B新版本发布,更轻更好用,提升指令遵循与长上下文理解能力!

通义千问Qwen团队宣布本周进入“Flash week”,第一弹推出了更新版本的 Qwen3-30B-A3B 非思考和思考模式,命名为 Qwen3-30B-A3B-Instruct-2507 和 Qwen3-30B-A3B-Thinking-2507,具有以下关键改进:

  • 显著提升 的通用能力,包括 指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用
  • 多种语言 中对长尾知识的覆盖有了 实质性提高
  • 主观和开放式任务 中与用户偏好 更紧密地对齐,能够提供更有帮助的响应和更高品质的文本生成。
  • 增强256K 长上下文理解 能力。

Instruct性能:

 

image.gif 编辑

Thinking性能:

 

image.gif 编辑

模型链接:

Qwen3-30B-A3B-Instruct-2507:

https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Instruct-2507

Qwen3-30B-A3B-Thinking-2507:

https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Thinking-2507

 

01.模型推理

使用ModelScope SDK推理:

from modelscope import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-30B-A3B-Instruct-2507-FP8"
# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=16384
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 
content = tokenizer.decode(output_ids, skip_special_tokens=True)
print("content:", content)

image.gif

对于部署,可以使用 sglang>=0.4.6.post1 或 vllm>=0.8.5 来创建一个与 OpenAI 兼容的 API 端点:

  • SGLang:
SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server --model-path Qwen/Qwen3-30B-A3B-Instruct-2507-FP8 --context-length 262144

image.gif

  • vLLM:
VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3-30B-A3B-Instruct-2507-FP8 --max-model-len 262144

image.gif

 

02.模型微调

我们介绍使用ms-swift对Qwen3-30B-A3B-Instruct-2507进行自我认知LoRA微调。你需要准备2*80GiB的显卡资源。ms-swift是魔搭社区官方提供的大模型与多模态大模型训练部署框架。

ms-swift开源地址:https://github.com/modelscope/ms-swift

在开始微调之前,请确保您的环境已准备妥当。

git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e .

image.gif

微调数据集准备格式如下(system字段可选),在训练脚本中指定`--dataset <dataset_path>`即可。

{"messages": [{"role": "user", "content": "浙江的省会在哪?"}, {"role": "assistant", "content": "浙江的省会在杭州。"}]}

image.gif

使用transformers

显存占用:60GiB;训练速度:185s/it

训练脚本:

# Manually select `target_modules` to avoid 'all-linear' selecting 'gate'
CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model Qwen/Qwen3-30B-A3B-Instruct-2507 \
    --train_type lora \
    --dataset 'swift/Chinese-Qwen3-235B-2507-Distill-data-110k-SFT#2000' \
              'swift/self-cognition#1000' \
    --torch_dtype bfloat16 \
    --num_train_epochs 1 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --learning_rate 1e-4 \
    --lora_rank 8 \
    --lora_alpha 32 \
    --target_modules q_proj k_proj v_proj o_proj gate_proj up_proj down_proj \
    --gradient_accumulation_steps 16 \
    --eval_steps 50 \
    --save_steps 50 \
    --save_total_limit 2 \
    --logging_steps 5 \
    --max_length 2048 \
    --output_dir output \
    --system 'You are a helpful assistant.' \
    --warmup_ratio 0.05 \
    --dataloader_num_workers 4 \
    --model_author swift \
    --model_name swift-robot

image.gif

 

使用megaron

对megatron相关依赖的安装以及HF与MCore权重格式转换可以查看megatron-swift训练文档(可直接使用镜像):https://swift.readthedocs.io/zh-cn/latest/Instruction/Megatron-SWIFT%E8%AE%AD%E7%BB%83.html

显存占用:2*50GiB,训练速度:6s/(gpu*it)

训练脚本:

PYTORCH_CUDA_ALLOC_CONF='expandable_segments:True' \
CUDA_VISIBLE_DEVICES=0,1 \
NPROC_PER_NODE=2 \
megatron sft \
    --load Qwen3-30B-A3B-Instruct-2507-mcore \
    --dataset 'swift/Chinese-Qwen3-235B-2507-Distill-data-110k-SFT#2000' \
              'swift/self-cognition#1000' \
    --train_type lora \
    --lora_rank 8 \
    --lora_alpha 32 \
    --target_modules all-linear \
    --split_dataset_ratio 0.01 \
    --expert_model_parallel_size 2 \
    --moe_grouped_gemm true \
    --moe_shared_expert_overlap true \
    --moe_aux_loss_coeff 1e-3 \
    --micro_batch_size 8 \
    --global_batch_size 16 \
    --recompute_granularity full \
    --recompute_method uniform \
    --recompute_num_layers 1 \
    --max_epochs 1 \
    --finetune true \
    --cross_entropy_loss_fusion true \
    --lr 1e-4 \
    --lr_warmup_fraction 0.05 \
    --min_lr 1e-5 \
    --save megatron_output/Qwen3-30B-A3B-Instruct-2507 \
    --eval_interval 200 \
    --save_interval 200 \
    --max_length 2048 \
    --num_workers 8 \
    --dataset_num_proc 8 \
    --no_save_optim true \
    --no_save_rng true \
    --sequence_parallel true \
    --attention_backend flash \
    --model_author swift \
    --model_name swift-robot

image.gif

训练完成后,使用以下命令进行推理:

# 使用transformers训练最终会产生lora增量权重,请使用`--adapters output/vx-xxx/checkpoint-xxx`推理
# 使用megatron训练会在mcore->hf环节merge-lora,请使用`--model output/vx-xxx/checkpoint-xxx`推理
CUDA_VISIBLE_DEVICES=0 \
swift infer \
    --model output/vx-xxx/checkpoint-xxx \
    --infer_backend vllm \
    --stream true \
    --vllm_max_model_len 8192 \
    --max_new_tokens 2048

image.gif

推送模型到ModelScope:

swift export \
    --adapters output/vx-xxx/checkpoint-xxx \
    --push_to_hub true \
    --hub_model_id '<your-model-id>' \
    --hub_token '<your-sdk-token>'

image.gif

点击阅读原文,即可跳转模型链接~

https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Instruct-2507

目录
相关文章
|
6天前
|
存储 人工智能 NoSQL
用Context Offloading解决AI Agent上下文污染,提升推理准确性
上下文工程是将AI所需信息(如指令、数据、工具等)动态整合到模型输入中,以提升其表现。本文探讨了“上下文污染”问题,并提出“上下文卸载”策略,通过LangGraph实现,有效缓解长文本处理中的信息干扰与模型幻觉,提升AI代理的决策准确性与稳定性。
51 2
用Context Offloading解决AI Agent上下文污染,提升推理准确性
|
4月前
|
自然语言处理 测试技术 开发工具
通义灵码上下文能力解析:自由组合需求描述,生成结果更高效
通义灵码提供智能会话能力,支持智能问答、文件编辑和智能体三种模式,帮助开发者解决编码问题,进行代码修复、调试及运行错误排查。它具备多文件修改、自主决策等能力,可端到端完成编码任务。在智能会话中,支持丰富的上下文(如代码文件、目录、图片、Git Commit 等),并允许用户自由组合提示词与上下文。插件可通过链接下载。此外,还支持多种上下文类型(#file、#folder、#image 等),便于开发者精准表达需求。
|
7月前
|
机器学习/深度学习 并行计算 API
Qwen2.5-1M: 支持100万Tokens上下文的开源Qwen模型
两个月前,Qwen团队升级了 Qwen2.5-Turbo,使其支持最多一百万个Tokens的上下文长度。今天,Qwen正式推出开源的 Qwen2.5-1M 模型及其对应的推理框架支持。
1371 28
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型新资讯】从信息蜂房到上下文工程
1. **信息蜂房**:借鉴“信息茧房”概念,倡导多元交流与群体智慧,推动内容生态协同发展。 2. **ROLL**:高效强化学习库,专为大语言模型优化,提升训练效率与多场景应用能力。 3. **AI游戏引擎**:以AI驱动生成式游戏,实时响应玩家想象,重塑游戏创作与体验方式。 4. **质陪解决方案**:融合AI质检与陪练系统,全面评估销售行为,助力企业提升服务质量与销售能力。 5. **上下文工程**:构建动态信息环境,为大模型提供任务所需完整背景,决定AI智能体成败关键。
|
4月前
|
传感器 测试技术 开发工具
通义灵码添加上下文能力怎么用?一篇看懂
Qwen3系列混合推理模型已全面开源,其中Qwen3-235B-A22B在多项测试中表现卓越。通义灵码现已支持Qwen3,并上线编程智能体,具备自主决策与工具使用能力,可完成编码任务。开发者可通过多种方式添加上下文(如代码文件、图片、Git提交等),增强交互效果。体验地址:https://lingma.aliyun.com/download。
390 35
|
5月前
|
人工智能 中间件 程序员
大模型上下文协议 MCP 带来了哪些货币化机会
本文探讨了MCP(Model-Calling Protocol)的兴起及其对AI生态的影响。自2月中旬起,MCP热度显著提升,GitHub Star和搜索指数均呈现加速增长趋势。MCP通过标准化协议连接大模型与外部工具,解决了碎片化集成问题,推动AI应用货币化及生态繁荣。文章分析了MCP与Function Calling的区别,指出MCP更适用于跨平台、标准化场景,而Function Calling在特定实时任务中仍具优势。此外,MCP促进了 supply端(如云厂商、大模型、中间件服务商)和消费端(终端用户)的变革,尤其以Devin和Manus为代表,分别改变了程序员和普通用户的交互方式。
713 37
大模型上下文协议 MCP 带来了哪些货币化机会
|
4月前
|
前端开发 JavaScript API
体验通义灵码2.5版本上下文工程目录及多文件选择
体验通义灵码2.5版本上下文工程目录及多文件选择
297 11
|
9月前
|
自然语言处理 NoSQL API
基于百炼平台qwen-max的api 打造一套 检索增强 图谱增强 基于指令的智能工具调用决策 智能体
基于百炼平台的 `qwen-max` API,设计了一套融合检索增强、图谱增强及指令驱动的智能工具调用决策系统。该系统通过解析用户指令,智能选择调用检索、图谱推理或模型生成等工具,以提高问题回答的准确性和丰富性。系统设计包括指令解析、工具调用决策、检索增强、图谱增强等模块,旨在通过多种技术手段综合提升智能体的能力。
645 5
|
5月前
|
机器学习/深度学习 人工智能 编解码
月之暗面开源16B轻量级多模态视觉语言模型!Kimi-VL:推理仅需激活2.8B,支持128K上下文与高分辨率输入
月之暗面开源的Kimi-VL采用混合专家架构,总参数量16B推理时仅激活2.8B,支持128K上下文窗口与高分辨率视觉输入,通过长链推理微调和强化学习实现复杂任务处理能力。
372 5
月之暗面开源16B轻量级多模态视觉语言模型!Kimi-VL:推理仅需激活2.8B,支持128K上下文与高分辨率输入
|
5月前
|
机器学习/深度学习 编解码 缓存
通义万相2.1首尾帧模型开源!细节真实生动+过渡丝滑,指令遵循表现出色!
通义万相2.1首尾帧模型开源!细节真实生动+过渡丝滑,指令遵循表现出色!
743 7

热门文章

最新文章