📌 国庆假期刚过🔚,AI圈却一点没闲着🔥 DeepSeek、GLM、百灵接连上新,万亿参数、Agentic能力、高效推理全都在卷 🌀
🎨 Qwen3-VL、Hunyuan-Image 3.0、Wan2.2 Animate 多模态齐发力,视觉理解&生成全面升级📸✨
🚀 云栖大会魔搭三连发🎉:国际站🌍、科学智能专区🔬、AIGC神器 FlowBench 💻,开发者工具箱直接拉满!
🤝 还有超暖的“搭友之夜”🌙 + 开发者面基,开源社区越来越有爱❤️~一起把生态做得更好吧!
愉快的“漫长”国庆假期过去了,然而对于模型的发展和迭代而言,似乎没有假期和停歇:除了节前集中出货的几家头部模型以外,还有一些选手在假期期间还在悄咪咪的搞发布(这里就不点名了哈)。本月的ModelScope月报,先带着大家再回顾一下,过去一个月里开源模型社区里的进展。
首先当然是小鲸鱼DeepSeek在发布DeepSeek-V3.1-Terminus给V3.1系列划上句点之后,又迅速跟进了DeepSeek-V3.2-Exp,持续在模型架构和算法工程结合的路上进行向前的探索。和上个月的Qwen3-Next相似,这些在模型架构和推理效率方面进行联合设计的创新,对模型的高效使用和普及有着重要的意义。此外GLM-4.6模型的发布,在Agentic和工具调用等方面能力的完善,同样给开发者带来了大的惊喜。蚂蚁百灵系列,最近进行了一系列密集的开源发布,出手就是Ling-1T和Ring-1T-Preview等万亿参数规模的模型。同时社区也欢迎科大讯飞等新朋友加入模型开源的队伍,而上个月开始开源的美团龙猫,本月也更新了LongCat-Flash的Thinking版本。除了基础模型之外,一些垂直领域的模型的开源,也引起了了大家广泛的关注。比如Tonyi-DeepResearch模型的发布,在DeepResearch领域追赶并超越了众多闭源模型以及解决方案。
多模态方面,全网关注的Qwen-VL系列,终于在节前为我们带来了全新的Qwen3-VL升级,开源视觉理解模型能力又上新台阶。在视觉生成方面,Hunyuan-Image发布了3.0版本,模型规模直接打到80B,带来了效果大幅度提升。同时Wan2.2系列则推出了新的Animate版本。此外,Qwen3-Omni在全模态方面又往前走了一步,期望这方面的探索能带来模型在多方面能力的互补。
平台建设方面,在刚刚过去的云栖大会上,我们推出了3连发发布:首先为了更好支持海外的用户,魔搭的国际站版本(modelscope.ai)正式发布,欢迎来自国内和国外的开发者都使用反馈;此外通过科学智能专区(modelscope.cn/nexa)的建设,社区和广大科学领域的研究者联手,共同探索AI在科学领域的潜力;最后面向AIGC创作者的客户端工具FlowBench正式版本也对外推出,支持本地和云上模型服务的联动,解锁更多生成式模型与工作流的玩法。当然除了一系列的发布,在云栖大会上,我们也与众多的开发者在展区和专场中,进行了热烈而愉快的面基交流,同时首届在露天举办的“没有天花板的”搭友之夜也完满收官。我们听到了来自更多开发者真实的反馈和期望,也希望和大家一起,把社区建设得更好。
· 站点更新
1. 魔搭国际站(modelscope.ai)正式发布
2. ModelScope FlowBench客户端正式版发布:https://www.modelscope.cn/learn/1426
3. AIGC专区上新
- Qwen-Image系列支持ControlNet生图
- AIGC专区训练流程,支持用户绑定云资源进行付费训练
- 支持Qwen-Image-Edit-v2509多图编辑推理
4. MCP支持鉴权选项。
5. SwingDeploy模型部署样式更新
6. SwingDeploy部署支持自动推荐部署使用的推理引擎、机型以及对应服务
7. 社区各处用户昵称展示优化
8. 科学智能专区发布 https://modelscope.cn/nexa/
9. 魔搭(杭州)开发者中心落成,欢迎广大开发者来玩!
· 开源SDK与工具链更新
1. SWIFT 3.9.0 版本发布。
- Megatron-SWIFT提供了支持主流模型的支持,包括Qwen3-VL, Qwen3-Omni, Qwen3-Next, Kimi-VL, InternVL3.5-HF等。支持了KTO训练以及RM训练。提供对序列分类模型的支持,涵盖regression、single_label_classification、multi_label_classification等任务。添加VPP并行支持,并支持异构PP。
- 通过ulysses 和 ring-attention 混合的序列并行优化,支持更长的序列处理能力。纯文本及多模态模型Embedding/Reranker/序列分类任务训练支持使用 padding_free ,同时完成了Embedding和Reranker训练数据集格式重构。添加Reranker和序列分类任务的推理/部署支持。
- GRPO支持CHORD算法,实现在GRPO训练中混合SFT。GRPO训练中padding_free重构,更好支持多模态模型。 KTO支持padding free和packing以节约显存资源并加速训练
- 新模型支持方面,持续添加对于新发布模型等支持,包括Qwen3-Next-80B-A3B-Instruct,GLM-4.6,Ling-mini-2.0/Ring-mini-2.0,Tongyi-DeepResearch-30B-A3B,ERNIE-4.5-21B-A3B-Thinking等LLM,以及Qwen3-VL-30B-A3B-Instruct,Qwen3-Omni-30B-A3B-Instruct,/Keye-VL-1_5-8B,InternVL3_5,Step-Audio-2-mini等多模态大模型。
2. EvalScope发布1.1版本。支持在沙箱环境中运行代码评测benchmark(通过安装ms-enclave)。支持包括OCRBench, OCRBench-v2, DocVQA, InfoVQA, ChartQA, BLINK 在内的多个图文多模态评测基准。编写Qwen3-Omni和Qwen3-VL模型评测最佳实践。 对于项目依赖管理,切换为使用pyproject.toml安装。
3. ModelScope主库1.31版本发布。 支持 AIGC 模型“官方标签”的配置,修复从hub加载tokenizer所需文件列表的问题。完善对model_revision 检查的超时逻辑,并更新了ms-swift docker构建的流程。
4. ms-agent: DeepResearch支持多模态带图标的报告生成,并对格式错误自动修正等功能进行完善。完整版workflo支持了human feedback,递归搜索,异步调用等新能力。memory管理支持历史msg编辑能力,memory分级存储功能支持中。提供对于Claude4.5模型的支持。
5. DiffSynth:支持Qwen-Image distill ,Qwen-Image-Edit-2509 多图编辑等模型以及新功能。Wan 2.2-VACE-Fun以及Wan2.2-Animate 模型接入完成。FlowBench的DiffySynth-Studio节点包开发完成。针对电商海报场景的分区控制模型Qwen-Image-EliGen-Poster完成训练并开源发布。