临近年关,本着“ 每逢佳节必更新 ”的原则,开源模型预计又将拉开春节炸场的大幕。从“小道消息”来看,GLM,Qwen,MiniMax,DeepSeek……都在跃跃欲试 😁。虽然我们也想说“今年的班是就上到这里了”,这里也先行奉上ModelScope年前的发布月报,但不出意外的话,还有更多的优秀开源模型,会赶在春节期间在ModelScope上与大家见面 🤔。
✨【模型年货集体上新】
MiniMax2.1、GLM-4.7、Kimi-K2.5等基模霸屏,Qwen3-Next-Coder在代码与Agent方面推出开发者友好的新模型,OCR领域更是百度/DeepSeek/GLM/腾讯组团开卷 ~
🎨【AIGC创作力爆棚】
黑森林Flux.2-Klein生编一体,Z-Image非蒸馏版终于来了!Qwen生图全家桶加GLM-Image也粉墨登场~ 社区LoRA生态持续繁荣,魔搭的i2L黑科技让图生LoRA一键搞定,创作党狂喜💥
🤖【语音&具身双开花】
Qwen3用TTS+ASR给3.0系列完美收官,Ace-Step-v1.5成音乐生成新顶流~最惊喜是蚂蚁灵波开源周!Depth/VLA/世界模型全链路SOTA,具身智能终于能“动手”了👏
🌱【生态基建升级】
ModelScope完善Agentic工具链并开放OpenAPI与OAuth能力,链接广泛开源生态,AlphaFold3蛋白质推理上线科学专区,国际站功能全面对齐~“基础设施即代码”真的要来了!
🎪【线下温度拉满】
800+队伍的公益创新赛,环球黑客松杭州站75支战队脑暴收官,高校联赛热火朝天进行中 ~技术不止硬核,更有烟火气❤️
✨模型发布
在这一波“迎新春”的活动之前,过去一个月里,开源的浪潮依旧是此起彼伏。以至于我们在回顾过去一个多月开源的模型的时候,隐约竟有了一点“报菜名”的感觉。而我们也欣喜的看到,除了社区中熟悉持续活跃的名字以外,过去一个月我们也看到了更多新的模型玩家发布的模型,以及一些之前的老朋友重新加入了开源的序列。
在基础大模型方面,MiniMax2.1、GLM-4.7(以及Flash版本)和Kimi-K2.5,无疑是过去一个多月中,大规格基模的接触代表,每个模型的发布,都在全球收获了大量的关注。来自小米MiMo-V2-Flash,美团的Longcat-Flash系列,同样引起了社区广泛的讨论,而Step-3.5-Flash的发布,则让阶跃这一“老牌”模型玩家重新回到大家的视野中。Qwen3-Coder-Next在Qwen3-Next架构上提供了强大的代码和agent能力。除此之外,书生推出了足有1T规格的Intern-S1-Pro科学模型,全面支持各个科学学科的AI4S工作。而在视觉理解方面,基于VL的OCR模型,无疑为OCR这一经典的生产任务开辟了新的探索空间。包括DeepSeek-OCR-v2,Paddle-OCR-VL-1.5,GLM-OCR以及腾讯的Youtu-Parsing的一系列模型的接连开源,带来了社区广泛的讨论和比较。另一方面,面壁则推出了MiniCPM-4.5全模态模型,探索同时覆盖“听说想”等领域的全模态理解。
在生图领域,黑森林推出了 Flux.2-Klein 系列,支持生成编辑一体的多规格模型。而Z-Image也终于在上个月推出了非蒸馏版本,为模型的训练和生成多样性提供了更好的支持,ModelScope的AIGC专区,也针对这些模型提供了对应的支持。此外来自Qwen团队的Qwen-Image-Edit2511,Qwen-Image-2512,Qwen-Image-Layered等一系列模型,以及来自智谱的GLM-Image,也纷纷粉墨登场。基于这些生图模型的LoRA生态,也继续持续繁荣,开发者的AIGC专区上训练出的LoRA,继续在全球范围产生较广的影响力,而魔搭基于DiffSynth框架探索的i2L(image-to-LoRA),In-Context-Edit等方向,也收到了大家的欢迎。
过去一个月中,语音领域也热闹非凡。Qwen团队用Qwen-3 TTS,Qwen3-ASR等系列,给Qwen3全系列家族,画下一个完整的句号,让我们更加期待Qwen-3.5的发布。来自智谱的GLM-TTS,以及微软的VibeVoice-ASR等模型,也在社区获得了较好的欢迎。而Ace-Step-v1.5则在音乐生成领域独辟蹊径,成为社区最好的音乐生成模型之一。
而在具身智能领域,蚂蚁灵波给了大家最大的惊喜。在灵波开源周中,连续推出了灵波的一系列具身智能模型,覆盖了包括Depth,VLA,世界模型,VA等在内的全链路具身智能模型,以及相匹配的一系列开源数据。其中许多模型都已经达到了SOTA以及可以实际使用的水平,我们也期望这些模型的开源,能更好推进具身智能生态的发展。
🌱社区生态
与模型生态相辅相成的,是Agentic工具和应用生态的蓬勃发展。从Skills到Cowork再到“龙虾”(OpenClaw, aka Clawdbot/Moldbot)生态的兴起,模型和工具应用相结合的生态和潜力正在被进一步深挖,让大家对于新的一年里,模型能力真正的全方面落地有了更多的期待。ModelScope围绕开源agent生态,一方面基于ms-agents开源项目,持续为MCP/skills以及上层deepresearch/coding等能力的集成提供框架支持;另一方面,我们也将这些agentic的能力,用到了站点的方方面面,包括MCP试验场能力的不断延展,此外我们正在将相关能力应用到AIGC专区,实现Agentic生图,方便开发者更好的与社区海量的AIGC模型与LoRA互动,预计会在节后和大家相见。
而在科学专区,我们上线了基于AlphaFold3的蛋白质推理应用能力,让更多生物领域的同学,也可以来到ModelScope愉快地玩AI。
同时为了进一步推动ModelScope的核心生态能力,更便捷地与多元化下游生态进行集成,在Agentic AI 时代来临的时候,真正实现“基础设施即代码”。我们正式将ModelScope的基础平台能力,通过OpenAPI 标准接口开放,并推出了平台的OAuth授权服务。通过全方面的开放,我们希望 ModelScope 能更好承接中国乃至全球 AI 模型开源的底层基座的作用,服务最广泛的AI开源生态。
我们的国际站(modelscope.ai/)功能,包括AIGC专区(Civision)等,功能整体对齐了cn主战。魔搭正在带着更多的模型走向海外和全球。
🎪线下活动
过去一个月,我们成功完成了“小有可为”AI开源公益创新挑战赛,这是一个涉及800多支参赛队伍的温暖的公益AI活动,让我们看到技术与AI最有温度的时刻。同时首届环球黑客松 杭州站也圆满结束,来自各地的75支队伍在云谷中心相遇,为这次奇妙的创造之旅划下句点,也为下一次的相遇做好了准备。与此同时,魔搭的AI Hackton 2026高校联赛也正在如火如荼的进行中,本次联赛的决赛将在南京举办,届时我们也会在南京举办线下大会,期望和更多开发者在线下的相遇。
🧧One More Thing
马上在ModelScope平台服务和开源工具链上,我们即将开放的一个新项目,这里暂时卖个关子,先 ㊗️ 大家新春快乐!
· 站点服务更新
1. ModelScope 核心 Hub OpenAPI 上线(https://modelscope.cn/docs/openapi)。为模型/数据集提供 get以及list(带过滤参数)的核心API接口,推进平台整体的更加全面开放,支持ModelScope作为中国AI开源的基座,更方便的被外围生态所集成。
2. ModelScope互联应用全面支持 OAuth 2.0 与 OIDC(OpenID Connect)身份认证协议,方便开发者通过标准流程快速接入Oauth:https://modelscope.cn/docs/accounts/oauth
3. ModelScope Gallery(灵感流)新板块上线:https://modelscope.cn/gallery ,支持社区内容更好的分享。
4. 创空间优化升级发布,支持页面上传空间文件,并提供发布参数的配置文件化支持,为后续创空间应用对接大模型/vibe coding生态做前置准备。
5. API-Provider (文档)上线,打通平台免费API-Inference生态与外部产品化以及云化的API供应的链接。
6. AIGC图片发布,支持自动生成 caption(添加AI生成提示)。
7. PC端所有模型,支持综合讨论。移动端完成综合讨论改造
8. 论文支持(非作者)自主提交
9. MCP Playground上线记忆功能,包括记忆的自动生成以及管理等能力
10. Embedding 模型支持基于API-Inference的页面体验
11. 数据集README页面编辑组件上线
12. Gallery 后端率先支持新版 Notebook 实现,包括自带编辑与运行时分离功能
13. API-inference生图接口支持base64图片输入
14. SwingDeploy提供部署的自定义参数支持
15. AIGC生图和训练界面,模型卡片配置为可点击位
16. 各社区版块(论文,研习社等),增加返回板块首页入口
17. 「我创建的」&「我收藏的」页面支持「全部」品类 tab和个数展示,并置为默认入口
18. 合集URL改造,默认去除UUID后缀
19. AIGC的基础模型子类型支持上线,支持同款生图等场景能准确选中基础模型。同时,选中Checkpoint模型及Lora模型支持点击跳转查看模型详情页
· 开源工具链更新
1. SWIFT 3.12版本发布,4.0大版本重构中,敬请期待
- Megatron训练中添加GKD算法的支持, Mcore-Bridge 加载和存储方式切换为默认,save_safetensors 支持断点续训。非 padding-free 训练模式支持更多训练阶段:GRPO/DPO/KTO/RM/序列分类。group_by_length、 train_dataloader_shuffle、report_to 等参数支持,用于加速非packing模式下训练速度,控制训练数据集随机性以及完善可视化能力。
- RL方面,支持Off-Policy Sequence Masking,完善GRPO/GKD下的参数配置以及loss计算逻辑,统一支持ipv6寻址。添加structured_outputs_regex 结构化输出采样的支持。
- 训练框架方面, embedding/reranker/序列分类任务支持序列 packing 和序列并行,添加fsdp2支持。实现多样化loss_scale并支持混用。
- 国产硬件支持方面,提供更丰富的训练脚本并支持Qwen3-VL 混合算子支持,完善了NPU 性能采集/精度采集相关文档。
- ms-agent 1.6.0(rc版本)发布:重构skills能力支持,添加WebUI支持各项垂直组件能力,DeepResearch能力重构与优化。
- EvalScope 1.4版本发布。添加了服务化API能力,提供更灵活的服务调用方式。支持了Embedding 和 Rerank 模型的性能测试。沙箱支持连接池(pool)和 MultiplE 多语言代码评测。Dashboard 支持 HTTP params 参数配置,并更新 tqdm 进度显示机制。新增 SLA 性能自动调优能力,并对本地 JSONL 数据集加载进行了优化。EQ-Bench、ZebraLogicBench、 MultiplE、MBPP、FLEURS、LibriSpeech 等一系列覆盖推理与逻辑、代码、语音等评测基准。
- DiffSynth:为包括Z-Image,Qwen-Image系列( Qwen-Image-2512、Qwen-Image-Edit-2511),Flux2-Klein系列、LTX-2等模型,提供推理和训练能力接入。训练与发布基于Qwen-Image和Z-Image模型的Image2LoRA。