ModelScope魔搭社区发布月报 -- 26年2月

简介: 临近年关,ModelScope迎来春节模型发布潮:Qwen3、GLM-4.7、MiniMax M2.1等大模型密集上新;AIGC生图、语音合成、具身智能全面突破;OpenAPI、OAuth、Gallery等生态基建同步升级,加速AI开源普惠。(239字)

临近年关,本着“ 每逢佳节必更新 ”的原则,开源模型预计又将拉开春节炸场的大幕。从“小道消息”来看,GLM,Qwen,MiniMax,DeepSeek……都在跃跃欲试 😁。虽然我们也想说“今年的班是就上到这里了”,这里也先行奉上ModelScope年前的发布月报,但不出意外的话,还有更多的优秀开源模型,会赶在春节期间在ModelScope上与大家见面 🤔。

✨【模型年货集体上新】

MiniMax2.1、GLM-4.7、Kimi-K2.5等基模霸屏,Qwen3-Next-Coder在代码与Agent方面推出开发者友好的新模型,OCR领域更是百度/DeepSeek/GLM/腾讯组团开卷 ~

🎨【AIGC创作力爆棚】

黑森林Flux.2-Klein生编一体,Z-Image非蒸馏版终于来了!Qwen生图全家桶加GLM-Image也粉墨登场~ 社区LoRA生态持续繁荣,魔搭的i2L黑科技让图生LoRA一键搞定,创作党狂喜💥

🤖【语音&具身双开花】

Qwen3用TTS+ASR给3.0系列完美收官,Ace-Step-v1.5成音乐生成新顶流~最惊喜是蚂蚁灵波开源周!Depth/VLA/世界模型全链路SOTA,具身智能终于能“动手”了👏

🌱【生态基建升级】

ModelScope完善Agentic工具链并开放OpenAPI与OAuth能力,链接广泛开源生态,AlphaFold3蛋白质推理上线科学专区,国际站功能全面对齐~“基础设施即代码”真的要来了!

🎪【线下温度拉满】

800+队伍的公益创新赛,环球黑客松杭州站75支战队脑暴收官,高校联赛热火朝天进行中 ~技术不止硬核,更有烟火气❤️


✨模型发布

在这一波“迎新春”的活动之前,过去一个月里,开源的浪潮依旧是此起彼伏。以至于我们在回顾过去一个多月开源的模型的时候,隐约竟有了一点“报菜名”的感觉。而我们也欣喜的看到,除了社区中熟悉持续活跃的名字以外,过去一个月我们也看到了更多新的模型玩家发布的模型,以及一些之前的老朋友重新加入了开源的序列。

在基础大模型方面,MiniMax2.1、GLM-4.7(以及Flash版本)和Kimi-K2.5,无疑是过去一个多月中,大规格基模的接触代表,每个模型的发布,都在全球收获了大量的关注。来自小米MiMo-V2-Flash,美团的Longcat-Flash系列,同样引起了社区广泛的讨论,而Step-3.5-Flash的发布,则让阶跃这一“老牌”模型玩家重新回到大家的视野中。Qwen3-Coder-Next在Qwen3-Next架构上提供了强大的代码和agent能力。除此之外,书生推出了足有1T规格的Intern-S1-Pro科学模型,全面支持各个科学学科的AI4S工作。而在视觉理解方面,基于VL的OCR模型,无疑为OCR这一经典的生产任务开辟了新的探索空间。包括DeepSeek-OCR-v2,Paddle-OCR-VL-1.5,GLM-OCR以及腾讯的Youtu-Parsing的一系列模型的接连开源,带来了社区广泛的讨论和比较。另一方面,面壁则推出了MiniCPM-4.5全模态模型,探索同时覆盖“听说想”等领域的全模态理解。

在生图领域,黑森林推出了 Flux.2-Klein 系列,支持生成编辑一体的多规格模型。而Z-Image也终于在上个月推出了非蒸馏版本,为模型的训练和生成多样性提供了更好的支持,ModelScope的AIGC专区,也针对这些模型提供了对应的支持。此外来自Qwen团队的Qwen-Image-Edit2511,Qwen-Image-2512,Qwen-Image-Layered等一系列模型,以及来自智谱的GLM-Image,也纷纷粉墨登场。基于这些生图模型的LoRA生态,也继续持续繁荣,开发者的AIGC专区上训练出的LoRA,继续在全球范围产生较广的影响力,而魔搭基于DiffSynth框架探索的i2L(image-to-LoRA),In-Context-Edit等方向,也收到了大家的欢迎。

过去一个月中,语音领域也热闹非凡。Qwen团队用Qwen-3 TTS,Qwen3-ASR等系列,给Qwen3全系列家族,画下一个完整的句号,让我们更加期待Qwen-3.5的发布。来自智谱的GLM-TTS,以及微软的VibeVoice-ASR等模型,也在社区获得了较好的欢迎。而Ace-Step-v1.5则在音乐生成领域独辟蹊径,成为社区最好的音乐生成模型之一。

而在具身智能领域,蚂蚁灵波给了大家最大的惊喜。在灵波开源周中,连续推出了灵波的一系列具身智能模型,覆盖了包括Depth,VLA,世界模型,VA等在内的全链路具身智能模型,以及相匹配的一系列开源数据。其中许多模型都已经达到了SOTA以及可以实际使用的水平,我们也期望这些模型的开源,能更好推进具身智能生态的发展。


🌱社区生态

与模型生态相辅相成的,是Agentic工具和应用生态的蓬勃发展。从Skills到Cowork再到“龙虾”(OpenClaw, aka Clawdbot/Moldbot)生态的兴起,模型和工具应用相结合的生态和潜力正在被进一步深挖,让大家对于新的一年里,模型能力真正的全方面落地有了更多的期待。ModelScope围绕开源agent生态,一方面基于ms-agents开源项目,持续为MCP/skills以及上层deepresearch/coding等能力的集成提供框架支持;另一方面,我们也将这些agentic的能力,用到了站点的方方面面,包括MCP试验场能力的不断延展,此外我们正在将相关能力应用到AIGC专区,实现Agentic生图,方便开发者更好的与社区海量的AIGC模型与LoRA互动,预计会在节后和大家相见。

而在科学专区,我们上线了基于AlphaFold3的蛋白质推理应用能力,让更多生物领域的同学,也可以来到ModelScope愉快地玩AI。

同时为了进一步推动ModelScope的核心生态能力,更便捷地与多元化下游生态进行集成,在Agentic AI 时代来临的时候,真正实现“基础设施即代码”。我们正式将ModelScope的基础平台能力,通过OpenAPI 标准接口开放,并推出了平台的OAuth授权服务。通过全方面的开放,我们希望 ModelScope 能更好承接中国乃至全球 AI 模型开源的底层基座的作用,服务最广泛的AI开源生态。

我们的国际站(modelscope.ai/)功能,包括AIGC专区(Civision)等,功能整体对齐了cn主战。魔搭正在带着更多的模型走向海外和全球。


🎪线下活动

过去一个月,我们成功完成了“小有可为”AI开源公益创新挑战赛,这是一个涉及800多支参赛队伍的温暖的公益AI活动,让我们看到技术与AI最有温度的时刻。同时首届环球黑客松 杭州站也圆满结束,来自各地的75支队伍在云谷中心相遇,为这次奇妙的创造之旅划下句点,也为下一次的相遇做好了准备。与此同时,魔搭的AI Hackton 2026高校联赛也正在如火如荼的进行中,本次联赛的决赛将在南京举办,届时我们也会在南京举办线下大会,期望和更多开发者在线下的相遇。


🧧One More Thing

马上在ModelScope平台服务和开源工具链上,我们即将开放的一个新项目,这里暂时卖个关子,先 ㊗️ 大家新春快乐!


· 站点服务更新

1. ModelScope 核心 Hub OpenAPI 上线(https://modelscope.cn/docs/openapi)。为模型/数据集提供 get以及list(带过滤参数)的核心API接口,推进平台整体的更加全面开放,支持ModelScope作为中国AI开源的基座,更方便的被外围生态所集成。



2. ModelScope互联应用全面支持 OAuth 2.0 与 OIDC(OpenID Connect)身份认证协议,方便开发者通过标准流程快速接入Oauth:https://modelscope.cn/docs/accounts/oauth


    3. ModelScope Gallery(灵感流)新板块上线:https://modelscope.cn/gallery ,支持社区内容更好的分享。


4. 创空间优化升级发布,支持页面上传空间文件,并提供发布参数的配置文件化支持,为后续创空间应用对接大模型/vibe coding生态做前置准备。



5. API-Provider (文档)上线,打通平台免费API-Inference生态与外部产品化以及云化的API供应的链接。


    6. AIGC图片发布,支持自动生成 caption(添加AI生成提示)。


    7. PC端所有模型,支持综合讨论。移动端完成综合讨论改造


    8. 论文支持(非作者)自主提交


    9. MCP Playground上线记忆功能,包括记忆的自动生成以及管理等能力



    10. Embedding 模型支持基于API-Inference的页面体验


    11. 数据集README页面编辑组件上线


    12. Gallery 后端率先支持新版 Notebook 实现,包括自带编辑与运行时分离功能            


    13. API-inference生图接口支持base64图片输入


    14. SwingDeploy提供部署的自定义参数支持


    15. AIGC生图和训练界面,模型卡片配置为可点击位


    16. 各社区版块(论文,研习社等),增加返回板块首页入口


    17. 「我创建的」&「我收藏的」页面支持「全部」品类 tab和个数展示,并置为默认入口


    18. 合集URL改造,默认去除UUID后缀


    19. AIGC的基础模型子类型支持上线,支持同款生图等场景能准确选中基础模型。同时,选中Checkpoint模型及Lora模型支持点击跳转查看模型详情页


· 开源工具链更新

1. SWIFT 3.12版本发布,4.0大版本重构中,敬请期待

  • Megatron训练中添加GKD算法的支持, Mcore-Bridge 加载和存储方式切换为默认,save_safetensors 支持断点续训。非 padding-free 训练模式支持更多训练阶段:GRPO/DPO/KTO/RM/序列分类。group_by_length、 train_dataloader_shuffle、report_to 等参数支持,用于加速非packing模式下训练速度,控制训练数据集随机性以及完善可视化能力。
  • RL方面,支持Off-Policy Sequence Masking,完善GRPO/GKD下的参数配置以及loss计算逻辑,统一支持ipv6寻址。添加structured_outputs_regex 结构化输出采样的支持。
  • 训练框架方面, embedding/reranker/序列分类任务支持序列 packing 和序列并行,添加fsdp2支持。实现多样化loss_scale并支持混用。
  • 国产硬件支持方面,提供更丰富的训练脚本并支持Qwen3-VL 混合算子支持,完善了NPU 性能采集/精度采集相关文档。
  • ms-agent 1.6.0(rc版本)发布:重构skills能力支持,添加WebUI支持各项垂直组件能力,DeepResearch能力重构与优化。
  • EvalScope 1.4版本发布。添加了服务化API能力,提供更灵活的服务调用方式。支持了Embedding 和 Rerank 模型的性能测试。沙箱支持连接池(pool)和 MultiplE 多语言代码评测。Dashboard 支持 HTTP params 参数配置,并更新 tqdm 进度显示机制。新增 SLA 性能自动调优能力,并对本地 JSONL 数据集加载进行了优化。EQ-Bench、ZebraLogicBench、 MultiplE、MBPP、FLEURS、LibriSpeech  等一系列覆盖推理与逻辑、代码、语音等评测基准。
  • DiffSynth:为包括Z-Image,Qwen-Image系列( Qwen-Image-2512、Qwen-Image-Edit-2511),Flux2-Klein系列、LTX-2等模型,提供推理和训练能力接入。训练与发布基于Qwen-Image和Z-Image模型的Image2LoRA。


目录
相关文章
|
22天前
|
机器学习/深度学习 自然语言处理 搜索推荐
蚂蚁百灵全模态 Ming-flash-omni-2.0 开源!视觉百科+可控语音生成+全能型图像编辑,打破全模态“博而不精”
2月11日,蚂蚁百灵团队开源全模态大模型Ming-flash-omni-2.0(基于Ling-2.0 MoE架构),在视觉理解、语音交互与图像编辑三大领域实现代际跃迁,达开源领先水平。支持多模态统一生成与深度编辑,模型权重与代码已开放。
405 4
 蚂蚁百灵全模态 Ming-flash-omni-2.0 开源!视觉百科+可控语音生成+全能型图像编辑,打破全模态“博而不精”
|
23天前
|
JSON 人工智能 自然语言处理
[大模型实战 05] 大模型实战的杀手锏: 模型微调
本文通过Kaggle实操对比Base与Instruct模型,图解大模型预训练→指令微调→人类对齐三阶段演进,并厘清Prompt工程、RAG(注知识)与微调(塑性格)的技术边界与选型策略,助你科学决策模型优化路径。
|
22天前
|
人工智能 API 对象存储
Seedance vs Sora vs Kling:AI 视频生成模型深度对比
本文深度解析Sora、Kling、Runway Gen-3、Seedance等主流文生视频模型的底层原理、性能差异与生产适配性,直击开发者选型难、API碎片化、成本失控三大痛点,提供统一接入方案、智能路由策略与高并发部署实战指南。(239字)
|
22天前
|
存储 自然语言处理 搜索推荐
RAG 应用 —— 解锁大模型在各行业的落地场景与价值
RAG(检索增强生成)技术通过实时接入行业知识库,有效解决大模型知识过时、易幻觉、难适配等痛点,已在金融、医疗、教育、法律、电商五大领域规模化落地,显著提升准确性、合规性与响应效率,成为大模型行业应用的首选路径。(239字)
|
23天前
|
存储 数据采集 人工智能
大模型微调常见术语解析:新手也能看懂的入门指南
本文通俗解析大模型微调核心术语:涵盖预训练模型、LoRA/QLoRA等轻量方法、学习率/批次大小等训练参数,以及过拟合、数据投毒等效果与安全要点,助新手快速入门并安全实践。(239字)
|
25天前
|
缓存 自然语言处理 API
美团开源 LongCat-Flash-Lite:实现轻量化 MoE 高效推理
美团LongCat团队开源68.5B MoE大模型LongCat-Flash-Lite,创新采用N-gram Embedding架构,推理仅激活2.9B–4.5B参数,却在Agent工具调用、代码生成等任务上大幅领先;支持256K长上下文,API生成速度达500–700 token/s,MIT协议开源。
350 6
|
23天前
|
人工智能 JSON 自然语言处理
Agent Skills 究竟是什么?从玩具到工程化的必经之路
AI应用开发正从“Prompt驱动”迈向“技能驱动”。本文详解Agent Skills标准化实践:以Claude Code Skills为范本,用SKILL.md实现自描述技能;借MCP协议统一多源工具调用,解决兼容与安全难题;结合DeepSeek+OpenAI实战,展现可插拔、可审计、可演进的工业级Agent构建路径。
|
23天前
|
数据采集 人工智能 达摩院
达摩院开源RynnBrain:首个支持移动操作的具身大脑基础模型
达摩院发布首个可移动操作的具身基础模型RynnBrain,首创时空记忆与物理空间推理能力,支持视频/图像/文本多模态输入及区域、轨迹等具身输出。开源MOE架构RynnBrain-30B-A3B(仅3B激活参数),在16项基准全面SOTA,并推出全新评测集RynnBrain-Bench。
241 8
|
22天前
|
机器学习/深度学习 并行计算 算法
LLaDA2.1 正式开源,可纠错编辑机制让 100B 扩散模型突破 892 TPS 速度极限
蚂蚁研究院发布LLaDA2.1,首创“可纠错编辑(ECE)”机制,突破扩散语言模型(dLLM)速度与质量瓶颈:推理达892 TPS,支持极速/质量双模式,并集成业界首个dLLM强化学习框架EBPO。开源即用,迈向真正可用的下一代大模型。
189 6
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
PPO 应用 —— 大模型偏好优化的核心场景与落地思路
本文详解PPO算法在大模型RLHF落地中的核心应用:聚焦对话风格、客服话术、内容生成、安全合规、垂直领域及多模态六大场景,强调“偏好定制化”价值。全程无代码,提供4步落地法与3大实操要点,助力企业高效实现大模型优化。(239字)

热门文章

最新文章