ModelScope魔搭社区发布月报 -- 25年11月

简介: 魔搭ModelScope三周年庆!见证开源大模型从追赶到领跑,11月硬核更新不断:Qwen3-VL、MiniMax-M2等新模态齐发,AIGC生态爆发,OCR、语音、Agent全面进化。11月22日杭州AI开源生态大会,不见不散!

🎉 魔搭ModelScope与广大开发者共庆三周年!3年来我们与开发者一同乘风破浪,见证开源大模型从追赶到并跑,再到局部领跑的高光时刻~


🔥 11月超多硬核更新:MiniMax、Kimi、Qwen3-VL、DeepSeek-OCR、SoulX-TTS等轮番登场,OCR、语音、多模态、Agent、训练评测工具链全线进阶,小模型也能“思”出大格局!


🎨 ModelScope社区支持Qwen-Image生态爆发式生长!AIGC专区爆款频出屡登HF热榜,开源工具全家桶 + 平台服务化 持续赋能开发者“以小搏大”✨


📌11月22日杭州见!魔搭开发者嘉年华 × AI开源生态大会,周年庆 + 线下狂欢,不见不散~ 🎈


3年前的11月3号,ModelScope社区正式对外发布,到本月社区正式满3周年了!感谢大家在过去3年的信任与陪伴,我们一起见证了AI时代在3年中日新月异的变化,也期望ModelScope能够陪伴大家在大模型的翻滚浪潮中,继续扬帆远航。


在过去的一个月中,开源模型的思考和逻辑编程能力,依然是社区的关注要点。MiniMax-M2和Kimi-K2-Thinking的陆续发布,让开源模型处理复杂任务方面的能力,在模型能力一日千里的今天,持续处于与业界头部的第一梯队。而在OCR模型领域,本月则真正见证了“日新又新”的进展。首先是来自业界经典的PaddleOCR,推出了新一代的PaddleOCR-VL模型,掀起了社区持续的跟进使用热情。同时更有来自DeepSeek团队的DeepSeek-OCR,以及来自智谱的Glyph,都不约而同地探索了通过视觉方式,对长文本进行压缩和理解的技术路径,试图通过与人类理解世界方式更加贴合的角度,增强大模型对于文本处理的效率。此外在VL领域,广受开发者欢迎Qwen3-VL系列,补齐了2B和32B等几个规格,对于本地使用以及微调更加友好,而百度也推出了ERNIE-4.5-VL-28B-A3B-Thinking版本,补齐了文心在MoE的VL思考模型方面的阵型。语音领域,阶跃通过Step-Audio-EditX带来了基于LLM的音频编辑能力,而Soul也通过其优秀的TTS模型SoulX-Podcast,入场了开源赛道,并引起了社区的广泛讨论和关注。同样新近加入开源模型社区的,还有来自微博的WeiboAI/VibeThinker-1.5B,用小模型来探索推理能力。


在各领域大模型持续发布和迭代的同时,这个月我们也关注到了图片生成领域,一个围绕Qwen-Image系列模型的生态正在形成。从Qwen-Image系列模型发布伊始,我们就通过开源DiffSynth框架提供了模型的推理优化以及训练能力,并基于DiffSynth框架,支持了ModelScoe的AIGC专区。在过去的一个月里,我们看到了这一系列工具和服务化的能力,在催生生态繁荣方面,正在陆续开花结果。在ModelScope的AIGC专区上训练出来基于Qwen-Image系列基础模型的LoRA,数量已经迅速接近10K。而其中包括KOL wuli大雄的一系列作品,不仅受到ModelScope用户的欢迎,同时多个LoRA也在Hugging Face等社区上强势出圈,有多个LoRA都登上HF Trending榜。此外DiffSynth框架也被更多的海内外开发者所关注,Eigen-AI Labs基于DiffSynth训练的eigen-banana-qwen-image-edit模型,同样也在HF trending中。


除了DiffSynth以外,ModelScope的开源工具生态中,我们本月通过SWIFT 框架推出了Mcore-Bridge,帮助开发者实现Megatron训练的开箱即用,使其能与Transformers的易用性对齐。而在Agent生态上,我们通过ms-agent项目,开始了对于Agent-Skills领域的探索,使得复杂的Agent能力能够通过更加模块化的方式进行管理和组合。而在模型评估方面,EvalScope进一步增强了对于模型全方面评测的能力覆盖度,对于模型真实能力评估提供了框架层面的支持。


在1024程序员节,我们联合知乎发布了AI时代开发者白皮书,通过与开发者深入的访谈,让我们对于AI时代的开发者画像,有了更深入的理解,也让我们真真切切地看到了,大模型的能力,正在深刻的改变AI开发的范式,个人开发者的影响力和改变世界的能力,正在借助AI模型的杠杆,成倍的被放大。同时我们升级了ModelScope的勋章体系,对于社区活跃的开发者,进行更有针对性的激励。我们也联合即将召开的杭州AI开源生态大会,计划在11月22号一起举办魔搭社区开发者嘉年华,期待与大家在杭州的再次线下相聚!


· 站点更新

1. 1024程序员节,我们联合知乎,一起发布了AI开发者白皮书 :https://modelscope.cn/active/dev-report



2. MCP部署支持用户部署到云账号下专属资源


    3. 魔搭勋章体系升级,包括新的社区活跃度勋章,勋章排行榜等能力完成上线



4. FlowBench下载页面上线:https://modelscope.cn/flowbench/download



5. Intel AI Assistant Builder集成魔搭MCP广场正式发布,ModelScope同步上线文档与引导:https://www.modelscope.cn/docs/mcp/intel-ai-integration



    6. Qwen-Image & Qwen-Image-Edit模型,支持LoRA推理生图(API)



包括对于Qwen-Image-Edit-2509多图编辑能力的支持:



    7. 模型页面展示模型仓库文件大小统计,方便大家对于一个开源模型的整体存储和资源占用有更直观的理解。



    8. AIGC资源库图片详情页支持左右滑动浏览



    9. 普通模型、aigc模型、科学专区模型,允许在编辑页面操作类型的相互转换



    10. 用户profile页面支持作品tab展示,大家的作品在个人主页能够更好的透出啦



    11. AIGC模型支持根据封面图,自动生成官方标签


    12. AIGC专区平台免费资源训练的公开模型,不允许转为私有


    13. 研习社首页支持精选内容及社区内容分类筛选,文章详情页强化作者信息、支持快速访问作者主页,文章支持关联模型、数据集、创空间、论文等其他站内资源,支持文章发布到组织


    14. SwingDeploy支持部署过程中全仓库脚本下载使用


    15. 完成创空间 gradio  v5.49.1 升级


· 开源SDK与工具链更新

1. SWIFT 3.10.0 版本发布。

  • 推出Mcore-Bridge,帮助开发者实现safetensors模型文件在Megatron训练的开箱即用,使Megatron框架训练加速等能力,可以同时与Transformers的易用性对齐。升级Megatron-Core版本至0.14.0,并提供了batch模式mrope的支持。
  • GRPO方面,对于LoRA 训练权重同步速度进行了深入优化。GRPO训练显存使用优化,大幅降低峰值的显存占用。RLVR算法支持了RLOO以及REINFORCE++ Baseline。GKD 支持使用 vLLM 加速策略模型rollout。
  • 训练方面, PT/SFT/采样/数据蒸馏中支持了RAY,对于分布式训练提供了更好的支持。Qwen3-VL、Qwen3-Omni等模型支持了混合模态数据训练,并支持了通过yaml配置训练参数等能力。swift export提供了GPTQ-v2 量化的支持,并在deploy接口上提供了vllm推理后端支持 DP 部署,以及健康检查等能力。
  • 新模型支持方面,持续添加对于新发布模型等支持,包括 MiniMax-M2、Qwen3Guard-Gen-0.6B等LLM,以及PaddleOCR-VL、DeepSeek-OCR、Glyph、ERNIE-4.5-VL-28B-A3B-Thinking、ERNIE-4.5-VL-28B-A3B-Thinking、Qwen3-VL-2B-Instruct、LLaVA-OneVision-1.5-4B-Instruct等多模态大模型。

    2. MS-agent: 支持了Agent Skills 功能,方便复杂的Agent能力通过更模块化的方式进行管理和组合。Code Agent能力完善,并接入ms-enclave沙箱功能验证通过。FinResearch能力发布。Anthropic API支持完善stream/tool等组合场景。

    3. EvalScope发布1.2版本。支持SimpleVQA, MathVerse, MathVision多模态评测,以及 τ²-bench Agent,PolyMath, AA-LCR ,BFCL-v4 function call以及BertScore评测以及一系列NLP任务。添加了新增pass@k等多种指标聚合方法,Perf 评估对齐VLLM标准。enclave沙箱评测能力完成发布,包括CLI以及文件挂载以及读写等能力。

4. ModelScope主库1.32版本发布。提供 list datasets 接口,并对接了Hub OpenAPI,py打包机制切换为toml进行管理,同时调整模型版本寻找机制。

5. DiffSynth:接入krea-realtime-video, Video-As-Prompt-Wan2.1-14B,LongCat-Video,HunyuanImage 2.1 等模型,并基于Qwen-Image生态,训练并发布Face-to-Photo 模型。完善了整体显存管理模块的优化,同时DiffSynth 2.0整体架构重构以及文档管理进行中,期待新的版本尽快与广大开发者见面。


本周六(11月22号)

将在杭州西湖区云谷中心

举办杭州AI开源生态大会(暨魔搭社区开发者嘉年华

欢迎大家一起来玩!



目录
相关文章
|
2月前
|
编解码 物联网 API
码上生花:用API链接Qwen-Image系列及衍生LoRA生态模型
Qwen-Image系列开源三月成爆款,凭借中文场景优势与ModelScope平台深度集成,支持文生图、图像编辑及LoRA生态API调用,助力开发者高效创作。
691 1
|
2月前
|
存储 数据采集 人工智能
最佳实践丨让苏东坡“复活”!我用Qwen3-8B实现了与千古文豪的跨时空对话
随着人工智能技术的不断发展,虚拟角色不再只是冰冷的对话机器,而是能够承载历史人物的气质、知识体系乃至精神风貌的“数字化身”。今天,我们将完整揭秘如何基于Qwen3-8B大模型,借助LLaMA-Factory Online平台,打造一个沉浸式的“苏东坡数字分身”,让前沿技术为文化传承注入新的活力。
501 10
最佳实践丨让苏东坡“复活”!我用Qwen3-8B实现了与千古文豪的跨时空对话
|
2月前
|
自然语言处理 语音技术 Apache
阶跃星辰发布首个开源 LLM 级音频编辑大模型 Step-Audio-EditX
阶跃星辰发布全球首个开源LLM级音频编辑大模型Step-Audio-EditX,支持零样本TTS、多语言方言及情感、风格、副语言特征精准控制,采用统一LLM框架,实现文本驱动音频创作。
607 88
刚刚参加了一个MCP赛事,奖金还可以,搭友们可以去试试看
社区8月比赛未获奖有点失落,但发现通义灵码×蚂蚁百宝箱MCP赛事正火热进行!参赛即有机会赢取丰厚奖金,激励满满,令人眼前一亮。已跃跃欲试,搭友们快来一起冲榜夺奖吧!https://tianchi.aliyun.com/competition/entrance/532442
|
3月前
|
传感器 人工智能 API
仅100多元,他给视障人群装上AI“眼睛”
上海两名开发者为验证AI助盲实效,亲手打造百元AI眼镜,蒙眼实测过马路、识盲道,并开源项目鼓励更多人参与。技术导航,人心照亮。
938 6
仅100多元,他给视障人群装上AI“眼睛”
|
2月前
|
编解码 人工智能 文字识别
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
DeepSeek-OCR开源即获7k+星,首创“上下文光学压缩”技术,仅用100视觉token超越传统OCR模型256token性能,压缩比达10-20倍,精度仍超97%。30亿参数实现单卡日处理20万页,显著降低大模型长文本输入成本,重新定义高效文档理解新范式。
355 2
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
|
2月前
|
机器学习/深度学习 编解码 自然语言处理
腾讯混元 HunyuanVideo 1.5 开源!
腾讯混元团队开源HunyuanVideo 1.5,一款8.3B参数的轻量级视频生成模型,基于DiT架构,支持文生视频、图生视频,可在14G显存设备运行,生成5-10秒高清视频,具备强指令响应、流畅动作与电影级画质。
513 10
腾讯混元 HunyuanVideo 1.5 开源!
|
2月前
|
数据采集 文字识别 算法
腾讯混元&清华开源15M高质量多模态训练数据,全面开放MLLM迎来质变时刻
腾讯混元与清华推出Bee项目,首创“以数据为中心”的全栈开源方案,通过Honey-Data-15M高质量数据集、HoneyPipe数据增强管线及Bee-8B模型,显著提升全开源多模态大模型性能,缩小与闭源模型差距。
384 4
|
2月前
|
人工智能 API Python
Gemini 3 Nano Banana 的MCP服务器开发设计和 国内直连方案
基于Gemini 3 API开发的MCP绘图工具,支持在Coding客户端中边写代码边生成流程图。项目采用Python实现,兼容Gemini 2.5 Flash与3 Pro图像API,集成超时控制、国内直连路由转发功能,可高效调用AI生图。提供完整GitHub开源代码及在线试用地址,欢迎提交Issue交流。
|
2月前
|
人工智能 调度 开发工具
MemOS 正式上线魔搭社区 MCP 广场,让你的智能体拥有「长期记忆」
MemOS 正式上线魔搭社区 MCP 广场,作为首个大模型记忆操作系统,支持标准化记忆读写,7天调用量超14.9万次。开发者可一键集成,让AI具备持久化、可调度的记忆能力,实现连续思考与长期进化。
368 3