ModelScope魔搭25年9月发布月报

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: ModelScope魔搭25年9月发布月报

📌 本月开源大模型继续卷到飞起,众多头部LLM模型完成版本升级,并探索训练推理的效率提升~ 多模态理解也没落下,诸多新发模型让视觉理解更丝滑。

 

🎨 多模态生成方面,Qwen-Image-Edit 和 Hunyuan-Image2.1 等开源表现亮眼,尤其在中文理解与生成方面可圈可点。语音圈“复工”:IndexTTS2 和 Step-Audio2 开源上线,AI说话更自然。

 

🔧 魔搭社区持续加码模型开发支持:AIGC专区快速支持新模型、LoRA训练优化、ControlNet插件上架、API兼容Anthropic,MCP广场持续迭代,开发体验更顺手。

 

🎁【云栖大会剧透预警】:ModelScope国际站 + FlowBench工作流即将发布,欢迎来云栖面基,一起聊聊AI落地那些事儿~

 

模型能力持续迭代,是通往AGI目标的必经之路。过去的一个月,一方面我们看到开源社区规格最大的模型,包括DeepSeek系列,Kimi-K2系列等,均推出了新的迭代版本(DeepSeek V3.1,Kimi-K2-0905);另一方面从模型结构方面的创新探索,也持续在进行中,Qwen家族新近推出的Qwen3-Next系列,就在从模型设计上来支持更高效的训练和推理上往前走了一步。

 

国产的开源大模型领域,上个月迎来了美团龙猫(meituan-longcat)这一新玩家,而腾讯的混元系列,则在上个月开源了其从0.5B到7B不同大小的dense模型之后,本周在领域模型(Hunyuan-MT),世界模型(Hunyuan-Voyager),以及生图模型(Hunyuan-Image2.1)等不同领域多点开花,开源生态越发完整。多模态模型方面,MiniCPM-V4.5和InternVL3.5的发布,为开发者在多端的视觉理解,提供了更多的选择;而视觉生成方面,闭源的Nano-Banana,当然是过去一个月里大家口中谈论最多的模型,而在开源领域,我们看到 Qwen-Image-Edit, Wan 2.2 S2V以及Hunyuan-Image2.1,则给社区带来了开源追赶闭源效果的希望,尤其在中文支持方面,中国的开源模型展示了更加强大的能力。此外,“寂静”了一段时间的语音领域,本月随着IndexTTS2和Step-Audio2等模型的开源,又有了全新的“声音”。

 

为了支持广大模型开发者能真正的把开源模型用起来,我们在社区和服务建设,以及开源工具链支持方面,持续努力着。我们的AIGC专区在T+1提供了Qwen-Image-Edit的支持,包括生图以及训练,同时针对编辑模型LoRA训练,完善了对于图片组格式的训练数据输入的支持,同时我们为社区提供了 Qwen-Image 生态的所需的ControlNet(DiffySyth ControlNet系列),受到了社区的广泛欢迎。在MCP广场,我们扩展了Streamable HTTP协议对接,支持MCP调用鉴权,并提供本地客户端更方便的调用方式。我们在API-Inference上,补齐了开发者呼声强烈的Anthropic API的支持。ModelScope站点以及平台后端的优化,同样是一条没有尽头的道路,也欢迎大家在日常使用中,能直观地体验到我们在这条路上不断前行,持续给大家带来改进与变化。

 

最后提前预告一下,在马上到来的云栖大会上,我们也将发布全新ModelScope国际站,科学智能专区,以及魔搭工作流FlowBench的正式版本,敬请期待。也欢迎众位“搭子”到云栖,来魔搭的专场和展位玩耍面基!

 

站点更新

 

 

1. AIGC 专区上线Qwen-Image-Edit 生图以及训练支持。同时针对图生图编辑模型的LoRA训练,全面兼容了图片组格式的训练数据输入。

 

image.gif 编辑

 

 

image.gif 编辑

2. MCP支持StreamableHTTP协议,以及MCP本地使用入口跳转,以及鉴权选项。移动端的MCP功能,对齐PC端能力。

 

image.gif 编辑

 

image.gif 编辑

 

 

image.gif 编辑

3. MCP 实验场(Playground)支持单个MCP server迅速关启的控制。                                  

 

 

image.gif 编辑

 

 

 

4. 上线 MCP 广场内容认领功能,开发者可主动提交认领申请,实现贡献可追溯。        

 

image.gif 编辑

 

 

 

5. MCP OpenAPI 新增上线“部署MCP服务”、“解除部署MCP服务”两个接口,支持有效期设置、传输协议类型选择(StreamableHTTP/SSE)及URL是否需要鉴权等特性,站点OpenAPI文档开放可用,欢迎社区开发者、相关产品接入。

 

image.gif 编辑

 

 

 

6. AIGC FlowBench 工作流支持网页端,用户无需本地部署即可在魔搭站点上使用工作流功能。

 

image.gif 编辑

 

 

 

 

image.gif 编辑

7. API-Inference的Anthropic API支持,完成在模型详情页的代码示例透出。同时完善了Anthropic API的思考模式支持。

 

image.gif 编辑

 

 

 

8. 模型框架分类自动打标功能新增对 OpenVINO 的支持,进一步完善多框架识别能力。

 

image.gif 编辑

 

 

 

9. 个人主页支持展示用户相关论文内容,丰富个人学术影响力呈现。      

image.gif 编辑

 

 

 

10. 免费Notebook实例的存储内容,支持迁移到用户个人云账号绑定实例下。

 

image.gif 编辑

 

image.gif 编辑

 

 

11. 数据集预览加载性能优化,实现预览打开时间大幅度降低,提供<100ms的加载体验。

 

 

12. AIGC专区 LoRA 训练支持退出和继续训练能力。                            

image.gif 编辑

 

 

 

 

13. 创空间失败报错时支持一键跳转查看详细日志,便于快速定位问题。                          

 

image.gif 编辑

 

image.gif 编辑

 

 

14. 合集内支持对不同类型元素进行自定义排序,提升内容组织灵活性。    

 

image.gif 编辑

 

 

 

15. 创空间Gradio完成5.42.0版本的升级迭代。                                                  

 

image.gif 编辑

 

 

 

16. 竞赛移动端新增讨论区功能,支持用户随时随地参与交流与互动。      

 

image.gif 编辑

 

 

开源SDK与工具链更新

1. SWIFT 3.8.0 版本发布。

  • Megatron-SWIFT方面,支持主流多模态模型(如Qwen2.5-VL、GLM-4.5V、InternVL3.5等)的LoRA及全参训练,并新增Merge-LoRA功能,便于SFT与DPO训练衔接。同时支持对MoE模型Router部分进行LoRA微调,并引入Channel Loss分组统计损失。
  • GRPO训练完成重构,支持高度自定义的多轮交互式训练,适用于工具调用等复杂场景。支持可配置的自动跳过encode失败的数据。
  • 通用训练能力上,新增DFT Loss、数据集内“loss”字段控制、自动填充思考前缀、早停机制及DLRover异步检查点等功能。并对channel loss 等功能支持进行重构。
  • RLHF领域,支持LD-DPO抑制长度偏好、DPO Packing提升吞吐量,并引入更灵活的rejected_messages数据格式。此外,新增对DeepSeek-V3.1、Kimi-K2、Ovis2.5、GLM-4.5V等数十个纯文本及多模态新模型的支持,并优化了VLLM推理引擎的兼容性,完成了EvalScope 1.0新版本的对接。
  • 新模型支持方面,持续添加对于新发布模型等支持,包括DeepSeek-V3.1、Kimi-K2-Instruct-0905、Seed-OSS-36B-Instruct、LongCat-Flash-Chat、gemma-3-270m-it等LLM,以及 GLM-4.5V、MiniCPM-V-4_5、InternVL3_5-1B等等和多模态大模型。

 

2. EvalScope发布1.0大版本更新,以及迭代升级到1.0.1:

  • 1.0版本对评测框架进行了重大重构,在 evalscope/api 下建立了全新的、更模块化且易扩展的 API 层。主要改进包括:为基准、样本和结果引入了标准化数据模型;对基准和指标等组件采用注册表式设计;并重写了核心评测器以协同新架构。现有的基准已迁移到这一 API,实现更加简洁、一致且易于维护。
  • 支持了视觉-语言多模态大模型的评测任务,包括MathVista、MMMU等。 支持图像编辑任务评测,支持GEdit-Bench 评测基准, 核心依赖移除torch,移动到rag和aigc可选依赖中。

 

3. ModelScope主库1.30版本发布。TBD 支持获取repo级别的详细信息,以及获取所有的提交记录。

 

4. ms-agent: 添加Anthropic协议支持;发布https://www.modelscope.cn/studios/ms-agent/DocResearch能力。支持围绕Agent使用场景,构建memory,沙箱运行时以及前端展示与工具链接等功能,开发中。

 

5. DiffSynth:

  • 提供Qwen-Image-Edit模型支持。并完善Qwen-Image ControlNet配套生态,DiffSynth等ControlNet支持(包括Canny,Depth,Inpaint)与lora被ComfyUI官方集成:

 

image.gif 编辑

  • 完成Wan-S2V,Wan2.2 Fun等模型的接入。Qwen-Image 和 Qwen-Image-Edit 支持拆分训练
  • DiffSynth框架的数据集组件整体重构。FlowBench节点包待云栖发布,敬请期待。

 

“与魔搭,云栖见”

欢迎大家扫码报名云栖大会👇

 

 

image.gif 编辑

目录
相关文章
|
1天前
|
弹性计算 关系型数据库 微服务
基于 Docker 与 Kubernetes(K3s)的微服务:阿里云生产环境扩容实践
在微服务架构中,如何实现“稳定扩容”与“成本可控”是企业面临的核心挑战。本文结合 Python FastAPI 微服务实战,详解如何基于阿里云基础设施,利用 Docker 封装服务、K3s 实现容器编排,构建生产级微服务架构。内容涵盖容器构建、集群部署、自动扩缩容、可观测性等关键环节,适配阿里云资源特性与服务生态,助力企业打造低成本、高可靠、易扩展的微服务解决方案。
1055 0
|
10天前
|
人工智能 运维 安全
|
1天前
|
弹性计算 Kubernetes jenkins
如何在 ECS/EKS 集群中有效使用 Jenkins
本文探讨了如何将 Jenkins 与 AWS ECS 和 EKS 集群集成,以构建高效、灵活且具备自动扩缩容能力的 CI/CD 流水线,提升软件交付效率并优化资源成本。
241 0
|
8天前
|
人工智能 异构计算
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
|
8天前
|
人工智能 测试技术 API
智能体(AI Agent)搭建全攻略:从概念到实践的终极指南
在人工智能浪潮中,智能体(AI Agent)正成为变革性技术。它们具备自主决策、环境感知、任务执行等能力,广泛应用于日常任务与商业流程。本文详解智能体概念、架构及七步搭建指南,助你打造专属智能体,迎接智能自动化新时代。
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
B站开源IndexTTS2,用极致表现力颠覆听觉体验
在语音合成技术不断演进的背景下,早期版本的IndexTTS虽然在多场景应用中展现出良好的表现,但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题,并进一步推动零样本语音合成在实际场景中的落地能力,B站语音团队对模型架构与训练策略进行了深度优化,推出了全新一代语音合成模型——IndexTTS2 。
725 23

热门文章

最新文章