魔搭社区模型速递(5.11-5.17)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 🙋魔搭ModelScope本期社区进展:📟1656个模型,151个数据集,645个创新应用,📄 9 篇内容

image.gif 编辑

 

🙋魔搭ModelScope本期社区进展:

📟1656个模型:通义万相2.1-VACE-视频生成编辑-14B、WorldPM-72B系列、Step1X-3D、Nexus-Gen、Qwen3系列量化模型 等;

📁151个数据集:AudioJailbreak、multiplayer-racing-low-res、AceCode-V1.1-69K 等;

🎨645个创新应用:DreamO、PP-StructureV3 Online Demo 等;

📄 9 篇内容:

  • ModelScope魔搭25年5月发布月报
  • 阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!
  • 通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程
  • 全模态图像模型Nexus-Gen对齐GPT-4o!图片理解生成编辑同时搞定,数据、训练框架、模型全面开源
  • 小米开源MiMo-7B!从预训练到强化学习,解锁语言模型的推理潜能
  • 10分钟,用RAG搭建专业钉钉/飞书客服机器人
  • “一丹一世界”三等奖 | 木刻时光·细密风 经验分享
  • MCP&RL系统学,打榜赛尽情玩!书生大模型实战营第5期课程玩法双升级,火热报名中
  • 魔搭核心开发者共创会 | 邀请函

01.模型推荐

通义万相2.1-VACE-视频生成编辑-14B

通义万相2.1-VACE是一款由阿里巴巴开源的多功能AI视频生成与编辑模型,具备文生视频、图像参考生成、视频重绘、局部编辑、背景延展等多种功能,支持文本、图像、视频等多种输入形式。它采用统一模型架构,支持细粒度控制信号,能够在消费级显卡上高效运行,降低了使用门槛。该模型适用于创意视频制作、视频内容编辑、虚拟现实、AI自动化内容创作和个性化视频定制等场景。

模型地址:

https://www.modelscope.cn/models/Wan-AI/Wan2.1-VACE-14B

深度讲解,推理教程,效果展示,详见文章:

通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程

 

WorldPM-72B系列

WorldPM是通义千问团队和复旦大学自然语言处理实验室的一项关于“建模世界偏好”(Modeling World Preference)的联合研究,证明了偏好建模遵循与语言建模类似的规模法则。研究团队通过在不同规模(1.5B~72B)的Qwen 2.5模型上使用1500万条偏好数据进行大规模训练,显示随着模型规模和训练数据量增加,在客观评估和对抗性领域呈明确可扩展性趋势,而在主观评估中风格偏好可能是限制因素。

同时,研究团队进一步实验验证了WorldPM作为偏好微调基础的有效性,WorldPM显著提升了不同规模(7K/100K/800K样本)人类偏好数据集的泛化性能,将WorldPM集成至内部RLHF流程后,在自建和公共评估集上均取得显著改进。本次研究论文、代码与模型(1个基模、3个微调后的偏好模型)已开源。

论文链接:

https://arxiv.org/abs/2505.10527

模型地址:

  • WorldPM-72B

https://www.modelscope.cn/models/Qwen/WorldPM-72B

  • WorldPM-72B-HelpSteer2

https://www.modelscope.cn/models/Qwen/WorldPM-72B-HelpSteer2

  • WorldPM-72B-UltraFeedback

https://www.modelscope.cn/models/Qwen/WorldPM-72B-UltraFeedback

  • WorldPM-72B-RLHFLow

https://www.modelscope.cn/models/Qwen/WorldPM-72B-RLHFLow

 

示例代码:

from modelscope import AutoModel, AutoTokenizer, AutoConfig
model_name = 'Qwen/WorldPM-72B'
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
config = AutoConfig.from_pretrained(model_name,trust_remote_code=True )
model = AutoModel.from_pretrained(
    model_name, 
    config = config, 
    device_map = "auto", 
    trust_remote_code=True,
).eval()
def get_score(model, tokenizer, conversation):
    con_str = tokenizer.apply_chat_template(conversation, tokenize=False, add_generation_prompt=False)
    input_ids = tokenizer.encode(con_str, return_tensors="pt", add_special_tokens=False)
    outputs = model(input_ids=input_ids.to(model.device))
    score = outputs[0].cpu().item()
    return score
messages = [
    [
        {'role': 'system', 'content': ""},
        {'role': 'user', 'content': "Tips for better sleep?"},
        {'role': 'assistant', 'content': "Three key tips for better sleep:\n1. Set a consistent bedtime and wake-up schedule\n2. Avoid screens 1 hour before bed\n3. Keep your bedroom cool and dark\n\nStart with these habits and you should notice improvement within a week."}
    ],
    [
        {'role': 'system', 'content': ""},
        {'role': 'user', 'content': "Tips for better sleep?"},
        {'role': 'assistant', 'content': "just try sleeping earlier or take some pills if u cant sleep lol. maybe watch tv until u get tired idk"}
    ]
]
score = [get_score(model, tokenizer=tokenizer, conversation=message) for message in messages]
print(score) #[0.6298332214355469, -1.6425328254699707] for WorldPM-72B

image.gif

 

Step1X-3D

阶跃星辰联合光影焕像开源的3D大模型Step1X-3D,具有4.8B参数量,采用3D原生两阶段架构,解耦几何与纹理表征,生成结构清晰、细节生动的3D内容。模型基于200万高质量数据训练,支持对称性、表面细节等属性的精细调控,且在CLIP-Score等关键指标上表现优异,为3D内容创作提供了高保真、可控的生成方案。

模型地址:

https://www.modelscope.cn/models/stepfun-ai/Step1X-3D

 

02.数据集推荐

AudioJailbreak

一个专门设计用于评估音频语言模型(Audio LLMs)安全性的基准框架。该项目通过各种音频扰动技术测试模型对恶意请求的防御能力。 注意:此项目旨在提高音频语言模型的安全性。研究人员应负责任地使用此工具。

 

数据集链接:

https://modelscope.cn/datasets/MBZUAI/AudioJailbreak

 

AceCode-V1.1-69K

TIGER-Lab 的 AceCode-V1.1-69K 是 AceCode-87K 升级版,由 GPT-o1-mini 重写、Qwen Coder 筛选,含 3 个子集,过滤后约 6.9 万样本(平均 17 个测试用例 / 样本),可直接加载,训练模型在编程测试中表现良好。

 

数据集链接:

https://www.modelscope.cn/datasets/TIGER-Lab/AceCode-V1.1-69K

 

03.精选应用

DreamO

体验直达:

https://www.modelscope.cn/studios/ByteDance/DreamO

 

PP-StructureV3 Online Demo

体验直达:

https://www.modelscope.cn/studios/PaddlePaddle/PP-StructureV3_Online_Demo

04.社区精选文章

目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 监控
实战 | Qwen3大模型微调入门实战(完整代码)
Qwen3是阿里通义实验室最近开源的大语言模型,发布时便登顶了开源LLM榜单第一名。同时,Qwen系列模型也超越LLaMA,成为了开源模型社区中最受欢迎的开源LLM。
1175 23
|
1月前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
158 17
|
27天前
|
开发框架 人工智能 安全
ModelScope魔搭25年5月发布月报
不知不觉间,日历已经翻过了立夏,而开源模型的世界中似乎并没有春夏秋冬。在刚刚过去的四月份,见证了开源社区又一次蓬勃发展的浪潮。以Qwen3家族为代表,一系列新模型的开源为整个生态注入了新的活力。通过全面覆盖多种规格的 dense 与 MoE 模型架构,Qwen3 首次在开源模型中引入“快思考与慢思考” 双模式的支持,获得了广大开发者的热烈欢迎,成为新一代开源大模型的标杆之作。
99 10
|
20天前
|
人工智能 自然语言处理 API
魔搭社区模型速递(5.18-5.24)
魔搭ModelScope本期社区进展:📟3790个模型,📁307个数据集,🎨90个创新应用,📄 7 篇内容
186 14
|
26天前
|
机器学习/深度学习 开发框架 数据可视化
B站开源SOTA动画视频生成模型 Index-AniSora!
B站升级动画视频生成模型Index-AniSora技术并开源,支持番剧、国创、漫改动画、VTuber、动画PV、鬼畜动画等多种二次元风格视频镜头一键生成!
234 32
|
1月前
|
人工智能 自然语言处理 搜索推荐
魔搭社区模型速递(4.27-5.10)
🙋魔搭ModelScope本期社区进展:📟2341个模型,206个数据集,🎨224个创新应用,📄 15篇内容
259 20
|
1月前
|
编解码 人工智能
通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程
通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程
330 7
|
1月前
|
开发者
魔搭核心开发者共创会 | 邀请函
魔搭核心开发者共创会 | 邀请函
78 4
|
23天前
|
人工智能 测试技术 API
通义灵码 + 魔搭MCP:全流程构建创空间应用
最近,通义灵码上线 MCP(ModelScope Cloud Platform)功能,从之前代码生成及修改的基础功能,到可以使用MCP服务连接更多功能,开发者可以实现从 代码爬取、模型推理到应用部署
410 26

热门文章

最新文章