编辑
🙋魔搭ModelScope本期社区进展:
📟1656个模型:通义万相2.1-VACE-视频生成编辑-14B、WorldPM-72B系列、Step1X-3D、Nexus-Gen、Qwen3系列量化模型 等;
📁151个数据集:AudioJailbreak、multiplayer-racing-low-res、AceCode-V1.1-69K 等;
🎨645个创新应用:DreamO、PP-StructureV3 Online Demo 等;
📄 9 篇内容:
- ModelScope魔搭25年5月发布月报
- 阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!
- 通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程
- 全模态图像模型Nexus-Gen对齐GPT-4o!图片理解生成编辑同时搞定,数据、训练框架、模型全面开源
- 小米开源MiMo-7B!从预训练到强化学习,解锁语言模型的推理潜能
- 10分钟,用RAG搭建专业钉钉/飞书客服机器人
- “一丹一世界”三等奖 | 木刻时光·细密风 经验分享
- MCP&RL系统学,打榜赛尽情玩!书生大模型实战营第5期课程玩法双升级,火热报名中
- 魔搭核心开发者共创会 | 邀请函
01.模型推荐
通义万相2.1-VACE-视频生成编辑-14B
通义万相2.1-VACE是一款由阿里巴巴开源的多功能AI视频生成与编辑模型,具备文生视频、图像参考生成、视频重绘、局部编辑、背景延展等多种功能,支持文本、图像、视频等多种输入形式。它采用统一模型架构,支持细粒度控制信号,能够在消费级显卡上高效运行,降低了使用门槛。该模型适用于创意视频制作、视频内容编辑、虚拟现实、AI自动化内容创作和个性化视频定制等场景。
模型地址:
https://www.modelscope.cn/models/Wan-AI/Wan2.1-VACE-14B
深度讲解,推理教程,效果展示,详见文章:
通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程
WorldPM-72B系列
WorldPM是通义千问团队和复旦大学自然语言处理实验室的一项关于“建模世界偏好”(Modeling World Preference)的联合研究,证明了偏好建模遵循与语言建模类似的规模法则。研究团队通过在不同规模(1.5B~72B)的Qwen 2.5模型上使用1500万条偏好数据进行大规模训练,显示随着模型规模和训练数据量增加,在客观评估和对抗性领域呈明确可扩展性趋势,而在主观评估中风格偏好可能是限制因素。
同时,研究团队进一步实验验证了WorldPM作为偏好微调基础的有效性,WorldPM显著提升了不同规模(7K/100K/800K样本)人类偏好数据集的泛化性能,将WorldPM集成至内部RLHF流程后,在自建和公共评估集上均取得显著改进。本次研究论文、代码与模型(1个基模、3个微调后的偏好模型)已开源。
论文链接:
https://arxiv.org/abs/2505.10527
模型地址:
- WorldPM-72B
https://www.modelscope.cn/models/Qwen/WorldPM-72B
- WorldPM-72B-HelpSteer2
https://www.modelscope.cn/models/Qwen/WorldPM-72B-HelpSteer2
- WorldPM-72B-UltraFeedback
https://www.modelscope.cn/models/Qwen/WorldPM-72B-UltraFeedback
- WorldPM-72B-RLHFLow
https://www.modelscope.cn/models/Qwen/WorldPM-72B-RLHFLow
示例代码:
from modelscope import AutoModel, AutoTokenizer, AutoConfig model_name = 'Qwen/WorldPM-72B' tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) config = AutoConfig.from_pretrained(model_name,trust_remote_code=True ) model = AutoModel.from_pretrained( model_name, config = config, device_map = "auto", trust_remote_code=True, ).eval() def get_score(model, tokenizer, conversation): con_str = tokenizer.apply_chat_template(conversation, tokenize=False, add_generation_prompt=False) input_ids = tokenizer.encode(con_str, return_tensors="pt", add_special_tokens=False) outputs = model(input_ids=input_ids.to(model.device)) score = outputs[0].cpu().item() return score messages = [ [ {'role': 'system', 'content': ""}, {'role': 'user', 'content': "Tips for better sleep?"}, {'role': 'assistant', 'content': "Three key tips for better sleep:\n1. Set a consistent bedtime and wake-up schedule\n2. Avoid screens 1 hour before bed\n3. Keep your bedroom cool and dark\n\nStart with these habits and you should notice improvement within a week."} ], [ {'role': 'system', 'content': ""}, {'role': 'user', 'content': "Tips for better sleep?"}, {'role': 'assistant', 'content': "just try sleeping earlier or take some pills if u cant sleep lol. maybe watch tv until u get tired idk"} ] ] score = [get_score(model, tokenizer=tokenizer, conversation=message) for message in messages] print(score) #[0.6298332214355469, -1.6425328254699707] for WorldPM-72B
Step1X-3D
阶跃星辰联合光影焕像开源的3D大模型Step1X-3D,具有4.8B参数量,采用3D原生两阶段架构,解耦几何与纹理表征,生成结构清晰、细节生动的3D内容。模型基于200万高质量数据训练,支持对称性、表面细节等属性的精细调控,且在CLIP-Score等关键指标上表现优异,为3D内容创作提供了高保真、可控的生成方案。
模型地址:
https://www.modelscope.cn/models/stepfun-ai/Step1X-3D
02.数据集推荐
AudioJailbreak
一个专门设计用于评估音频语言模型(Audio LLMs)安全性的基准框架。该项目通过各种音频扰动技术测试模型对恶意请求的防御能力。 注意:此项目旨在提高音频语言模型的安全性。研究人员应负责任地使用此工具。
数据集链接:
https://modelscope.cn/datasets/MBZUAI/AudioJailbreak
AceCode-V1.1-69K
TIGER-Lab 的 AceCode-V1.1-69K 是 AceCode-87K 升级版,由 GPT-o1-mini 重写、Qwen Coder 筛选,含 3 个子集,过滤后约 6.9 万样本(平均 17 个测试用例 / 样本),可直接加载,训练模型在编程测试中表现良好。
数据集链接:
https://www.modelscope.cn/datasets/TIGER-Lab/AceCode-V1.1-69K
03.精选应用
DreamO
体验直达:
https://www.modelscope.cn/studios/ByteDance/DreamO
PP-StructureV3 Online Demo
体验直达:
https://www.modelscope.cn/studios/PaddlePaddle/PP-StructureV3_Online_Demo