魔搭社区模型速递(8.23-8.30)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 🙋魔搭ModelScope本期社区进展:📟4924个模型,📁357个数据集,🎨99个创新应用,📄 9篇内容:


image.gif 编辑

🙋魔搭ModelScope本期社区进展:

📟4924个模型:InternVL3.5系列、义万相2.2-S2V-14B、MiniCPM-V-4_5、SpatialGen、VibeVoice-1.5B、HunyuanVideo-Foley、grok-2

📁357个数据集:StepEval-Audio-Paralinguistic、persian-voice-v1、OGC_CATIE-AQ_XMRec等;

🎨99个创新应用通义万相2.2-S2V、Nano Banana 图片编辑 Demo、HunyuanVideo-Foley

📄 9篇内容:

  • InternVL3.5多模态大模型开源发布,1B-241B九种尺寸,支持跨平台GUI自动化与矢量图生成
  • AI创作更自由: 魔搭FlowBench云端工作流上线AIGC专区!支持QwenImageEdit免费出图!
  • 混元开源又+1:视频音效可以自动生成了
  • 面壁开源多模态新旗舰MiniCPM-V 4.5,8B 性能超越 72B,高刷视频理解又准又快
  • 当AI学会跑跳抓:来云栖大会,参加一场“具身智能运动会”
  • 通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作
  • 全新指令遵循评测基准 Meeseeks开源,全球最听话模型大排名揭晓!
  • AI界的篮球赛AI-BA来了,NBA中国赛2025比赛门票等你来拿
  • 可调节推理预算,字节Seed团队开源大型语言模型 Seed-OSS 系列!

01.模型推荐

通义万相2.2-S2V-14B

通义万相最新开源Wan2.2-S2V,一款音频驱动的视频生成模型,参数量14B,可生成影视级质感的高质量视频。Wan2.2-S2V接收单张静态图像和音频输入,生成与音频同步的高质量视频。

 

通义万相团队针对复杂场景的视频生成优化,在复杂的电影和电视剧场景中表现出色,能够呈现逼真的视觉效果,包括生成自然的面部表情、肢体动作和专业的镜头运用。同时支持全身与半身角色生成,可高质量地完成对白、演唱及表演等多种专业级内容创作需求。

 

模型链接:

https://www.modelscope.cn/studios/Wan-AI/Wan2.2-S2V

 

示例代码:

官方GitHub代码的推理支持单卡和多卡,推荐使用A100以上规格的显卡运行,单卡运行显存占用52G左右。

  • 环境与代码安装
git clone https://github.com/HumanAIGC/Wan-S2V.git
cd Wan-S2V
pip install -r requirements.txt

image.gif

  • 模型下载
cd Wan-S2V
modelscope download --model Wan-AI/Wan2.2-S2V-14B --local_dir .

image.gif

  • 单卡推理
python run.py \
        --ckpt_path checkpoint_dir \
        --ref_img "examples/woman.png" \
        --audio "examples/sing.MP3" \
        --prompt "视频中,一个女人正在唱歌,表情动作十分投入" \
        --num_clip 3 \
        --seed 42 \
        --guide_scale 4.5 \
        --sample_shift 5 \
        --output_path "res/gen1.mp4" \
        --infer_frames 80 \
        --start_from_ref

image.gif

  • 多卡推理
torchrun --nproc_per_node=8 --rdzv_backend=c10d --rdzv_endpoint=127.0.0.1:29500 -- run.py \
        --ckpt_path checkpoint_dir \
        --ref_img "examples/woman.png" \
        --audio "examples/sing.MP3" \
        --prompt "视频中,一个女人正在唱歌,表情动作十分投入" \
        --num_clip 3 \
        --seed 42 \
        --guide_scale 4.5 \
        --sample_shift 5 \
        --output_path "res/gen2.mp4" \
        --infer_frames 80 \
        --start_from_ref

image.gif

 

MiniCPM-V 4.5系列

面壁智能正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。

MiniCPM-V 4.5 同时支持常规模式和深度思考模式,实现了性能与响应速度的有效平衡,常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。

 

模型链接:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

 

示例代码:

import torch
from PIL import Image
from modelscope import AutoModel, AutoTokenizer
torch.manual_seed(100)
model = AutoModel.from_pretrained('OpenBMB/MiniCPM-V-4_5', trust_remote_code=True, # or openbmb/MiniCPM-o-2_6
    attn_implementation='sdpa', torch_dtype=torch.bfloat16) # sdpa or flash_attention_2, no eager
model = model.eval().cuda()
tokenizer = AutoTokenizer.from_pretrained('OpenBMB/MiniCPM-V-4_5', trust_remote_code=True) # or openbmb/MiniCPM-o-2_6
image = Image.open('./assets/minicpmo2_6/show_demo.jpg').convert('RGB')
enable_thinking=False # If `enable_thinking=True`, the thinking mode is enabled.
# First round chat 
question = "What is the landform in the picture?"
msgs = [{'role': 'user', 'content': [image, question]}]
answer = model.chat(
    msgs=msgs,
    tokenizer=tokenizer,
    enable_thinking=enable_thinking
)
print(answer)
# Second round chat, pass history context of multi-turn conversation
msgs.append({"role": "assistant", "content": [answer]})
msgs.append({"role": "user", "content": ["What should I pay attention to when traveling here?"]})
answer = model.chat(
    msgs=msgs,
    tokenizer=tokenizer
)
print(answer)

image.gif

 

更多微调实战教程详见:

面壁开源多模态新旗舰MiniCPM-V 4.5,8B 性能超越 72B,高刷视频理解又准又快

 

HunyuanVideo-Foley

8月28日,腾讯混元宣布开源端到端视频音效生成模型HunyuanVideo-Foley,只需输入视频和文字,就能为视频匹配电影级音效。HunyuanVideo-Foley不仅打破了 AI 生成的视频只能 “看” 不能 “听” 的局限,让无声AI视频成为历史,更是真正做到了 “看懂画面、读懂文字、配准声音” ,带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开发等场景。

 

模型链接:

https://modelscope.cn/models/Tencent-Hunyuan/HunyuanVideo-Foley

 

安装:

系统要求

  • CUDA: 推荐 12.4 或 11.8
  • Python: 3.8+
  • 操作系统: Linux(主要支持)

 

步骤 1: 克隆仓库

# 📥 Clone the repository
git clone https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
cd HunyuanVideo-Foley

image.gif

步骤 2:环境设置

# 🔧 Install dependencies
pip install -r requirements.txt

image.gif

步骤 3:下载预训练模型

# using git-lfs
git clone https://oauth2:your_token@www.modelscope.cn/Tencent-Hunyuan/HunyuanVideo-Foley.git
# using modelscope-cli
modelscope download --model Tencent-Hunyuan/HunyuanVideo-Foley

image.gif

 

单个视频生成

python3 infer.py \
    --model_path PRETRAINED_MODEL_PATH_DIR \
    --config_path ./configs/hunyuanvideo-foley-xxl.yaml \
    --single_video video_path \
    --single_prompt "audio description" \
    --output_dir OUTPUT_DIR

image.gif

 

VibeVoice-1.5B

微软最新开源的文本转语音模型VibeVoice-1.5B 可生成富有表现力的长文本、多说话人合成语音,具备研究级扩展性与高度灵活性。

 

该模型不仅是一个 TTS 引擎,更是一个完整框架:支持单次会话生成 90 分钟连续自然语音,并发合成 4 个不同说话人,并可处理跨语言合成与歌唱合成场景。依托流式架构设计及即将发布的 70 亿参数流式模型,VibeVoice-1.5B 将成为 AI 会话音频、播客制作及合成语音研究的重大突破。

模型链接:

https://www.modelscope.cn/models/microsoft/VibeVoice-1.5B

 

SpatialGen-1.0

「杭州六小龙」之一群核科技在其首届 TechDay 上开源发布了业界首个专注于 3D 室内场景生成的空间大模型SpatialGen。依托群核科技海量室内 3D 场景数据与多视角扩散模型技术,SpatialGen 生成的多视角图像能确保同一物体在不同镜头下始终保持准确的空间属性和物理关系。输入一张场景的原图,以及场景布局图,即可输出相应场景的多视角图像,也可以进行深度图、语义图等其他类别的输出。有了多视角图像结果,就可以通过一个开源的高斯重建的算法(AnySplat)重建高斯点云,随后可以进行视频的渲染,最终得到了一个漫游视频。

模型链接:

https://modelscope.cn/models/manycore-research/SpatialGen-1.0

 

环境安装

测试环境如下:

  • Python 3.10
  • PyTorch 2.3.1
  • CUDA 版本 12.1
# clone the repository
git clone https://github.com/manycore-research/SpatialGen.git
cd SpatialGen
python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
# Optional: fix the [flux inference bug](https://github.com/vllm-project/vllm/issues/4392)
pip install nvidia-cublas-cu12==12.4.5.8

image.gif

  • 推理代码
# Single image-to-3D Scene
bash scripts/infer_spatialgen_i2s.sh
# Text-to-image-to-3D Scene
bash scripts/infer_spatialgen_t2s.sh

image.gif

02.数据集推荐

StepEval-Audio-Paralinguistic

StepEval-Audio-Paralinguistic 数据集把一句话里的情绪、语速、音色等副语言信息一网打尽,直接喂给模型就能让 AI “听声辨意”,用于情感客服、心理筛查、内容审核等场景。

 

数据集链接:

https://modelscope.cn/datasets/stepfun-ai/StepEval-Audio-Paralinguistic

persian-voice-v1

用 Persian-Voice-v1 的 20 万句波斯语朗读音频,一键训练或评测波斯语 ASR/TTS,助力智能语音助手、教育软件、车载导航等波斯语场景落地。

 

数据集链接:

https://modelscope.cn/datasets/vhdm/persian-voice-v1

 

OGC_CATIE-AQ_XMRec

OGC_CATIE-AQ_XMRec 用跨模态音乐-情绪标签,一键训练推荐模型,做短视频配乐、车载电台、健身歌单等“懂心情”的智能音乐推荐。

数据集链接:

https://modelscope.cn/datasets/racineai/OGC_CATIE-AQ_XMRec

 

03.创空间

通义万相2.2-S2V

Wan2.2-S2V 把一句话脚本秒变 1080P 短片,零门槛产出短视频、影视预演、教学情境与广告概念稿。

 

体验链接:

https://modelscope.cn/studios/Wan-AI/Wan2.2-S2V

Nano Banana 图片编辑 Demo

nano_banana_demo 是一个在线“AI 十秒修图”小站:随手上传人像,一键瘦身、换发色、改背景,立等可取社交大片。

 

体验链接:

https://modelscope.cn/studios/AI-ModelScope/nano_banana_demo

 

HunyuanVideo-Foley

上传无声视频、敲一句描述,即刻生成电影级音效,让画面一秒“声”临其境。

 

体验链接:

https://www.modelscope.cn/studios/Tencent-Hunyuan/HunyuanVideo-Foley

04.社区精选文章

 

 

 


目录
相关文章
|
17天前
|
人工智能 JavaScript 前端开发
实战使用 Qwen3-coder 低代码开发 HTML 个人网站
阿里巴巴开源的Qwen3-coder模型,凭借强大性能和低代码能力,助力用户快速搭建个人网站。本文详解环境配置、提示词设计与部署流程,适合编程新手快速上手,掌握AI辅助开发技能。
1140 8

热门文章

最新文章