SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型,支持高质量影视级视频生成、33种细腻表情和400多种自然动作组合。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎥 "短剧团队今夜无眠!昆仑万维开源影视级AI:33种微表情精准控制,400动作组合秒出片"

大家好,我是蚝油菜花。当同行还在为演员档期发愁时,前沿团队已经用AI批量生产短剧了!

传统短剧制作三大痛点:

  • 🚫 专业演员日薪过万,微表情NG20次是常态
  • 🚫 复杂动作戏需要武指+替身,成本几何级暴涨
  • 🚫 后期渲染动辄数小时,创意在等待中消磨殆尽...

今天揭秘的 SkyReels-V1 ,正在掀起影视创作革命!这个由昆仑万维开源的首个AI短剧生成模型:

  • ✅ 基于千万级好莱坞影像训练,输出电影级光影质感
  • ✅ 精准控制33种微表情与400+动作组合,连手指颤动都自然
  • ✅ 自研推理框架加持,3090显卡就能跑4K视频

已有团队用它日更10集短剧,接下来我们将实测:如何用AI把剧本直接变影视成片!

🚀 快速阅读

SkyReels-V1 是昆仑万维开源的首个面向AI短剧创作的视频生成模型,基于千万级高质量影视数据进行微调。

  1. 核心功能:支持高质量影视级视频生成、33种细腻表情和400多种自然动作组合。
  2. 技术原理:采用自研推理框架SkyReels-Infer,大幅提升推理效率,支持多GPU并行和低显存优化。

SkyReels-V1 是什么

SkyReels-V1

SkyReels-V1 是昆仑万维开源的首个面向AI短剧创作的视频生成模型。该模型基于在千万级高质量影视数据上进行微调,实现影视级的人物微表情和肢体动作生成,支持33种细腻表情与400多种自然动作组合,高度还原真实情感表达。模型支持文生视频(Text-to-Video)和图生视频(Image-to-Video),在开源视频生成模型中达到SOTA水平。

SkyReels-V1 基于自研推理框架SkyReels-Infer,大幅提升了推理效率,支持多GPU并行和低显存优化,能够在消费级显卡上高效生成高质量视频。通过这些技术,SkyReels-V1 为AI短剧创作提供了强大的工具,简化了视频制作流程,提升了效率。

SkyReels-V1 的主要功能

  • 高质量影视级视频生成:支持生成具有电影级光影效果、细腻人物表情和自然肢体动作的视频内容。每一帧画面在构图、演员站位和相机角度上都具备高质量的影视质感。
  • 表情和动作的精细控制:支持33种细腻的人物表情和400多种自然动作组合,能够生成大笑、怒吼、惊讶、哭泣等微表情。
  • 文生视频与图生视频:支持Text-to-Video(文生视频)和Image-to-Video(图生视频)两种生成方式。
  • 多场景支持:支持处理单人镜头和多人构图,适用于复杂的场景和情感表达。

SkyReels-V1 的技术原理

  • 自研数据清洗与标注管线:使用高质量的影视数据(如好莱坞电影、电视剧等)进行训练,基于自研数据清洗和标注管线,对人物表情、动作、场景等进行精细化标注,提升模型对人类表演的理解能力。
  • 多阶段预训练与微调
    • 阶段1:模型域适应预训练,将基础模型适配到人类中心视频领域。
    • 阶段2:将文本到视频模型转换为图像到视频模型,在相同数据集上进行预训练。
    • 阶段3:在高质量子集上进行微调,确保模型在复杂视频生成任务中的高性能。
  • 多模态理解与生成:结合人物表情、动作、场景和剧情的多模态理解,构建行为语义单元和人物空间位置感知技术,实现精准的人物表演生成。
  • 高效的推理优化:采用FP8量化、参数级卸载(offload)和优化的注意力机制(如SageAttn),大幅降低显存占用并提升推理速度。支持多GPU并行推理,基于分布式计算进一步提高生成效率。

如何运行 SkyReels-V1

1. 克隆仓库

git clone https://github.com/SkyworkAI/SkyReels-V1
cd skyreelsinfer
AI 代码解读

2. 安装依赖

推荐使用CUDA 12.2版本进行手动安装。

pip install -r requirements.txt
AI 代码解读

当有足够的VRAM时(例如A800),可以直接运行无损版本。

3. 生成视频示例

SkyReelsModel = "Skywork/SkyReels-V1-Hunyuan-T2V"
python3 video_generate.py \
    --model_id ${SkyReelsModel} \
    --task_type t2v \
    --guidance_scale 6.0 \
    --height 544 \
    --width 960 \
    --num_frames 97 \
    --prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool" \
    --embedded_guidance_scale 1.0
AI 代码解读

4. 使用 FP8 量化和 offload 优化

python3 video_generate.py \
    --model_id ${SkyReelsModel} \
    --task_type t2v \
    --guidance_scale 6.0 \
    --height 544 \
    --width 960 \
    --num_frames 97 \
    --prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool" \
    --embedded_guidance_scale 1.0 \
    --quant \
    --offload \
    --high_cpu_memory \
    --parameters_level
AI 代码解读

5. 多GPU并行推理

python3 video_generate.py \
    --model_id ${SkyReelsModel} \
    --guidance_scale 6.0 \
    --height 544 \
    --width 960 \
    --num_frames 97 \
    --prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool" \
    --embedded_guidance_scale 1.0 \
    --quant \
    --offload \
    --high_cpu_memory \
    --gpu_num $GPU_NUM
AI 代码解读

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

目录
打赏
0
92
92
3
343
分享
相关文章
健康监测设备的技术革命:AI+物联网如何让你随时掌握健康数据?
健康监测设备的技术革命:AI+物联网如何让你随时掌握健康数据?
67 19
ReCamMaster:视频运镜AI革命!单镜头秒变多机位,AI重渲染颠覆创作
ReCamMaster 是由浙江大学与快手科技联合推出的视频重渲染框架,能够根据用户指定的相机轨迹重新生成视频内容,广泛应用于视频创作、后期制作、教育等领域,提升创作自由度和质量。
129 0
Manus再遭复刻!开源多智能体协作工具,实时查看每个AI员工的"脑回路"
LangManus 是一个基于分层多智能体系统的 AI 自动化框架,支持多种语言模型和工具集成,能够高效完成复杂任务,适用于人力资源、房产决策、旅行规划等多个场景。
267 0
Dify-Plus:企业级AI管理核弹!开源方案吊打SaaS,额度+密钥+鉴权系统全面集成
Dify-Plus 是基于 Dify 二次开发的企业级增强版项目,新增用户额度、密钥管理、Web 登录鉴权等功能,优化权限管理,适合企业场景使用。
92 3
Dify-Plus:企业级AI管理核弹!开源方案吊打SaaS,额度+密钥+鉴权系统全面集成
Multi-Agent Orchestrator:亚马逊开源AI智能体自动协作黑科技!重构人机交互逻辑,1秒精准分配任务
Multi-Agent Orchestrator 是亚马逊开源的多智能体框架,能够动态分配代理、维护上下文、支持多种代理类型,适用于客户服务、智能交通、物流配送等复杂场景。
31 9
Multi-Agent Orchestrator:亚马逊开源AI智能体自动协作黑科技!重构人机交互逻辑,1秒精准分配任务
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
Agent TARS 是一款开源的多模态AI助手,能够通过视觉解析网页并无缝集成命令行和文件系统,帮助用户高效完成复杂任务。
1512 3
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
轻量级AI革命:无需GPU就能运算的DeepSeek-R1-1.5B模型及其低配部署指南
随着AI技术发展,大语言模型成为产业智能化的关键工具。DeepSeek系列模型以其创新架构和高效性能备受关注,其中R1-1.5B作为参数量最小的版本,适合资源受限场景。其部署仅需4核CPU、8GB RAM及15GB SSD,适用于移动对话、智能助手等任务。相比参数更大的R1-35B与R1-67B+,R1-1.5B成本低、效率高,支持数学计算、代码生成等多领域应用,是个人开发者和初创企业的理想选择。未来,DeepSeek有望推出更多小型化模型,拓展低资源设备的AI生态。
31 8
当ChatGPT能写情书、Sora会造电影:我们必须掌握的AI内容识别技能
随着AI技术迅猛发展,AI生成内容在文学、新闻、绘画等领域广泛应用,但其真假难辨、质量参差不齐,可能带来信息误导、知识产权侵犯及安全风险等问题。学会识别AI生成内容至关重要,包括通过逻辑漏洞排查、语言风格分析、生物特征异常检测等手段审核文本、图片和视频。人工审核在面对高隐蔽性内容时仍不可替代,需结合工具与上下文理解共同筑起防护屏障。守护真实信息、规避风险,是每个人在AI时代应尽的责任。
53 7
YT Navigator:AI秒搜YouTube!自然语言直达视频关键帧
YT Navigator 是一款 AI 驱动的 YouTube 内容搜索工具,通过自然语言查询快速定位视频中的关键信息,支持与视频内容对话,适用于研究人员、学生和内容创作者。
45 0
YT Navigator:AI秒搜YouTube!自然语言直达视频关键帧
1.4K star!几分钟搞定AI视频创作,这个开源神器让故事可视化如此简单!
story-flicks 是一个基于AI技术的自动化视频生成工具,能够将文字剧本快速转化为高质量短视频。开发者@alecm20通过深度学习算法,实现了从文本解析到视频合成的全流程自动化处理,支持多平台适配输出,是内容创作者和自媒体运营者的效率神器。

热门文章

最新文章