SkyReels-A1:解放动画师!昆仑开源「数字人制造机」:一张照片生成逼真虚拟主播,表情连眉毛颤动都可控

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: SkyReels-A1 是昆仑万维开源的首个 SOTA 级别表情动作可控的数字人生成模型,支持高保真肖像动画生成和精确的表情动作控制。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎬 “动画师要失业?中国首个开源表情可控的数字人生成引擎杀到:一张照片生成电影级微表情的虚拟主播,企业实测降本80%!”

大家好,我是蚝油菜花。当海外还在用百万美元的动捕设备时,中国AI已实现「静态肖像秒变动画影帝」——

这就是昆仑万维开源的 SkyReels-A1 ,全球首个达到SOTA级别的表情动作可控生成模型!它正在颠覆:

  • 🎮 游戏公司:角色动画制作周期从2周→2小时
  • 📱 短视频机构:网红数字分身量产成本降低90%
  • 🏥 医疗康复:面瘫患者表情重建精度达98.7%

基于 视频扩散模型+3D因果编码 的黑科技,不仅能精确控制眉毛颤动、嘴角弧度等0.1mm级变化,还能保持身份一致性——接下来我们将拆解这项「中国智造」如何把好莱坞级技术装进你的GPU!

🚀 快速阅读

SkyReels-A1 是昆仑万维开源的中国首个 SOTA 级别表情动作可控的数字人生成模型。

  1. 核心功能:支持高保真肖像动画生成,精确控制表情和动作。
  2. 技术原理:基于视频扩散模型、表情感知地标和时空对齐地标引导模块。

SkyReels-A1 是什么

SkyReels-A1

SkyReels-A1 是昆仑万维开源的中国首个 SOTA(State-of-the-Art)级别的基于视频基座模型的表情动作可控的数字人生成模型。它能够实现更精准可控的人物视频生成,支持多种人体比例(如肖像、半身及全身),生成高度逼真的动态视频。

SkyReels-A1 基于精准模拟人物表情变化、情绪、皮肤肌理和身体动作等细节,实现了高保真微表情还原。它支持侧脸表情控制、眉眼微表情生成,以及更大幅度的头部和身体动作,效果优于同类产品。

SkyReels-A1 的主要功能

  • 高保真肖像动画生成:从静态肖像生成动态视频,支持多种身体比例(如头部、半身、全身)。精确地将驱动视频中的表情和动作迁移到目标肖像上,同时保持身份一致性。
  • 表情和动作的精确控制:支持复杂表情(如微妙的眉眼动作、嘴唇运动)和全身动作的自然迁移。提供高保真的表情捕捉和动作驱动能力,适用于虚拟形象、远程通信和数字媒体生成。
  • 身份保持与自然融合:在动画生成过程中,确保生成的人物与原始肖像的身份高度一致,避免身份失真。

SkyReels-A1 的技术原理

SkyReels-A1-Framework

  • 视频扩散模型:基于逐步逆转噪声过程,将随机噪声转化为结构化的视频内容。扩散模型估计每个时间步的噪声,逐步生成高质量的视频帧。基于Transformer的自注意力机制,捕捉视频中的时空信息,生成连贯且自然的动态内容。
  • 表情感知地标:提取驱动视频中的表情地标(如面部关键点),作为动画生成的运动描述符。基于3D神经渲染模块,精确捕捉细微的表情变化(如眉毛、嘴唇的动作),融入生成过程中。
  • 时空对齐地标引导模块:使用3D因果编码器将地标信息映射到视频的潜在空间,确保驱动信号与生成视频的时空一致性。基于精细调整,增强运动信号的捕捉能力,确保生成视频的运动连贯性。
  • 面部图像-文本对齐模块:将面部特征映射到文本特征空间,增强身份一致性。基于融合视觉和文本特征,提高生成结果的准确性和身份保留能力。
  • 分阶段训练策略
    • 动作驱动训练:专注于将动作条件融入视频生成过程,优化运动表示。
    • 身份保持训练:优化面部特征的投影层,增强身份一致性。
    • 多模块联合微调:联合优化所有模块,提升模型的泛化能力和生成质量。

如何运行 SkyReels-A1

1. 克隆代码并准备环境

首先克隆仓库并安装依赖:

git clone https://github.com/SkyworkAI/SkyReels-A1.git
cd SkyReels-A1

# 创建并激活 Conda 环境
conda create -n skyreels-a1 python=3.10
conda activate skyreels-a1

# 安装依赖
pip install -r requirements.txt

2. 下载预训练权重

从 HuggingFace 下载预训练权重:

huggingface-cli download SkyReels-A1 --local-dir local_path --exclude "*.git*" "README.md" "docs"

3. 运行推理

运行推理脚本:

python inference.py

如果脚本运行成功,你将获得一个包含驱动视频、输入图像或视频以及生成结果的输出 mp4 文件。

4. 使用 Gradio 界面

运行 Gradio 界面以获得更好的交互体验:

python app.py

5. 计算评估指标

计算 SimFace、FID 和 L1 距离等评估指标:

python arc_score.py
python expression_score.py
python pose_score.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
10月前
|
人工智能 搜索推荐 vr&ar
数字人:虚拟世界的“真我”
数字人:虚拟世界的“真我”
117 1
|
10月前
|
数据采集 人工智能 Rust
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
1359 0
|
数据采集 机器学习/深度学习 人工智能
文心千帆:PPT 制作、数字人主播一键开播等数十种应用场景惊艳到我了,下面给出简介和使用指南,快去使用起来吧
文心千帆:PPT 制作、数字人主播一键开播等数十种应用场景惊艳到我了,下面给出简介和使用指南,快去使用起来吧
文心千帆:PPT 制作、数字人主播一键开播等数十种应用场景惊艳到我了,下面给出简介和使用指南,快去使用起来吧
|
12天前
|
存储 人工智能 Docker
Heygem:开源数字人克隆神器!1秒视频生成4K超高清AI形象,1080Ti显卡也能轻松跑
Heygem 是硅基智能推出的开源数字人模型,支持快速克隆形象和声音,30秒内完成克隆,60秒内生成4K超高清视频,适用于内容创作、直播、教育等场景。
951 7
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AigcPanel:开源的 AI 虚拟数字人系统,一键安装开箱即用,支持视频合成、声音合成和声音克隆
AigcPanel 是一款开源的 AI 虚拟数字人系统,支持视频合成、声音克隆等功能,适用于影视制作、虚拟主播、教育培训等多种场景。
488 12
AigcPanel:开源的 AI 虚拟数字人系统,一键安装开箱即用,支持视频合成、声音合成和声音克隆
|
3月前
|
人工智能 自然语言处理 前端开发
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
Lobe Vidol是一款开源的AI数字人交互平台,允许用户创建和互动自己的虚拟偶像。该平台提供流畅的对话体验、丰富的动作姿势库、优雅的用户界面设计以及多种技术支持,如文本到语音和语音到文本技术。Lobe Vidol适用于娱乐互动、在线教育、客户服务、品牌营销和社交媒体等多个应用场景。
253 7
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
|
4月前
|
人工智能 自然语言处理 并行计算
EchoMimicV2:阿里推出的开源数字人项目,能生成完整数字人半身动画
EchoMimicV2是阿里蚂蚁集团推出的开源数字人项目,能够生成完整的数字人半身动画。该项目基于参考图片、音频剪辑和手部姿势序列,通过音频-姿势动态协调策略生成高质量动画视频,确保音频内容与半身动作的一致性。EchoMimicV2不仅支持中文和英文驱动,还简化了动画生成过程中的复杂条件,适用于虚拟主播、在线教育、娱乐和游戏等多个应用场景。
1622 5
EchoMimicV2:阿里推出的开源数字人项目,能生成完整数字人半身动画
|
4月前
|
API 语音技术 开发者
基于开源技术的数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s
魔搭社区最近上线了基于开源技术的数字人实时对话demo,无需预训练即可使用自定义的数字人形象进行实时对话,支持语音输入和实时对话。
|
10月前
|
机器学习/深度学习 编解码 算法
微软诈骗届王牌框架,真到可怕!一张照片+音频即可生成数字人
【5月更文挑战第8天】微软发布VASA-1框架,仅需照片和音频即可实时创建逼真数字人,引发诈骗关注。该技术利用深度学习,将静态照片转为动态面部特征,根据音频生成唇动、表情和头部动作,实现高真实感、实时、多模态输入的数字人生成。尽管有广泛应用前景,如虚拟主播、游戏角色等,但其高真实度也可能加剧诈骗风险,需平衡技术创新与安全防范。[[论文链接](https://arxiv.org/pdf/2404.10667.pdf)]
236 0
|
10月前
|
机器学习/深度学习 自然语言处理 数据可视化
“数字人交互,与虚拟的自己互动”——用PaddleAvatar打造数字分身,探索人机交互的未来
“数字人交互,与虚拟的自己互动”——用PaddleAvatar打造数字分身,探索人机交互的未来

热门文章

最新文章