用1张图像生成数字人,快来制作你的AI视频吧~

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 最近魔搭上线了一项新能力——仅需输入单张人像照片,利用文字或语音驱动即可秒级生成数字人AI视频!这让小编的短视频UP梦又重新启航燃起了希望!它完全解救了社恐星人,图生视频能力替你说话、唱歌、讲段子、吟诗....无需再对着摄像头NG,一整个绝绝子叠buff!


01

导读


最近魔搭上线了一项新能力——仅需输入单张人像照片,利用文字或语音驱动即可秒级生成数字人AI视频!这让小编的短视频UP梦又重新启航燃起了希望!它完全解救了社恐星人,图生视频能力替你说话、唱歌、讲段子、吟诗....无需再对着摄像头NG,一整个绝绝子叠buff!

https://live.csdn.net/v/318703

颤抖的心,激动的手,看了如上用图片秒级生成视频的demo,接下来小编为大家解锁不同的玩法,并揭秘其中的技术原理,多视频预警!


02

玩法大赏


1、让它替你唱歌、Rap、讲段子....秒变演绎大咖

https://live.csdn.net/v/318704

https://live.csdn.net/v/318707

https://live.csdn.net/v/318710

2、快速制作企业数字形象名片

https://live.csdn.net/v/318709


3、多语种、多方言智能播报和讲解,更是不在话下

https://live.csdn.net/v/318708

https://live.csdn.net/v/318711


4、风格视频也是信手拈来

https://live.csdn.net/v/318727


咱们试想一下,有了通义万相文生图的能力,再叠加单图生成视频的能力,仅需要几个字,咱们就可以秒级生成数字人AI视频,这里面的趣味玩法欢迎来解锁。


03

技术探秘


作为达摩院XR实验室首个在魔搭上线的创空间,我们也为大家揭秘这其中的核心技术点。

Live Portrait pipeline示意图


单图生成视频Live Portrait的能力可以划分为两个模块:运动模块(Motion Module)和生成模块(Generation Module)。


Motion Module

  • 输入:用户上传的文字或音频
  • 输出:稠密运动序列
  • 描述:如果用户上传的是一段文字,我们会首先使用Text-to-Speech(TTS)技术将其转化为音频;我们将【音频、固定的头姿序列、随机的眨眼信号】输入Motion Net,预测得到嘴部运动特征(Lip Motion)、头部运动特征(Head Motion)和眼部运动特征(Eyes motion);随后,我们用一个简单的网络将三种运动特种融合并生成稠密运动序列(Piexl-Level Dense Motion Sequence)


Generation Module

  • 输入:用户上传的照片 + Motion Module输出的稠密运动序列
  • 输出:生成说话视频
  • 描述:首先,我们将用户上传的照片输入Encoder得到中间层特征;随后,我们用Motion Module生成的稠密运动序列对原图和特征进行变形操作(warp),并将变形后的图片和特征进行拼接,输入Decoder生成最终的说话视频序列。


04

如何使用


1、注册并登陆魔搭平台

进入ModelScope官网:https://modelscope.cn/home,点击右上角“登陆/注册”,进入注册页面,并填写注册所需信息完成注册。建议用手机号注册最快。


2、访问单图生成视频LivePortrait的创空间页面

账号登陆后进入创空间页面 https://modelscope.cn/studios/DAMOXR/LivePortrait/summary


3、选择示例输入,即可在快速生成视频并下载(简易体验版)




4、充分发挥你的创意(充分体验版)


文本驱动

音频驱动



小Tips:请上传有版权的肖像照,涉及政治敏感等内容将被过滤。

如上配置完毕后请确认授权后开始生成




获取/保存视频结果


还在等什么,让我们一起来点燃梦想,铸就辉煌,在AIGC的路上成就更好的你!

目录
打赏
0
1
2
3
690
分享
相关文章
一键解锁 AI 动画视频创作,赢好礼
短视频行业的快速增长使得内容创作的速度和质量成为竞争关键。传统动画故事制作复杂且昂贵,限制了创作者对市场热点的快速反应和创新实现。本方案通过 AI 生成剧本和动画,简化创作流程并降低技术门槛,使创作者能高效生产高质量作品,迅速适应市场需求。
重磅发布的「AI视频通话」如何10分钟就实现?
2024年,OpenAI发布GPT-4o,支持文本、音频和图像的组合输入与输出,使交互更接近自然交流。传统语音助手需经历多阶段处理,容易出现延迟或误解,体验感差。本文介绍如何在阿里云上快速创建可视频通话的AI智能体,实现拟人化交互、精准感知、情绪捕捉等功能,提供高质量、低延时的音视频通话体验。通过简单的部署流程,用户可以轻松创建并体验这一先进的人机交互技术。点击“阅读原文”参与活动赢取惊喜礼物。
SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!
SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型,支持高质量影视级视频生成、33种细腻表情和400多种自然动作组合。
298 92
SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。
221 2
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
Light-A-Video:好莱坞级打光自由!上海AI Lab开源视频打光AI,无需训练秒改画面氛围,3步让阴天变夕阳
Light-A-Video 是由上海AI Lab联合交大等高校推出的无需训练的视频重照明方法,支持高质量、时间一致的光照控制,零样本生成和前景背景分离处理。
35 9
Migician:清北华科联手放大招!多图像定位大模型问世:3秒锁定跨画面目标,安防监控迎来AI革命!
Migician 是北交大联合清华、华中科大推出的多模态视觉定位模型,支持自由形式的跨图像精确定位、灵活输入形式和多种复杂任务。
60 3
Migician:清北华科联手放大招!多图像定位大模型问世:3秒锁定跨画面目标,安防监控迎来AI革命!
DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成
DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法,支持多实体独立运动控制、高质量视频生成,并在 FID、FVD 和用户研究等评估指标上达到最佳性能。
62 10
DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。
151 17
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
125 24
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
99 9

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等