用1张图像生成数字人,快来制作你的AI视频吧~

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 最近魔搭上线了一项新能力——仅需输入单张人像照片,利用文字或语音驱动即可秒级生成数字人AI视频!这让小编的短视频UP梦又重新启航燃起了希望!它完全解救了社恐星人,图生视频能力替你说话、唱歌、讲段子、吟诗....无需再对着摄像头NG,一整个绝绝子叠buff!


01

导读


最近魔搭上线了一项新能力——仅需输入单张人像照片,利用文字或语音驱动即可秒级生成数字人AI视频!这让小编的短视频UP梦又重新启航燃起了希望!它完全解救了社恐星人,图生视频能力替你说话、唱歌、讲段子、吟诗....无需再对着摄像头NG,一整个绝绝子叠buff!

https://live.csdn.net/v/318703

颤抖的心,激动的手,看了如上用图片秒级生成视频的demo,接下来小编为大家解锁不同的玩法,并揭秘其中的技术原理,多视频预警!


02

玩法大赏


1、让它替你唱歌、Rap、讲段子....秒变演绎大咖

https://live.csdn.net/v/318704

https://live.csdn.net/v/318707

https://live.csdn.net/v/318710

2、快速制作企业数字形象名片

https://live.csdn.net/v/318709


3、多语种、多方言智能播报和讲解,更是不在话下

https://live.csdn.net/v/318708

https://live.csdn.net/v/318711


4、风格视频也是信手拈来

https://live.csdn.net/v/318727


咱们试想一下,有了通义万相文生图的能力,再叠加单图生成视频的能力,仅需要几个字,咱们就可以秒级生成数字人AI视频,这里面的趣味玩法欢迎来解锁。


03

技术探秘


作为达摩院XR实验室首个在魔搭上线的创空间,我们也为大家揭秘这其中的核心技术点。

Live Portrait pipeline示意图


单图生成视频Live Portrait的能力可以划分为两个模块:运动模块(Motion Module)和生成模块(Generation Module)。


Motion Module

  • 输入:用户上传的文字或音频
  • 输出:稠密运动序列
  • 描述:如果用户上传的是一段文字,我们会首先使用Text-to-Speech(TTS)技术将其转化为音频;我们将【音频、固定的头姿序列、随机的眨眼信号】输入Motion Net,预测得到嘴部运动特征(Lip Motion)、头部运动特征(Head Motion)和眼部运动特征(Eyes motion);随后,我们用一个简单的网络将三种运动特种融合并生成稠密运动序列(Piexl-Level Dense Motion Sequence)


Generation Module

  • 输入:用户上传的照片 + Motion Module输出的稠密运动序列
  • 输出:生成说话视频
  • 描述:首先,我们将用户上传的照片输入Encoder得到中间层特征;随后,我们用Motion Module生成的稠密运动序列对原图和特征进行变形操作(warp),并将变形后的图片和特征进行拼接,输入Decoder生成最终的说话视频序列。


04

如何使用


1、注册并登陆魔搭平台

进入ModelScope官网:https://modelscope.cn/home,点击右上角“登陆/注册”,进入注册页面,并填写注册所需信息完成注册。建议用手机号注册最快。


2、访问单图生成视频LivePortrait的创空间页面

账号登陆后进入创空间页面 https://modelscope.cn/studios/DAMOXR/LivePortrait/summary


3、选择示例输入,即可在快速生成视频并下载(简易体验版)




4、充分发挥你的创意(充分体验版)


文本驱动

音频驱动



小Tips:请上传有版权的肖像照,涉及政治敏感等内容将被过滤。

如上配置完毕后请确认授权后开始生成




获取/保存视频结果


还在等什么,让我们一起来点燃梦想,铸就辉煌,在AIGC的路上成就更好的你!

相关文章
|
4天前
|
人工智能 API 数据安全/隐私保护
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
91 11
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
|
2月前
|
人工智能 自然语言处理 数据可视化
AI视频培训|格律诗AI 视频创作与自媒体传播——某诗词学会
近日,TsingtaoAI派驻专家团队为某诗词学会学员交付《格律诗AI 视频创作与自媒体传播》培训。本课程精准切中行业痛点——传统诗词创作与现代传播方式的断层。课程摒弃泛泛而谈,直击实操:首日聚焦"工具认知+创作逻辑",系统梳理即梦、可灵等国产AI工具在格律诗意象可视化中的差异化应用,如将"月光在指尖碎裂"转化为动态场景;次日深入"语音表达+自媒体运营",传授用魔音工坊生成情感化配音、坤行数字人打造诗人形象的秘技,更结合抖音、小红书平台特性,解析"前5秒高光片段设计"等流量密码。
88 3
|
12天前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
167 41
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
226 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
5月前
|
人工智能 自然语言处理 算法
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
433 0
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
|
25天前
|
人工智能 编解码 自然语言处理
重磅更新!ModelScope FlowBench 支持视频生成 + 图像编辑,AI创作全面升级!
很高兴地向大家宣布,ModelScope FlowBench 客户端迎来重大功能升级! 本次更新不仅正式支持了视频节点功能,还新增了图像编辑与IC-Light智能打光等实用功能,同时对多个图像处理节点进行了深度优化和扩展。现在,您只需在 FlowBench 中轻松串联节点,即可使用 Wan2.1/Wan2.2、Qwen-Image-Edit、FLUX Kontext、IC-Light等强大模型,轻松实现创意内容的生成与编辑。 无论你是内容创作者、视觉设计师,还是AI技术爱好者,这次更新都将为你打开全新的创作边界。
345 14
|
2月前
|
人工智能 自然语言处理 机器人
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
|
1月前
|
机器学习/深度学习 人工智能 编解码
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
|
21天前
|
存储 自然语言处理 搜索推荐
从音频与照片生成数字人视频:阿里云百炼工作流打造“超级数字人”全流程解析
阿里云百炼上线通义万相2.2数字人视频生成模型S2V,支持音频+单张人像生成个性化数字人视频。结合Qwen-TTS、Qwen-Image与IMS智能剪辑,打造从内容生成到视频输出的全自动“超级数字人”工作流,大幅提升制作效率与质量。
583 2

热门文章

最新文章