备案控制台

开发者社区 ModelScope模型即服务文章正文

用1张图像生成数字人，快来制作你的AI视频吧~

2023-08-10 3969

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 最近魔搭上线了一项新能力——仅需输入单张人像照片，利用文字或语音驱动即可秒级生成数字人AI视频！这让小编的短视频UP梦又重新启航燃起了希望！它完全解救了社恐星人，图生视频能力替你说话、唱歌、讲段子、吟诗....无需再对着摄像头NG，一整个绝绝子叠buff！

01

导读

最近魔搭上线了一项新能力——仅需输入单张人像照片，利用文字或语音驱动即可秒级生成数字人AI视频！这让小编的短视频UP梦又重新启航燃起了希望！它完全解救了社恐星人，图生视频能力替你说话、唱歌、讲段子、吟诗....无需再对着摄像头NG，一整个绝绝子叠buff！

https://live.csdn.net/v/318703

颤抖的心，激动的手，看了如上用图片秒级生成视频的demo，接下来小编为大家解锁不同的玩法，并揭秘其中的技术原理，多视频预警！

02

玩法大赏

1、让它替你唱歌、Rap、讲段子....秒变演绎大咖

https://live.csdn.net/v/318704

https://live.csdn.net/v/318707

https://live.csdn.net/v/318710

2、快速制作企业数字形象名片

https://live.csdn.net/v/318709

3、多语种、多方言智能播报和讲解，更是不在话下

https://live.csdn.net/v/318708

https://live.csdn.net/v/318711

4、风格视频也是信手拈来

https://live.csdn.net/v/318727

咱们试想一下，有了通义万相文生图的能力，再叠加单图生成视频的能力，仅需要几个字，咱们就可以秒级生成数字人AI视频，这里面的趣味玩法欢迎来解锁。

03

技术探秘

作为达摩院XR实验室首个在魔搭上线的创空间，我们也为大家揭秘这其中的核心技术点。

Live Portrait pipeline示意图

单图生成视频Live Portrait的能力可以划分为两个模块：运动模块（Motion Module）和生成模块（Generation Module）。

Motion Module

输入：用户上传的文字或音频
输出：稠密运动序列
描述：如果用户上传的是一段文字，我们会首先使用Text-to-Speech（TTS）技术将其转化为音频；我们将【音频、固定的头姿序列、随机的眨眼信号】输入Motion Net，预测得到嘴部运动特征（Lip Motion）、头部运动特征（Head Motion）和眼部运动特征（Eyes motion）；随后，我们用一个简单的网络将三种运动特种融合并生成稠密运动序列（Piexl-Level Dense Motion Sequence）

Generation Module

输入：用户上传的照片 + Motion Module输出的稠密运动序列
输出：生成说话视频
描述：首先，我们将用户上传的照片输入Encoder得到中间层特征；随后，我们用Motion Module生成的稠密运动序列对原图和特征进行变形操作（warp），并将变形后的图片和特征进行拼接，输入Decoder生成最终的说话视频序列。

04

如何使用

1、注册并登陆魔搭平台

进入ModelScope官网：https://modelscope.cn/home，点击右上角“登陆/注册”，进入注册页面，并填写注册所需信息完成注册。建议用手机号注册最快。

2、访问单图生成视频LivePortrait的创空间页面

账号登陆后进入创空间页面 https://modelscope.cn/studios/DAMOXR/LivePortrait/summary

3、选择示例输入，即可在快速生成视频并下载（简易体验版）

4、充分发挥你的创意（充分体验版）

文本驱动

音频驱动

小Tips：请上传有版权的肖像照，涉及政治敏感等内容将被过滤。

如上配置完毕后请确认授权后开始生成

获取/保存视频结果

还在等什么，让我们一起来点燃梦想，铸就辉煌，在AIGC的路上成就更好的你！

文章标签：

虚拟数字人

语音技术

人工智能

达摩院

关键词：

AI视频

ai图像

虚拟数字人视频

图像AI

虚拟数字人ai

ModelScope运营小助手

目录

相关文章

卓伊凡

|

4天前

|

人工智能 API 数据安全/隐私保护

近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事？-优雅草卓伊凡

近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事？-优雅草卓伊凡

卓伊凡

91 11 12

近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事？-优雅草卓伊凡

TsingtaoAI

|

2月前

|

人工智能自然语言处理数据可视化

AI视频培训｜格律诗AI 视频创作与自媒体传播——某诗词学会

近日，TsingtaoAI派驻专家团队为某诗词学会学员交付《格律诗AI 视频创作与自媒体传播》培训。本课程精准切中行业痛点——传统诗词创作与现代传播方式的断层。课程摒弃泛泛而谈，直击实操：首日聚焦"工具认知+创作逻辑"，系统梳理即梦、可灵等国产AI工具在格律诗意象可视化中的差异化应用，如将"月光在指尖碎裂"转化为动态场景；次日深入"语音表达+自媒体运营"，传授用魔音工坊生成情感化配音、坤行数字人打造诗人形象的秘技，更结合抖音、小红书平台特性，解析"前5秒高光片段设计"等流量密码。

TsingtaoAI

88 3 3

JJLIN距离

|

12天前

|

人工智能缓存自然语言处理

Java与多模态AI：构建支持文本、图像和音频的智能应用

随着大模型从单一文本处理向多模态能力演进，现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案，涵盖从文件预处理、多模态推理到结果融合的全流程，为Java开发者打开通往下一代多模态AI应用的大门。

JJLIN距离

167 41 41

汀丶人工智能

|

18天前

|

机器学习/深度学习人工智能自然语言处理

AI Compass前沿速览：Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型

AI Compass前沿速览：Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型

汀丶人工智能

226 13 13

AI Compass前沿速览：Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型

卓伊凡

|

5月前

|

人工智能自然语言处理算法

AI智能混剪视频大模型开发方案：从文字到视频的自动化生成·优雅草卓伊凡

AI智能混剪视频大模型开发方案：从文字到视频的自动化生成·优雅草卓伊凡

卓伊凡

433 0 0

AI智能混剪视频大模型开发方案：从文字到视频的自动化生成·优雅草卓伊凡

modelscope

|

25天前

|

人工智能编解码自然语言处理

重磅更新！ModelScope FlowBench 支持视频生成 + 图像编辑，AI创作全面升级！

很高兴地向大家宣布，ModelScope FlowBench 客户端迎来重大功能升级！本次更新不仅正式支持了视频节点功能，还新增了图像编辑与IC-Light智能打光等实用功能，同时对多个图像处理节点进行了深度优化和扩展。现在，您只需在 FlowBench 中轻松串联节点，即可使用 Wan2.1/Wan2.2、Qwen-Image-Edit、FLUX Kontext、IC-Light等强大模型，轻松实现创意内容的生成与编辑。无论你是内容创作者、视觉设计师，还是AI技术爱好者，这次更新都将为你打开全新的创作边界。

modelscope

345 14 14

汀丶人工智能

|

2月前

|

人工智能自然语言处理机器人

AI Compass前沿速览：Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型

AI Compass前沿速览：Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型

汀丶人工智能

185 9 9

AI Compass前沿速览：Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型

汀丶人工智能

|

1月前

|

机器学习/深度学习人工智能编解码

AI Compass前沿速览：PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等

AI Compass前沿速览：PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等

汀丶人工智能

119 3 3

AI Compass前沿速览：PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等

bailiantest1

|

21天前

|

存储自然语言处理搜索推荐

从音频与照片生成数字人视频：阿里云百炼工作流打造“超级数字人”全流程解析

阿里云百炼上线通义万相2.2数字人视频生成模型S2V，支持音频+单张人像生成个性化数字人视频。结合Qwen-TTS、Qwen-Image与IMS智能剪辑，打造从内容生成到视频输出的全自动“超级数字人”工作流，大幅提升制作效率与质量。

bailiantest1

583 2 2

ModelScope模型即服务

热门文章

最新文章

92_自我反思提示：输出迭代优化

智谱旗舰模型GLM-4.6开源发布，代码能力对齐Claude Sonnet 4

144_推理时延优化：Profiling与瓶颈分析 - 使用PyTorch Profiler诊断推理延迟，优化矩阵运算的独特瓶颈

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

通义DeepResearch全面开源！同步分享可落地的高阶Agent构建方法论

Ling-1T，智渊、思简

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

45_混合专家模型：MoE架构详解

65_GPU选择：A100 vs RTX系列

Spring Boot中Spring Data JPA的常用注解

创空间什么时候支持docker？

用Macbook微调Qwen3！手把手教你用微调给Qwen起一个新名字

图像理解与生成统一模型——前沿模型架构理解

Jina Reranker v3: 全新“列式”重排器，0.6B参数刷新文档检索SOTA

Ling-1T，智渊、思简

智谱旗舰模型GLM-4.6开源发布，代码能力对齐Claude Sonnet 4

144_推理时延优化：Profiling与瓶颈分析 - 使用PyTorch Profiler诊断推理延迟，优化矩阵运算的独特瓶颈

106_模型合并：Task Arithmetic

142_故障容错：冗余与回滚机制 - 配置多副本的独特健康检查

相关课程

更多

AIGC无处不在，把AI应用构建于Serverless之上

【科技少年】AI领航员探索教程（赛前训练）

达摩院视觉AI精品课

AI开发者的Docker实践

趣味视觉AI应用入门与实战

AI数学基础

相关电子书

更多

AI原生应用开发实战营—Serverless AI专场·北京

阿里云 AI 原生应用开发实战营

3个月200家客户，聊聊企业AI应用(AI Agent)实践

相关实验场景

更多

通过OSS加速器加速AI数据传输

基于阿里云企业网盘搭建AI知识库

基于dify快速构建一款定制化AI工具

基于ECS部署一款规划行程的AI Agent

基于ECS部署DeepSeek个人专属AI网站

通过云原生API网关进行AI缓存

下一篇

阿里云云原生一体化数仓 — 数据治理新能力解读