只需任意一张人物图片,就可以生成该人物的科目三舞蹈视频 - AIGC 中的 Image-to-Video 技术

简介: 只需任意一张人物图片,就可以生成该人物的科目三舞蹈视频 - AIGC 中的 Image-to-Video 技术

这是儿子寒假在家,我和他一起玩阿里通义千问后的一篇笔记。

通义千问有一个全民舞王的功能。选择一个舞蹈模版,然后上传一张人物全身照片,即可生成一段10秒钟左右的视频。


卡通人物的图片也行。

比如我用了弗利萨大王和沙鲁的图片:



点击立即生成按钮,然后等大概15分钟就完成了。视频制作是在阿里服务器上异步执行,所以不会消耗手机资源。点了按钮之后,去做其他事情就行了,制作完成会收到 App 的通知。


弗利萨大王和沙鲁的科目三舞蹈视频效果,如下所示。

这个基于静止的图片生成视频,看起来是让一张静止的图片动起来,实际是 AIGC 领域的 Image-To-Video 技术,Github 地址

论文地址:

https://arxiv.org/abs/2311.17117

论文讲了什么内容?

接下来,是 ChatGPT 时间。

把这个 PDF 下载到本地,在 ChatGPT 市场里,搜索关键字 PDF 搜索,选择排名第一的 AI PDF:

把我本地下载的论文,上传到 AI PDF 指定的存储仓库去,生成链接,然后让它给我写一篇 2000 字的文章,把这篇论文的大意概述如下:

AI PDF 瞬间就把 2000 字的文章写好了,这个所谓 Animate Anyone 的技术论文,主要内容我罗列在下方了,非常高效。

本文余下部分图片,来自链接:https://arxiv.org/abs/2311.17117

在论文《Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation》中,来自阿里巴巴集团智能计算研究所的 Li Hu, Xin Gao, Peng Zhang, Ke Sun, Bang Zhang, Liefeng Bo 等研究者提出了一种创新的图像到视频合成技术,旨在实现角色动画的一致性和可控性。这项技术基于扩散模型,专为保持角色外观细节的一致性和生成视频的时间连续性而设计。以下是对该论文的详细总结,包括方法介绍、关键技术、实验结果及其意义。

技术背景

角色动画的图像到视频合成是一项挑战性任务,需要从静态图像中生成动态视频,同时保持角色的外观细节一致性和动作的时间连续性。尽管近年来基于生成对抗网络(GANs)和扩散模型的视觉生成研究取得了显著进展,但在角色动画领域,如何有效地维持角色在视频序列中的一致性和控制性依然是一个未解决的问题。

方法概述

研究者提出的 Animate Anyone 方法采用了扩散模型的架构,通过引入两个关键组件——ReferenceNet 和 Pose Guider——来解决上述挑战。ReferenceNet 负责从参考图像中提取并合并细节特征,以保持角色外观的一致性;而 Pose Guider 则用于实现姿态的可控性,指导角色动作的生成,确保视频的时间连续性。

关键技术

  1. ReferenceNet:为了保持生成视频中角色外观的一致性,ReferenceNet 采用空间注意力机制,从参考图像中提取细节特征并融合至视频生成过程中。这一设计使得模型能够精确保留参考角色的复杂外观特征。
  2. Pose Guider:为了实现动作的可控性和时间连续性,Pose Guider 将姿态控制信号有效集成到去噪过程中,通过空间和时间上的建模确保角色动作的连续平滑过渡。
  3. 训练策略:研究者采用了两阶段训练策略,首先在单帧噪声输入下对模型进行训练,然后引入时间层进行视频序列的训练,以实现时间上的连续性和控制性。


实验结果

  1. 定性分析:通过一系列实验,展示了模型在各种角色上的动画效果,包括全身人物、半身肖像、卡通角色等。结果显示,该方法能够生成高清晰度、一致性和连续性都较好的角色动画视频。
  2. 定量比较:在时尚视频合成和人类舞蹈生成的特定基准测试中,与其他图像动画方法相比,提出的方法在多个评价指标(如SSIM、PSNR、LPIPS和FVD)上表现优异,证明了其在保持角色外观一致性和动作连续性方面的先进性。


局限性与未来工作

尽管 Animate Anyone 方法在角色动画的图像到视频合成领域取得了显著成果,但研究者也指出了几个局限性,包括手部动作的生成稳定性、从单一视角生成未见部分的困难以及相对较低的操作效率。未来的工作将致力于解决这些问题,进一步提高生成视频的质量和效率。

Animate Anyone 方法通过创新的技术方案,在角色动画的图像到视频合成任务中实现了一致性和可控性的突破。这项工作不仅为未来的图像到视频应用提供了有力的技术支持,也为相关领域的研究提供了新的思路和方向。

相关文章
|
29天前
|
人工智能 自然语言处理 开发者
AIGC创作活动 | 跟着UP主秋葉一起部署AI视频生成应用!
本次AI创作活动由 B 站知名 AI Up 主“秋葉aaaki”带您学习在阿里云 模型在线服务(PAI-EAS)中零代码、一键部署基于ComfyUI和Stable Video Diffusion模型的AI视频生成Web应用,快速实现文本生成视频的AI生成解决方案,帮助您完成社交平台短视频内容生成、动画制作等任务。制作上传专属GIF视频,即有机会赢取乐歌M2S台式升降桌、天猫精灵、定制保温杯等好礼!
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(LLM、AGI和AIGC都是什么)(一)
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(LLM、AGI和AIGC都是什么)
58 0
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
【活动】AIGC 技术的发展现状与未来趋势
AIGC技术现正快速发展,涉及文本、图像、音频和视频生成。GPT-3等模型已能生成连贯文本,GANs创造高质量图像,WaveNet合成逼真音频。尽管面临质量控制、原创性、可解释性和安全性的挑战,未来趋势将聚焦更高生成质量、多模态内容、个性化定制、增强可解释性和透明度,以及关注安全性和伦理问题。AIGC将在多领域创造更多可能性。
28 3
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
【AIGC】文档智能助手技术解决方案报告
【4月更文挑战第14天】智能文档处理助手技术解决方案报告整理输出
|
6天前
|
人工智能 搜索推荐 UED
如何评价AIGC技术的社会需求和市场环境?
【4月更文挑战第30天】如何评价AIGC技术的社会需求和市场环境?
14 0
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC技术是什么?
【4月更文挑战第30天】AIGC技术是什么?
16 0
|
6天前
|
人工智能 搜索推荐
如何利用AIGC技术实现个性化定制的绘画作品?
【4月更文挑战第30天】如何利用AIGC技术实现个性化定制的绘画作品?
12 1
|
7天前
|
人工智能 搜索推荐 测试技术
你是如何看待AIGC技术的?
AIGC(AI Generated Content)技术,即人工智能生成内容技术,是指利用人工智能技术来生成文本、图片、音频、视频等内容的生产方式。这一技术在近年来得到了迅速发展,并且在多个领域展现出巨大的潜力和应用价值。
|
11天前
|
人工智能 监控 供应链
如何看待AIGC技术
如何看待AIGC技术
21 1
|
12天前
|
机器学习/深度学习 监控 算法
[AIGC] 计算机视觉(CV)技术的优势:
[AIGC] 计算机视觉(CV)技术的优势: