继 影视与游戏行业AI视频制作实战:第一步,角色形象设计的一致性以及影视与游戏行业AI视频制作实战:第二步,为角色生成个性化语音 后,实现角色生动化的下一步动作就是能让图像动起来。
今天给大家介绍目前常见的数字人说话视频的开源项目,按开源时间先后来做个评测:
其中,输入均为一张角色形象图片
和一个音频文件
示例音频
Sadtalker
项目主页:
PC端体验地址:
https://modelscope.cn/studios/CVstudio/cv_human_portrait
注意:需要切换到最后一个tab
步骤:
- 上传角色形象图片,
- 上传角色声音文件,
- 默认参数设置
生成效果如下:
效果点评:
作为较早开源的说话视频项目,支持多种参数设置,目前唇形和整体性有一些瑕疵,唇部有时候与语音不完全匹配,头部移动时与头发部分会出现分离现象。
Hallo
项目主页:
https://fudan-generative-vision.github.io/hallo/#/
PC端体验地址:
https://modelscope.cn/studios/AI-ModelScope/Hall
步骤:上传角色形象图片+角色声音文件
生成效果如下:
英文版:
效果点评:
Hallo目前还没有支持中文,所以中文效果一般,在英文的效果还是非常不错的,我们期待Hallo的中文效果。
EchoMimic
项目主页:
https://badtobest.github.io/echomimic
PC端体验地址:
https://modelscope.cn/studios/BadToBest/BadToBest
步骤:上传角色形象图片+角色声音文件
生成效果如下:
生成的视频会自动截取脸部位置,唇部和脸部动作较为自然,比较适合脸部特写视频,后期如果能保持上传图片的完整性,应用场景会更加广泛。