『GitHub项目圈选周刊01』一款构建AI数字人项目开源了！自动实现音视频同步！

2024-03-18 2978

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 『GitHub项目圈选周刊01』一款构建AI数字人项目开源了！自动实现音视频同步！

1、Video-Tetalking

Video-ReTalking 是一个利用AI实现视频人物嘴型与输入的声音同步的创新技术。简单来说，就是输入任意一个视频和一个音频文件，在生成的新视频中，人物的嘴型会与音频同步。

它不仅可以让嘴型与声音同步，还可以根据声音改变视频中人物的表情。整个过程不需要用户干预，都是自动完成的。很多博主大佬通过此项目构建了属于自己的AI数字人，是不是很有意思。

Star量：2.5K+

在线体验：https://colab.research.google.com/github/vinthony/video-retalking/blob/main/quick_demo.ipynb

项目地址：https://github.com/OpenTalker/video-retalking

系统为实现这一目标，分解为三个连续的任务：

具有规范表达的人脸视频生成；
音频驱动的口型同步；
面部增强以提高照片真实感。

给定一个头部说话的视频，首先使用 表情编辑网络 根据相同的表情模板修改每一帧的表情，从而产生具有规范表情的视频。

然后将该视频与给定的音频一起输入到口型同步网络以生成口型同步视频。

最后，通过身份感知面部增强网络和后处理来提高合成面部的照片真实感。

以上所有三个步骤都使用基于学习的方法，并且所有模块都可以在顺序管道中处理，无需任何用户干预。

2、Autogen

Autogen 是微软团队研发的一个多代理框架，利用它可以轻松定制一系列工作任务，简直太强大了。

Star量：14.2K+

项目地址：https://github.com/microsoft/autogen

举一个例子来说，我们要实现一个爬虫程序，抓取并保存网页图片。如果把这个任务丢给 ChatGPT，它会直接返回一串可执行代码，但是代码通常会存在问题，例如执行报错、缺少依赖等，你需要反复跟 ChatGPT 对话来完善程序。

当然，我们也可以设定一个复杂 Prompt，要求它调用 ChatGPT 的代码执行插件，如果存在报错，则继续修正程序。（案例来源：Barret李靖）

但是这个任务如果交给 AutoGen 来实现，将会变得无比简单，几行代码就可以搞定：

定义一个 Assistant Agent，它的任务是解决问题
定义一个 UserProxy Agent，它的任务是替代人询问问题，同时在本地执行程序

这两个 Agent 都不需要给他们设置 Prompt。当我们把爬虫任务交给 UserProxy 后，它会理解任务， 然后询问 Assistant 应该如何做，Assistant 会把操作过程告诉 UserProxy，接着 UserProxy 会根据指示在本地安装依赖，然后创建文件执行代码，如果执行出现错误，它会把详细报错提交给 Assistant，依次循环，直到可以获取到最终的结果。 任务结束的时候，你会看到目标图片已经保存到本地磁盘了。