『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!

简介: 『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!

1、Video-Tetalking


Video-ReTalking 是一个利用AI实现视频人物嘴型与输入的声音同步的创新技术。简单来说,就是输入任意一个视频和一个音频文件,在生成的新视频中,人物的嘴型会与音频同步。

它不仅可以让嘴型与声音同步,还可以根据声音改变视频中人物的表情。整个过程不需要用户干预,都是自动完成的。很多博主大佬通过此项目构建了属于自己的AI数字人,是不是很有意思。


Star量:2.5K+


在线体验:https://colab.research.google.com/github/vinthony/video-retalking/blob/main/quick_demo.ipynb


项目地址:https://github.com/OpenTalker/video-retalking


系统为实现这一目标,分解为三个连续的任务:

  • 具有规范表达的人脸视频生成;
  • 音频驱动的口型同步;
  • 面部增强以提高照片真实感。


给定一个头部说话的视频,首先使用 表情编辑网络 根据相同的表情模板修改每一帧的表情,从而产生具有规范表情的视频。


然后将该视频与给定的音频一起输入到口型同步网络以生成口型同步视频。


最后,通过身份感知面部增强网络和后处理来提高合成面部的照片真实感。


以上所有三个步骤都使用基于学习的方法,并且所有模块都可以在顺序管道中处理,无需任何用户干预。


2、Autogen


Autogen 是微软团队研发的一个多代理框架,利用它可以轻松定制一系列工作任务,简直太强大了。


Star量:14.2K+


项目地址:https://github.com/microsoft/autogen

举一个例子来说,我们要实现一个爬虫程序,抓取并保存网页图片。如果把这个任务丢给 ChatGPT,它会直接返回一串可执行代码,但是代码通常会存在问题,例如执行报错、缺少依赖等,你需要反复跟 ChatGPT 对话来完善程序。


当然,我们也可以设定一个复杂 Prompt,要求它调用 ChatGPT 的代码执行插件,如果存在报错,则继续修正程序。(案例来源:Barret李靖)


但是这个任务如果交给 AutoGen 来实现,将会变得无比简单,几行代码就可以搞定:

  • 定义一个 Assistant Agent,它的任务是解决问题
  • 定义一个 UserProxy Agent,它的任务是替代人询问问题,同时在本地执行程序

这两个 Agent 都不需要给他们设置 Prompt。当我们把爬虫任务交给 UserProxy 后,它会理解任务, 然后询问 Assistant 应该如何做,Assistant 会把操作过程告诉 UserProxy,接着 UserProxy 会根据指示在本地安装依赖,然后创建文件执行代码,如果执行出现错误,它会把详细报错提交给 Assistant,依次循环,直到可以获取到最终的结果。 任务结束的时候,你会看到目标图片已经保存到本地磁盘了。


3、shap-e


shap-e 是OpenAI(ChatGPT开发商)开源的一款新模型,用来生成以文本或图像为条件的 3D 对象。以其创新方法改变了 3D 应用领域。允许用户在计算机上无缝运行它,而无需 OpenAI API 密钥或互联网连接。


Star量:10.5K+


项目地址:https://github.com/openai/shap-e

下图便是“An airplane that looks like a banana” 的 3D 图。而它的使用也非常简单,安装一个包即可:

pip install -e .

该项目最好搭配3D设计器一起使用!对于3D设计师非常有帮助。


4、Slidev


Slidev 是一款专门为开发者打造的演示文稿工具。通过Slidev,我们只要使用熟悉的Markdown就可以做出炫酷的PPT来,同时拥有支持HTML和Vue组件的能力,并且能够呈现像素级完美的布局。

Star量:28.5K+


官方地址:cn.sli.dev


项目地址:https://github.com/slidevjs/slidev

作为一个习惯于编码还不习惯于汇报的普通程序员,PPT 这种东西,制作起来实在是有难度。无论是用PowerPoint,WPS, 使用时总是无从下手。而 Slidev 这款工具正好适合,搭配md文档,效率极高,功能强大,令人惊喜。


5、Pake


Pake 是一个用 Rust语言 开发的轻量级工具,可以将网页打包成桌面应用。很适合想打包WEB应用的人群进行使用。毕竟Web应用只能基于浏览器进行使用,而Pake可以将其打包作为独立应用进行使用。


Star量:18.9K+


项目地址:https://github.com/tw93/Pake


相比传统的 Electron 打包,Pake 打包出来的应用体积小20倍左右,并且性能和体验也优于JS框架。

Pake 不仅可以简单地打包网页,还实现了快捷键透传、沉浸式窗口、拖拽、样式改写、去广告等功能,可以深度定制产品的风格。


Pake 支持Mac、Windows和Linux系统,可以将同一个网页在多个平台打包成桌面应用分发。

▲ 图片来源于网络


6、Refine


refine 是一个基于React的项目,是一个开源的、无头的 Web 应用框架,旨在帮助用户自由构建CRUD(创建、读取、更新、删除)应用程序,而不受任何约束。


Star量:15.7K+


官方地址:refine.dev


项目地址:https://github.com/refinedev/refine


它提供了灵活性和可定制性,让开发人员能够根据其需求构建CRUD应用程序。Refine使应用程序的开发更加自由,减少了开发周期,同时提供了丰富的功能。


它具有以下主要功能和核心优势:


  • 提供了内部钩子和组件,简化了开发过程并消除了重复任务。
  • 支持身份验证、访问控制、路由、网络通信等关键方面的行业标准解决方案。
  • 采用无头设计,提供无限样式定制选项,并与自定义设计或 UI 框架 (如 TailwindCSS) 完美配合使用。
  • 可以集成 Ant Design,Material UI,Mantine 和 Chakra UI 等流行 UI 库快速启动项目。


此外,refine 还具有以下特点:

  • 零配置,在一分钟内完成设置
  • 连接器支持 15+ 后端服务
  • 支持 Next.js 或 Remix 进行服务器渲染 (SSR)
相关文章
|
11月前
|
人工智能 数据可视化 程序员
程序员必收藏!Github 167000+ star 的自主AI agent,全自动AI助手,全面覆盖开发效率场景
AutoGPT 是基于 GPT-4 的开源自主 AI 智能代理,全面覆盖开发效率场景。支持任务自动拆解、多轮反馈、插件扩展与记忆管理,具备持续执行能力,适合自动化测试、CI/CD、Web 数据抓取等任务。GitHub 超 176K Star,是当前最热门的 AI Agent 开源项目之一,提供 CLI 与 GUI 双界面,助力开发者提升工作效率。
1461 1
|
10月前
|
人工智能 自然语言处理 JavaScript
Github又一AI黑科技项目,打造全栈架构,只需一个统一框架?
Motia 是一款现代化后端框架,融合 API 接口、后台任务、事件系统与 AI Agent,支持 JavaScript、TypeScript、Python 多语言协同开发。它提供可视化 Workbench、自动观测追踪、零配置部署等功能,帮助开发者高效构建事件驱动的工作流,显著降低部署与运维成本,提升 AI 项目落地效率。
808 0
|
人工智能 数据安全/隐私保护 计算机视觉
GitHub爆款神器 | IOPaint:21.7k star 开源AI图像修复项目,竟能秒删水印、拓展画幅!
IOPaint 是一款由 Sanster 团队开发的开源图像处理工具,集成多种 SOTA AI 模型,支持图像擦除、对象替换、文本绘制和图像外扩等功能。它操作简便,一键安装,适用于 Windows、macOS、Linux 和 Apple Silicon 系统,适合摄影爱好者、电商从业者及内容创作者使用,大幅提升图像处理效率。
2049 0
|
10月前
|
机器学习/深度学习 人工智能 前端开发
完蛋,GitHub 70000+ star,我把你(AI)当朋友,你却要代替我,前端同学这下彻底蹦不住了,真的不留一点活路!!!
Screenshot-to-Code 是一款 AI 驱动的开源工具,能将截图、Figma 设计稿或录屏内容快速转化为前端代码。支持 HTML、React、Vue 等多种技术栈,适配 GPT-4 Vision、Claude Sonnet 等 AI 模型,具备视频转原型、本地部署、高精度识别等功能,助力设计快速迭代与开发提效。
421 0
|
10月前
|
数据采集 人工智能 搜索推荐
完蛋啦,爆火Github项目,用微信聊天记录打造专属AI数字分身,我都不敢相信!!
WeClone 是一个基于微信或 Telegram 聊天记录微调大语言模型的开源项目,可打造专属 AI 数字分身。支持文本、图片等多模态数据,具备语言风格迁移和语音克隆功能,实现“说话像你”的AI角色。项目提供完整训练流程,支持本地部署,保护隐私,适用于个人数字分身、纪念机器人、客服助手等场景。
1937 0
|
12月前
|
人工智能 Serverless API
TaskingA在GitHub上已突破 5.1k stars!这是一个真正被开发者认可的 AI Agent平台,AI开发者必看,如何用它实现生产力逆袭?
TaskingAI 是一个 AI-native 应用开发平台,通过整合模型、检索、助手与工具模块,为开发者提供一站式的 BaaS(后端即服务)体验,简化 AI 应用从开发、测试、到部署的全过程 。
322 5
|
11月前
|
人工智能 缓存 监控
GitHub 8k star!Portkey AI Gateway 如何帮你3行代码接入1600+ LLM,实现成本、可靠性与安全三赢?
Portkey AI Gateway 是一个轻量级、高速、安全的中间层,帮助应用对接多模态 AI 模型,统一管理,快速落地。支持超1600款语言、视觉、音频、图像模型,通过 1 个 API 接口实现快速、可靠、安全的模型路由。具备智能路由、自动重试、缓存机制、合规控制等功能,助力企业高效构建 AI 应用。
958 0
|
存储 人工智能 自然语言处理
通义灵码 vs. GitHub Copilot:中国AI编码工具的破局之道
全球AI编码工具形成“双极格局”,GitHub Copilot凭借先发优势主导市场,而通义灵码通过差异化路径突围。技术层面,通义灵码在中文语境理解、云原生绑定上展现优势;生态方面,Copilot依托GitHub开源生态,通义灵码则深耕阿里云企业协同场景;开发者心智战中,通义灵码以数据合规、本土化服务及定制化能力取胜。这场较量不仅是技术的比拼,更是生态逻辑与开发者需求的全面博弈,彰显中国AI编码工具“换道超车”的潜力。
1710 19
|
12月前
|
SQL 人工智能 关系型数据库
GitHub 热门!MindsDB 破解 AI + 数据库瓶颈,究竟有什么惊艳亮点?只需 SQL 即可实现智能预测
MindsDB 是一款将 AI 能力直接注入数据库的开源工具,支持 MySQL、PostgreSQL 等多种数据库连接,通过 SQL 即可完成模型训练与预测。它提供 AutoML 引擎、LLM 集成、联邦查询等功能,简化 MLOps 流程,实现数据到智能的无缝衔接。项目在 GitHub 上已获 32.4k 星,社区活跃,适用于客户流失预警、推荐系统、情感分析等场景。开发者无需深入模型细节,即可快速构建智能解决方案。项目地址:https://github.com/mindsdb/mindsdb。
1628 0
|
人工智能 自然语言处理 搜索推荐
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
808 24
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人

热门文章

最新文章