『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!

简介: 『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!

1、Video-Tetalking


Video-ReTalking 是一个利用AI实现视频人物嘴型与输入的声音同步的创新技术。简单来说,就是输入任意一个视频和一个音频文件,在生成的新视频中,人物的嘴型会与音频同步。

它不仅可以让嘴型与声音同步,还可以根据声音改变视频中人物的表情。整个过程不需要用户干预,都是自动完成的。很多博主大佬通过此项目构建了属于自己的AI数字人,是不是很有意思。


Star量:2.5K+


在线体验:https://colab.research.google.com/github/vinthony/video-retalking/blob/main/quick_demo.ipynb


项目地址:https://github.com/OpenTalker/video-retalking


系统为实现这一目标,分解为三个连续的任务:

  • 具有规范表达的人脸视频生成;
  • 音频驱动的口型同步;
  • 面部增强以提高照片真实感。


给定一个头部说话的视频,首先使用 表情编辑网络 根据相同的表情模板修改每一帧的表情,从而产生具有规范表情的视频。


然后将该视频与给定的音频一起输入到口型同步网络以生成口型同步视频。


最后,通过身份感知面部增强网络和后处理来提高合成面部的照片真实感。


以上所有三个步骤都使用基于学习的方法,并且所有模块都可以在顺序管道中处理,无需任何用户干预。


2、Autogen


Autogen 是微软团队研发的一个多代理框架,利用它可以轻松定制一系列工作任务,简直太强大了。


Star量:14.2K+


项目地址:https://github.com/microsoft/autogen

举一个例子来说,我们要实现一个爬虫程序,抓取并保存网页图片。如果把这个任务丢给 ChatGPT,它会直接返回一串可执行代码,但是代码通常会存在问题,例如执行报错、缺少依赖等,你需要反复跟 ChatGPT 对话来完善程序。


当然,我们也可以设定一个复杂 Prompt,要求它调用 ChatGPT 的代码执行插件,如果存在报错,则继续修正程序。(案例来源:Barret李靖)


但是这个任务如果交给 AutoGen 来实现,将会变得无比简单,几行代码就可以搞定:

  • 定义一个 Assistant Agent,它的任务是解决问题
  • 定义一个 UserProxy Agent,它的任务是替代人询问问题,同时在本地执行程序

这两个 Agent 都不需要给他们设置 Prompt。当我们把爬虫任务交给 UserProxy 后,它会理解任务, 然后询问 Assistant 应该如何做,Assistant 会把操作过程告诉 UserProxy,接着 UserProxy 会根据指示在本地安装依赖,然后创建文件执行代码,如果执行出现错误,它会把详细报错提交给 Assistant,依次循环,直到可以获取到最终的结果。 任务结束的时候,你会看到目标图片已经保存到本地磁盘了。


3、shap-e


shap-e 是OpenAI(ChatGPT开发商)开源的一款新模型,用来生成以文本或图像为条件的 3D 对象。以其创新方法改变了 3D 应用领域。允许用户在计算机上无缝运行它,而无需 OpenAI API 密钥或互联网连接。


Star量:10.5K+


项目地址:https://github.com/openai/shap-e

下图便是“An airplane that looks like a banana” 的 3D 图。而它的使用也非常简单,安装一个包即可:

pip install -e .

该项目最好搭配3D设计器一起使用!对于3D设计师非常有帮助。


4、Slidev


Slidev 是一款专门为开发者打造的演示文稿工具。通过Slidev,我们只要使用熟悉的Markdown就可以做出炫酷的PPT来,同时拥有支持HTML和Vue组件的能力,并且能够呈现像素级完美的布局。

Star量:28.5K+


官方地址:cn.sli.dev


项目地址:https://github.com/slidevjs/slidev

作为一个习惯于编码还不习惯于汇报的普通程序员,PPT 这种东西,制作起来实在是有难度。无论是用PowerPoint,WPS, 使用时总是无从下手。而 Slidev 这款工具正好适合,搭配md文档,效率极高,功能强大,令人惊喜。


5、Pake


Pake 是一个用 Rust语言 开发的轻量级工具,可以将网页打包成桌面应用。很适合想打包WEB应用的人群进行使用。毕竟Web应用只能基于浏览器进行使用,而Pake可以将其打包作为独立应用进行使用。


Star量:18.9K+


项目地址:https://github.com/tw93/Pake


相比传统的 Electron 打包,Pake 打包出来的应用体积小20倍左右,并且性能和体验也优于JS框架。

Pake 不仅可以简单地打包网页,还实现了快捷键透传、沉浸式窗口、拖拽、样式改写、去广告等功能,可以深度定制产品的风格。


Pake 支持Mac、Windows和Linux系统,可以将同一个网页在多个平台打包成桌面应用分发。

▲ 图片来源于网络


6、Refine


refine 是一个基于React的项目,是一个开源的、无头的 Web 应用框架,旨在帮助用户自由构建CRUD(创建、读取、更新、删除)应用程序,而不受任何约束。


Star量:15.7K+


官方地址:refine.dev


项目地址:https://github.com/refinedev/refine


它提供了灵活性和可定制性,让开发人员能够根据其需求构建CRUD应用程序。Refine使应用程序的开发更加自由,减少了开发周期,同时提供了丰富的功能。


它具有以下主要功能和核心优势:


  • 提供了内部钩子和组件,简化了开发过程并消除了重复任务。
  • 支持身份验证、访问控制、路由、网络通信等关键方面的行业标准解决方案。
  • 采用无头设计,提供无限样式定制选项,并与自定义设计或 UI 框架 (如 TailwindCSS) 完美配合使用。
  • 可以集成 Ant Design,Material UI,Mantine 和 Chakra UI 等流行 UI 库快速启动项目。


此外,refine 还具有以下特点:

  • 零配置,在一分钟内完成设置
  • 连接器支持 15+ 后端服务
  • 支持 Next.js 或 Remix 进行服务器渲染 (SSR)
相关文章
|
1月前
|
人工智能 关系型数据库 OLAP
光云科技 X AnalyticDB:构建 AI 时代下的云原生企业级数仓
AnalyticDB承载了光云海量数据的实时在线分析,为各个业务线的商家提供了丝滑的数据服务,实时物化视图、租户资源隔离、冷热分离等企业级特性,很好的解决了SaaS场景下的业务痛点,也平衡了成本。同时也基于通义+AnalyticDB研发了企业级智能客服、智能导购等行业解决方案,借助大模型和云计算为商家赋能。
91 17
|
26天前
|
数据采集 人工智能 大数据
演讲实录:中小企业如何快速构建AI应用?
AI时代飞速发展,大模型和AI的应用创新不断涌现,面对百花齐放的AI模型,阿里云计算平台大数据AI解决方案总监魏博文分享如何通过阿里云提供的大数据AI一体化平台,解决企业开发难、部署繁、成本高等一系列问题,让中小企业快速搭建AI应用。
|
10天前
|
人工智能 运维 安全
阿里云 Serverless 助力海牙湾构建弹性、高效、智能的 AI 数字化平台
海牙湾(G-Town)是一家以“供应链+场景+技术+AI”为核心驱动力的科技公司,致力于为各行业提供数字化转型解决方案。通过采用阿里云Serverless架构,解决了弹性能力不足、资源浪费与运维低效的问题。SAE全托管特性降低了技术复杂度,并计划进一步探索Serverless与AI结合,推动智能数字化发展。海牙湾业务覆盖金融、美妆、能源等领域,与多家知名企业建立战略合作,持续优化用户体验和供应链决策能力,保障信息安全并创造可量化的商业价值。未来,公司将深化云原生技术应用,助力更多行业实现高效数字化转型。
|
16天前
|
存储 人工智能 NoSQL
表格存储:为 AI 注入“记忆”,构建大规模、高性能、低成本的 Agent Memory 数据底座
本文探讨了AI Agent市场爆发增长背景下的存储需求,重点介绍了Tablestore在Agent Memory存储中的优势。2025年被视为AI Agent市场元年,关键事件推动技术发展。AI Agent的存储分为Memory(短期记忆)和Knowledge(长期知识)。Tablestore通过高性能、低成本持久化存储、灵活的Schemaless设计等特性满足Memory场景需求;在Knowledge场景中,其多元索引支持全文、向量检索等功能,优化成本与稳定性。实际案例包括通义App、某浏览器及阿里云多项服务,展示Tablestore的卓越表现。最后邀请加入钉钉群共同探讨AI技术。
680 13
|
23天前
|
人工智能 自然语言处理 搜索推荐
13.5K Star!支持5国语言+全栈语音生成,这个开源AI语音项目绝了!
CosyVoice是由FunAudioLLM团队开发的多语言大语音生成模型,支持中文、英语、日语、韩语和粤语等5种语言。该项目提供从推理、训练到部署的全栈能力,具备零样本语音克隆、跨语言合成、指令控制等前沿功能。其技术架构包括底层模型、多语言支持、框架支持及部方案等,性能优越,RTF<0.2,GPU内存<4GB,QPS>20。相比同类项目,CosyVoice在语言支持、特色功能和部署难度上表现出色,支持本地部署保障数据隐私,并大幅降低商业方案成本。适用于自媒体创作、在线教育、游戏开发、智能硬件和影视制作等多种场景。
|
机器学习/深度学习 人工智能 自然语言处理
基于RTMP的智慧数字人|AI数字人传输技术方案探讨
随着智慧数字人、AI数字人的兴起,越来越多的公司着手构建全息、真实感数字角色等技术合成的数字仿真人虚拟形象,通过“虚拟形象+语音交互(T-T-S、ASR)+自然语言理解(NLU)+深度学习”,构建适用于数字客服、虚拟展厅讲解、 智慧城市、智慧医疗、智慧教育等场景,通过人机可视化语音交互,释放人员基础劳动力,降低运营成本,提升智慧交互体验。
215 0
|
人工智能
AI 绘画Stable Diffusion 研究(十二)SD数字人制作工具SadTlaker插件安装教程
AI 绘画Stable Diffusion 研究(十二)SD数字人制作工具SadTlaker插件安装教程
1156 0
|
28天前
|
Web App开发 人工智能 自然语言处理
Open Avatar Chat:阿里开源实时数字人对话系统,让AI对话实现2.2秒低延迟交互
Open Avatar Chat是阿里开源的模块化数字人对话系统,支持文本/音频/视频多模态交互,采用可替换组件设计,平均响应延迟仅2.2秒,为开发者提供灵活高效的解决方案。
568 3
Open Avatar Chat:阿里开源实时数字人对话系统,让AI对话实现2.2秒低延迟交互
|
2月前
|
存储 人工智能 Docker
Heygem:开源数字人克隆神器!1秒视频生成4K超高清AI形象,1080Ti显卡也能轻松跑
Heygem 是硅基智能推出的开源数字人模型,支持快速克隆形象和声音,30秒内完成克隆,60秒内生成4K超高清视频,适用于内容创作、直播、教育等场景。
1992 8
|
3月前
|
人工智能 自然语言处理 搜索推荐
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
222 24
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人

热门文章

最新文章