1、EMO
EMO
是阿里巴巴智能计算研究所在本周发布的一款全新的生成式AI视频模型。
使用也非常简单,只需上传一张人物肖像照片和任意一个音频文件,就能生成一个让照片中人物按照音频内容“张嘴”说话或唱歌,而且口型还原程度非常高,表情自然,毫无违和感。
网友感叹:“阿里是有一些技术在身上的。”
Star:4.7k
项目地址:https://github.com/HumanAIGC/EMO
该项目目前还是空代码,但是关注的人已经非常多了。
2、LayerDiffusion
LayerDiffusion
是一种利用大规模预训练的潜在扩散模型(如Stable Diffusion)生成透明图像的技术,可以帮助用户生成单个透明图像或多个透明图层。
不仅支持直接生成透明的图片元素,还支持在已有图片上生成跟环境融合的透明图片。
目前官方直接推出了支持forge的模型项目。
forge是WebUI的一个分支,操作逻辑和交互完全跟Web UI一样,不过进行了一些底层修改,让生成速度更快,插件运行时会自动下载模型。
Star:418
项目地址:https://github.com/layerdiffusion/sd-forge-layerdiffusion
3、StickerBaker
StickerBaker
是一个开源的 AI 贴纸制作工具。
结合了 Stickers SDXL Lora 和 BRIA 背景移除工具,你仅需输出简单的提示词,即可快速生成一张高清精美的贴纸。
还有一款与此项目相关的Demo:https://stickerbaker.com/
用做头像或者其他用途非常不错,生成图像具有透明背景,你还能在网站上看到不同的网友实时生成的图像,可以借鉴他们的关键词。
Star:113
项目地址:https://github.com/fofr/cog-stickers
4、青梧字幕
青梧字幕
是一款基于 Whisper 的字幕自动提取工具。
支持智能提取、自由编辑以及高质量翻译字幕等功能,并且支持单/双语字幕下载,同时可选多种字幕格式。
工具完全开源免费,可直接下载整合包使用。
Star:244
项目地址:https://github.com/melon/qingwu-zimu
5、gemma.cpp
gemma.cpp
是谷歌宣布推出的一款新的 AI 语言模型系列。
Gemma 不仅免费、开源,而且采用了与谷歌更为强大的 Gemini 模型类似的技术。
不同于 Gemini,Gemma 模型可以在个人电脑上本地运行,这是自 OpenAI 的 ChatGPT 在 2022 年引发 AI 聊天机器人热潮以来,谷歌首次发布的重要开源 LLM。
Star:4.8k
项目地址:https://github.com/google/gemma.cpp
以上就是本周 GitHub圈选 的5款开源项目,有兴趣的同学可以前往了解探索!!