CodeFormer——AI驱动的面部图像修复与增强

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: CodeFormer是由南洋理工大学和商汤科技联合研发的AI人脸复原模型,结合VQGAN和Transformer技术,能从模糊或马赛克图像中生成清晰图像。它具备老照片修复、黑白照片彩色化、马赛克修复和低码率视频增强等功能。安装过程涉及miniconda3、Python环境配置、相关库的安装及模型训练数据下载。在测试视频增强时,虽然初期遇到ffmpeg导入问题,但通过安装ffmpeg-python得以解决,不过CPU占用率高。此外,还展示了对图片进行增强的命令行操作及结果示例。

引言

在图像处理领域,AI技术正以前所未有的速度推动着图像修复与增强的发展。CodeFormer,一款由南洋理工大学与商汤科技联合开发的人脸复原模型,利用VQGAN和Transformer等前沿技术,为模糊或马赛克图像的修复提供了强大的解决方案。本文将引导你完成CodeFormer的安装配置,并演示其在照片修复和视频增强上的应用。



参考文献和Github地址:

Zhou, S., Zhu, Y., Wang, X., Wang, Z., & Zhang, J. (2022). CodeFormer: Towards Robust Blind Face Restoration with Codebook Lookup Transformer. arXiv preprint arXiv:2205.09991.

GitHub repository. (Accessed June 12, 2024).



安装与环境搭建

首先,确保你的系统已安装miniconda3。创建一个Python 3.8的虚拟环境:

Bash

/home/sean.xd/miniconda3/bin/conda create -n codeformer python=3.8

接着,激活新创建的环境并安装venv

Bash

source activate codeformer
/home/sean.xd/miniconda3/envs/codeformer/bin/python -m venv venv
source venv/bin/activate

根据官方指南,安装项目依赖:

Bash

pip install -r requirements.txt

安装过程中可能会遇到缺少cython的问题,手动安装后即可继续:

Bash

pip install cython
python basicsr/setup.py develop

进一步安装dlibffmpeg

Bash

/home/sean.xd/miniconda3/bin/conda install -c conda-forge dlib
/home/sean.xd/miniconda3/bin/conda install -c conda-forge ffmpeg

下载预训练模型,准备测试:

Bash

python scripts/download_pretrained_models.py facelib
python scripts/download_pretrained_models.py dlib
python scripts/download_pretrained_models.py CodeFormer

测试视频增强功能

尝试使用CodeFormer增强视频,但需注意,若PyTorch版本与CUDA不匹配,会导致警告信息提示。确保软件版本一致以获得最佳性能:

Bash

python inference_codeformer.py --bg_upsampler realesrgan --face_upsample -w 1.0 --input_path inputs/xudong.mp4

在测试过程中,观察到CPU使用率极高,表明模型在CPU上运行时计算量较大,对于长时间处理或大规模数据集,建议使用GPU加速。

测试图片增强功能

项目附带了一个测试目录,其中包含示例图片。运行增强命令:

Bash

python inference_codeformer.py -w 0.7 --bg_upsampler realesrgan  --face_upsample  --input_path inputs/whole_imgs/03.jpg

结果显示,即使在CPU上,CodeFormer也能有效地检测并修复图像中的面部,最终结果保存在指定目录。

结语

通过上述步骤,我们不仅完成了CodeFormer的安装配置,还体验了其在面部图像修复与增强方面的强大功能。尽管在CPU上运行效率较低,但在GPU环境下,CodeFormer的表现将更加出色,为图像修复领域带来革命性的变化。


注:以上实验环境与测试均基于作者个人设置,具体效果可能因硬件配置差异而有所不同。



测试时候,使用了朱茵在大话西游里面的剧照,效果非常好,放上来审核不通过,所以就删掉了。




相关文章
|
3天前
|
人工智能 UED
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
VersaGen 是一款生成式 AI 代理,专注于文本到图像合成中的视觉控制能力,支持多种视觉控制类型,并通过优化策略提升图像生成质量和用户体验。
20 8
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
|
9天前
|
数据采集 人工智能 自然语言处理
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
Midscene.js 是一款基于 AI 技术的 UI 自动化测试框架,通过自然语言交互简化测试流程,支持动作执行、数据查询和页面断言,提供可视化报告,适用于多种应用场景。
103 1
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
|
18天前
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
64 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
23天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
129 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
15天前
|
存储 人工智能 安全
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
|
1天前
|
人工智能 IDE API
AI驱动的开发者工具:打造沉浸式API集成体验
本文介绍了阿里云在过去十年中为开发者提供的API服务演变。内容分为两大部分:一是从零开始使用API的用户旅程,涵盖API的发现、调试与集成;二是回顾阿里云过去十年为开发者提供的服务及发展历程。文中详细描述了API从最初的手写SDK到自动化生成SDK的变化,以及通过API Explorer、IDE插件和AI助手等工具提升开发者体验的过程。这些工具和服务旨在帮助开发者更高效地使用API,减少配置和调试的复杂性,提供一站式的解决方案。
|
26天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
66 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
26天前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
65 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
|
24天前
|
编解码 人工智能 监控
VISION XL:支持四倍超分辨率的 AI 视频修复处理工具,提供去除模糊、修复缺失等功能
VISION XL是一款基于潜在扩散模型的高效视频修复和超分辨率工具,能够修复视频缺失部分、去除模糊,并支持四倍超分辨率。该工具优化了处理效率,适合快速处理视频的应用场景。
75 6
VISION XL:支持四倍超分辨率的 AI 视频修复处理工具,提供去除模糊、修复缺失等功能
|
13天前
|
机器学习/深度学习 人工智能 搜索推荐
AI在电子商务中的个性化推荐系统:驱动用户体验升级
AI在电子商务中的个性化推荐系统:驱动用户体验升级
90 17