ColorFlow:腾讯和清华大学联合推出的图像序列着色模型,通过参考图像的颜色对黑白漫画进行着色生成彩色漫画

本文涉及的产品
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
简介: ColorFlow是由清华大学和腾讯ARC实验室共同推出的图像序列着色模型,通过检索增强、上下文学习和超分辨率技术,确保黑白图像序列的着色与参考图像颜色一致,适用于漫画、动画制作等工业应用。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 模型介绍:ColorFlow是清华大学和腾讯ARC实验室共同推出的图像序列着色模型,适用于漫画、动画制作等工业应用。
  2. 主要功能:包括检索增强管道、上下文着色管道和引导超分辨率管道,确保图像序列的着色与参考图像颜色一致。
  3. 技术原理:基于检索增强、上下文着色和超分辨率增强等技术,提升图像序列着色的质量和一致性。

正文(附运行示例)

ColorFlow 是什么

公众号: 蚝油菜花 - ColorFlow

ColorFlow是清华大学和腾讯ARC实验室共同推出的图像序列着色模型,能够精细化地保持图像序列中个体身份的同时进行着色。该模型基于检索增强、上下文学习和超分辨率技术,确保黑白图像序列的着色与参考图像颜色一致,适用于漫画、动画制作等工业应用。

ColorFlow在图像序列着色领域展现了超越现有技术的卓越性能,通过提升CLIP-IS、降低FID、增加PSNR和SSIM得分及提高AS,为艺术行业提供了新的着色标准。

ColorFlow 的主要功能

  • 检索增强管道(Retrieval-Augmented Pipeline, RAP):从参考图像池中提取与输入黑白图像最相关的彩色图像块,指导着色过程。
  • 上下文着色管道(In-context Colorization Pipeline, ICP):基于强大的上下文学习来准确检索颜色身份,采用双分支设计进行着色。
  • 引导超分辨率管道(Guided Super-Resolution Pipeline, GSRP):上采样低分辨率的着色输出,产生高分辨率的彩色图像,增强细节恢复并提高输出质量。

ColorFlow 的技术原理

  • 检索增强(Retrieval-Augmented):基于预训练的CLIP图像编码器生成输入图像和参考图像的嵌入,计算余弦相似度识别最相似的参考图像块,用于后续的着色训练。
  • 上下文着色(In-context Colorization):引入辅助分支“Colorization Guider”整合条件信息,基于U-Net扩散模型逐步整合特征,实现像素级的条件嵌入。使用轻量级LoRA方法对预训练的扩散模型进行微调,保留其着色能力。
  • 超分辨率增强(Super-Resolution):处理着色过程中的下采样问题,减少结构失真。将高分辨率黑白图像与低分辨率彩色输出结合,增强细节恢复,提升输出质量。
  • 自我注意力机制(Self-Attention):在扩散模型中使用自我注意力机制,将参考图像和灰度图像放在同一个画布上,提取特征,逐层输入到扩散模型中进行着色。
  • 时间步采样策略(Timestep Shifted Sampling):调整采样策略,强调在更高时间步长上的采样,增强着色过程的效果。
  • 屏幕风格增强(Screenstyle Augmentation):对灰度图像和ScreenVAE输出进行随机线性插值,增强输入图像的风格适应性,提升着色性能。

如何运行 ColorFlow

  1. 克隆仓库

    git clone https://github.com/TencentARC/ColorFlow
    cd ColorFlow
    
  2. 设置Python环境

    conda create -n colorflow python=3.8.5
    conda activate colorflow
    pip install -r requirements.txt
    
  3. 运行应用

    python app.py
    
  4. 在浏览器中访问
    打开浏览器并访问 http://localhost:7860。如果是在远程服务器上运行,请将 localhost 替换为服务器的IP地址或域名。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
机器学习/深度学习
基于PaddleGAN精准唇形合成模型实现美女表白视频
基于PaddleGAN精准唇形合成模型实现美女表白视频
1543 0
基于PaddleGAN精准唇形合成模型实现美女表白视频
|
JavaScript
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
近日,Bert-vits2-v2.2如约更新,该新版本v2.2主要把Emotion 模型换用CLAP多模态模型,推理支持输入text prompt提示词和audio prompt提示语音来进行引导风格化合成,让推理音色更具情感特色,并且推出了新的预处理webuI,操作上更加亲民和接地气。
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
|
算法 程序员
从《阴阳师》到《原神》,抽卡中的程序算法
收集类的抽卡手游,是玩家们喜闻乐见的一类游戏,他们背后又有哪些程序算法?我们一起来探讨
4237 0
从《阴阳师》到《原神》,抽卡中的程序算法
|
并行计算 API C++
又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享
Bert-vits2项目近期炸裂更新,放出了v2.0.2版本的代码,修正了存在于2.0先前版本的重大bug,并且重炼了底模,本次更新是即1.1.1版本后最重大的更新,支持了三语言训练及混合合成,并且做到向下兼容,可以推理老版本的模型,本次我们基于新版V2.0.2来本地推理原神小姐姐们的音色模型。
又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享
|
1月前
|
人工智能 监控 算法
《动漫游戏角色动作优化:手绘帧与物理模拟的协同突破实践》
本文围绕2D横版动漫格斗游戏开发,聚焦角色动作“手绘帧与物理模拟融合”的核心技术实践。针对动作僵硬、同步精度低、形变夸张难落地、性能瓶颈、风格与物理冲突、场景交互脱节六大问题,分别提出骨骼控制器联动、关键帧锚定、手绘形变模板适配、分层物理计算、动漫风格物理参数库、动作与场景物体绑定六大解决方案。通过差异化参数设置、动态层级切换等细节优化,既保留动漫审美张力,又解决技术痛点,还延伸应用至攀爬、游泳场景,为动漫游戏动作开发提供实用技术参考,兼顾效果、性能与用户体验。
821 3
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局
Manga Image Translator 是一款开源的漫画图片文字翻译工具,支持多语言翻译并能将翻译后的文本无缝嵌入原图,保持漫画的原始风格和布局。该工具基于OCR技术和深度学习模型,提供批量处理和在线/离线翻译功能。
1767 15
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局
|
3月前
|
数据可视化
和平精英脚本,王者荣耀脚本,autojs最新开源代码
采用模块化设计,包含通用功能、和平精英和王者荣耀三大 实现贝塞尔曲线滑动模拟真人操作,降低封号风险
|
Web App开发 JSON JavaScript
爬取王者荣耀图片
【10月更文挑战第11天】爬取王者荣耀图片。
1143 2
|
8月前
|
前端开发 数据安全/隐私保护 CDN
二次元聚合短视频解析去水印系统源码
二次元聚合短视频解析去水印系统源码
331 4

热门文章

最新文章