被鹅厂最新开源AI绘画工具PhotoMaker圈粉了,多风格头像生成器就靠它了!

简介: 被鹅厂最新开源AI绘画工具PhotoMaker圈粉了,多风格头像生成器就靠它了!

要说本周AIGC开源爆火项目,腾讯的PhotoMaker 可以入选其一。而 PhotoMaker 是腾讯Arc于4天前开源上线到GitHub的,更有一众互联网科技领域大V体验推荐,当前Star已经有4.7k了!


相信小编这篇文章发布时star预测可能达到5k+了。而 PhotoMaker 究竟如何刚发布上线就爆火了呢?


根据众多博主的体验描述,给它最直接的定位就是一款风格百变的头像生成器。你以为它的功能仅仅如此嘛,当然不是,该模型工具不会根据原始输入图像固有的特征限制它的发挥,还可以改变人物的性别、年龄等,生成不同风格的全新图像。


接下来小编就跟大家一起来看看这款AI绘画工具 PhotoMaker 怎么就被无数人刷屏了!


项目介绍


PhotoMaker 是一款通过 堆叠 ID技术嵌入 定制出逼真的人体照片的开源工具。


一个可以创建任何风格的任何人的照片/绘画/头像的生成器。


能根据描述生成符合描述的人物照片。也能把几个不同人的照片特征混合在一起,创造出一个全新的人物形象。


还能改变照片人物的性别、年龄和生成多种风格的其他照片。快速逼真,效果自然。更加无需训练LoRA即可保持角色一致性。


🌠 主要特点:


PhotoMaker 使用的核心技术是“堆叠ID嵌入”


这意味着它可以将多个身份证明(ID)图像的信息合并成一个统一的数据结构。这种方法不仅能捕捉到单个ID的细微特征,还能整合多个不同ID的特征,创造出新的、个性化的图像。

  • 结合多张照片的特征:PhotoMaker可以取多张照片,这些照片可以是同一个人的,也可以是不同人的。它分析这些照片中的特征,然后将它们结合起来,创造出一个新的、个性化的人物图像。
  • 灵活的文本控制:与其他方法相比,PhotoMaker提供了更灵活的文本控制能力。用户可以通过文本提示来指导图像的生成,这使得创造出的图像不仅逼真,而且能更好地符合用户的具体要求。
  • 高效率和快速生成:相比于需要大量微调的方法(如DreamBooth),PhotoMaker在保持身份信息的同时,提供了更快的生成速度。它能在短时间内(例如10秒)生成定制的人类照片,这对于需要快速生成结果的应用场景非常有利。
  • 高身份保真度:PhotoMaker在生成图像时能更好地保持人物的身份特征。这对于需要精确保留人物特征的场景(如个性化肖像或身份识别)尤其重要。


主要功能:


  • 根据文字描述制作照片:你可以告诉它你想要的人物样子,它就能生成符合描述的人物照片。
  • 混合多个人的特征:它可以把几个不同人的照片特征混合在一起,创造出一个全新的人物形象。
  • 改变年龄或性别:比如,你可以把一张男士的照片转换成女士的样子,或者让照片中的人看起来年轻或年老。
  • 添加艺术风格:它还能给照片加上不同的艺术效果,比如油画风格或卡通风格。
  • 现实化艺术作品/旧照片中的人物:将艺术品或旧照片中的人物带入现代。


部署及使用


本地部署及搭建,小编这里就不展开续写了。


项目要求Python版本3.8及以上、Pytorch版本2.0及以上。然后下载模型、训练模型、启动服务本地演示。

详细部署说明请到项目中查看。


其实官方已经提供了Demo模型!可在线体验,有现实版本和风格化版本,考虑十分周全。


现实版本模型:https://huggingface.co/spaces/TencentARC/PhotoMaker

风格化版本模型:https://huggingface.co/spaces/TencentARC/PhotoMaker-Style



使用步骤:


1️⃣ 上传您想要定制的人的图片。一张图片就可以,但更多的更好。(上传的图片中的人应占据图片的大部分区域)

2️⃣ 输入一个文本提示,确保将您想要定制的类别词与触发词img配对。

例如:man img(男人的图片)或woman img(女人的图片)或girl img(女孩的图片)。

3️⃣ 选择您喜欢的样式模板。

4️⃣ 点击提交按钮开始进行定制。


还有其他作者根据PhotoMaker,提供舒适的用户界面项目:



组合使用场景示例


以下示例来源于量子位

1、可以根据描述生成多种风格个人照片。


比如: 你见过这样的黑寡妇吗?


2、混合不同人物特征,生成全新人物形态。


比如: 奥特曼和乔布斯“生”的孩子,可能长这样?


3、修改年龄、性别以及照片年代。


比如: 小时候的马斯克,你见过吗?


总结


实验结果表明,与其他类似模型相比,PhotoMaker 具备高质量和多样化的生成能力,以及可编辑性、保真性。


此外,这一方法还能实现更多以往难实现的有趣功能。比如改变年龄或性别、将旧照片或艺术作品中的人物还原到现实中以及身份混合等。


参考链接🔗:

[1]: https://www.linkresearcher.com/theses/adba75a0-bb87-415a-ab81-e19de089f787

相关文章
|
3天前
|
人工智能 自然语言处理 搜索推荐
你用过最好用的AI工具是什么?
2023年AI革命风起云涌,众多产品令人振奋。我体验了OpenAI的ChatGPT、微软New Bing、Anthropic Claude等多款AI产品。特别推荐微软New Bing,它集成了强大的搜索引擎和语言模型,回答问题精准,提供最新信息,还能免费进行创意绘图。此外,New Bing还集成了Copilot网页助手,帮助用户高效提取和总结内容。
53 27
你用过最好用的AI工具是什么?
|
2天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
35 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
12天前
|
机器学习/深度学习 人工智能 UED
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
OOTDiffusion是一款开源的AI虚拟试衣工具,能够智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。该工具支持半身和全身试穿模式,操作简单,适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。
98 27
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
|
5天前
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
40 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
12天前
|
机器学习/深度学习 Web App开发 人工智能
Amurex:开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息
Amurex是一款开源的AI会议助手,提供实时建议、智能摘要、快速回顾关键信息等功能,帮助用户提升会议效率。本文将详细介绍Amurex的功能、技术原理以及如何运行和使用该工具。
67 18
Amurex:开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息
|
10天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
94 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
3天前
|
机器学习/深度学习 人工智能 算法
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具,支持图像和视频的多样化标注样式,适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。
25 2
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
|
11天前
|
人工智能 安全 PyTorch
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
SPDL是Meta AI推出的开源高性能AI模型数据加载解决方案,基于多线程技术和异步事件循环,提供高吞吐量、低资源占用的数据加载功能,支持分布式系统和主流AI框架PyTorch。
45 10
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
|
11天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
64 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
10天前
|
数据采集 人工智能 编解码
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。
57 7
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型