研究上百个小时,高手总结了这份 DALL-E 3 人物连续性公式(中)

简介: 研究上百个小时,高手总结了这份 DALL-E 3 人物连续性公式(中)

上篇反响不错,加快了我速更的意志,继续输出。

根据上篇讲了基础部分(增加元素细节),以及怎么去给提示,那么下篇要讲的还是脱离不了基础部分和提示,只是增加了人物连续性的复杂场景以及表情原理。

还是需要感谢这位伟大的作者:@AshutoshShrivastava,结尾附上该作者链接。

人物连续性场景变化

1. 前期提示准备

在我们开始制作图像之前,有一些重要的考虑因素:

注意:我们将遵循类似的提示格式,但在这种情况下,我们为基本提示设置了巨大的差异。

Prompt:

[Base Prompt] + [additional details / variationinformation]+identifer-1

提示:

[基本提示] +[额外细节/变量信息]+identifer -1

Chat GPT 叙述的场景以 室内/室外活动 命令(这很重要,所以不要忽视它。了解它为什么以这种方式构建)。

您可以向 Chat GPT 提供这个简洁的提示,指示它遵循这种格式,但使用新的基本命令。由于我们正在使用相同的聊天实例,所以无需输入整个命令。

<—提示开始—>

Now, we’re going to work on the activity scene.

We will set the base prompt as: ‘Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun.’

Is that okay? In this case, you will have the freedom to update clothes and other details under the ‘additional elements’ section.

Are you ready now?

现在,我们将处理活动场景。

我们将把基本提示设置为:

“画一位名叫 Hope 的 30 岁美国女子,她留着卷曲的发型盘在发髻上。”

这个方式可以吗?在这种情况下,您将可以在“额外元素”部分自由更新服装和其他细节。

您准备好了吗?

<— 提示结束 —>

ChatGPT 的回应:

<–回应开始—>

是的,这听起来是一个很好的方法。将基本提示设置为:

“画一位名叫 Hope 的 30 岁美国女子,她留着卷曲的发型盘在发髻上。”

可以让您在不改变主要角色特征的情况下根据活动或场景调整服装和其他元素。我将确保只根据您指定的活动在“额外细节/变量信息”类别内进行修改。

感谢澄清,我已经准备好按照这种方式继续。请提供下一个您希望 Hope 参与的活动或场景。

<—回应结束—>

注意:这一调整是因为霍普穿着一件绿色 T 恤,我们不希望她到处都穿同样的衣服。这还演示了如何在不影响角色一致性的情况下轻微修改基本提示。

这次,我们是已经确定的基本提示,而不是图像。由于基本提示已设置并且 Chat GPT 已准备好,因此我们可以开始发布命令以构建我们的图像。

与上篇不同,我们不会使用(现在或制作)命令。相反,我们将简单地请求一个活动,然后 DALL-E 3 将创建图像。让我们看看它是如何工作的。

2. 例子演示

①如果我希望 Hope 去远足 (My command: Hope doing hiking ).

颜色提示:[基本提示] [额外细节/变量信息] +identifer -1

这张图片的 DALL-E 提示将是:

Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, hiking in the mountains with appropriate attire and gear -0010

“画一位名叫 Hope 的 30 岁美国女子,她留着卷曲的发型盘在发髻上,穿着合适的装备 在山上远足。” -0010

观察:您可以看到它更新了一些细节,如山脉和合适的服装,这些是由 ChatGPT 提供的。

注意:术语“合适的装备”被用作概括性描述词,以使 DALL·E 3 生成的图像符合所提到活动常见着装。这为图像生成过程提供了一些灵活性。


②如果我们想要确定 Hope 穿着的夹克颜色怎么办?我们当然可以指定这一点,但最好不要提供太多信息,让 DALL-E 3 处理细节。

这张图片的 DALL-E 提示将是:

Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a white jacket and carrying a red backpack, hiking in the mountains -0011

“画一位名叫 Hope 的 30 岁美国女子,她留着卷曲的发型盘在发髻上,穿着白色夹克,背着红色背包,在山上远足。” -0011

观察:您可以看到它更新了一些细节,加入了白色夹克和背着红色背包。


③假设现在我们希望 Hope 在冬季的环境中制作雪人:

这张图片的 DALL-E 提示将是:

Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, dressed in winter attire, in a snowy landscape making a snowman -0012

“画一位名叫 Hope 的 30 岁美国女子,她留着卷曲的发型盘在发髻上,穿着冬季服装,在多雪的风景中制作雪人。” -0012


④如果要在活动中添加一些文本,我们看看它是如何工作的:

这张图片的 DALL-E 提示将是:

Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, seated comfortably in a library setting, wearing a black t-shirt with the word ‘HOPE’ written on it, engrossed in reading a book -0013

“画一位名叫 Hope 的 30 岁美国女子,她留着卷曲的发型盘在发髻上,坐在一个舒适的图书馆环境中,穿着一件上面印有“HOPE”字样的黑色 T 恤,专心阅读一本书。” -0013


3. 表情原理

在使用类似照片的真实图片时,捕捉情感是很简单的,但在使用插图类型的主题时,要保持情感和一致性要困难得多。

当主题是插图时,为什么很难保持某些情感的一致性?

①考虑像悲伤、愤怒、快乐、惊讶、怀疑、好奇和焦虑等情感。这些描述词富有表现力。当渲染成插图时,特别是如果被压缩成一个单词,DALL-E 倾向于放大这些表情。这可能导致更加卡通或风格化的外观。

Prompt: Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, {emotion} -1

提示:画一位名叫 Hope 的 30 岁美国女子,她的卷曲波浪发型盘成发髻,穿着绿色 T 恤,{情感} -1

情感值可以是:愤怒,快乐,悲伤,惊讶(Angry,Happy,Sad,Surprised)等。

看看这些图片,您会注意到它们都具有卡通(夸装)的特点。


②对于照片风格的真实图片,这不是问题。让我们来看下面的结果。

添加一个单词的描述词,比如悲伤、愤怒、快乐或惊讶,不会破坏一致性。

Prompt: Photoreaslitic portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, {emotion} -1

提示:30 岁的美国女性 Hope 的真实照片风格肖像,她的卷曲波浪发型盘成发髻,穿着绿色 T 恤,{情感} -1


③对于梦幻、若有所思、好奇、自信和宽慰等情感,添加一个单词的描述词不会带来问题。因为这些情感没有那么生动和富有表现力。因此,DALL-E 不会夸张这些表情,角色也不会显得卡通般。

Prompt:Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, {emotion} -1

提示:30 岁的美国女性 Hope 的插画风格肖像,她的卷曲波浪发型盘成发髻,穿着绿色 T 恤,{情感} -1

情感值可以是:梦幻、若有所思、好奇、自信和宽慰(dreamy, pensive, intrigued, confident, and relieved)。

查看这些图像,您会发现一致性在整个过程中得以保持。


④为了解决这个问题,我们需要巧妙地强调情感。最佳平衡的方法是使用“带有微妙但明显的{情感名称}表情”这种表述,找到这个完美的措辞是具有挑战性的。尝试了大约 20 种组合,只有这一种被证明是有效的。

Prompt: Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, with a nuanced yet evident {emotion} expression -1

提示:30 岁的美国女性 Hope 的插画风格肖像,她的卷曲波浪发型盘成发髻,穿着绿色 T 恤,带有微妙但明显的{情感}表情 -1

情感值可以是:生气、快乐、悲伤、惊讶(Angry,Happy,Sad,Surprised)。

检查这些图像,您会发现情感存在,但角色的一致性仍然保持完好


参考地址: https://twitter.com/ai_for_success/status/1716792768352440725

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 文字识别
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
【10月更文挑战第12天】多模态理解是人工智能的重要研究方向,华人团队改进了现有的MMMU基准,推出MMMU-Pro,以更严格地评估模型的多模态理解和推理能力。MMMU-Pro通过过滤纯文本问题、增加候选选项和引入纯视觉问答设置,提高了评估难度。实验结果显示,模型在MMMU-Pro上的性能明显下降,但CoT推理有助于提升表现。MMMU-Pro为多模态理解提供了更严格的评估工具,但也面临一些挑战。
49 1
|
3月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架&quot;AgentInstruct&quot;的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
78 2
|
5月前
研究上百个小时,高手总结了这份 DALL-E 3 人物连续性公式(上)
研究上百个小时,高手总结了这份 DALL-E 3 人物连续性公式(上)
44 0
|
5月前
|
自然语言处理 前端开发
研究上百个小时,高手总结了这份 DALL-E 3 人物连续性公式(下)
研究上百个小时,高手总结了这份 DALL-E 3 人物连续性公式(下)
38 0
|
7月前
|
人工智能 自然语言处理 搜索推荐
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
【4月更文挑战第5天】DeepMind推出开源工具SAFE,挑战大模型的幻觉,提升事实评估准确性和效率。通过自动化和搜索引擎验证,SAFE在成本上比人类标注便宜20倍,且在72%的时间与人类一致,显示了在大规模事实验证中的潜力。然而,依赖谷歌搜索和易受长文本信息过载影响是其局限性。
72 13
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
|
7月前
|
编解码 人工智能 移动开发
气候变化和人类活动对中国植被固碳的贡献量化数据月度合成产品
气候变化和人类活动对中国植被固碳的贡献量化数据月度合成产品
40 0
|
算法
【项目实践】多人姿态估计实践(代码+权重=一键运行)(二)
【项目实践】多人姿态估计实践(代码+权重=一键运行)(二)
145 0
【项目实践】多人姿态估计实践(代码+权重=一键运行)(二)
|
机器学习/深度学习
大模型也有好玩的数学? 从麦克斯韦的最低势能问题到人机对齐
大模型也有好玩的数学? 从麦克斯韦的最低势能问题到人机对齐
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT要把数据标注行业干掉了?比人便宜20倍,而且还更准
ChatGPT要把数据标注行业干掉了?比人便宜20倍,而且还更准
219 0
|
传感器 算法 机器人
【项目实践】多人姿态估计实践(代码+权重=一键运行)(一)
【项目实践】多人姿态估计实践(代码+权重=一键运行)(一)
131 0

热门文章

最新文章