神秘山洞惊现AI绘画至宝Stable Diffusion残卷-阿里云开发者社区

神秘山洞惊现AI绘画至宝Stable Diffusion残卷

2024-12-20 511

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 随着AI神器的现世，不少修士担忧其会取代人类职业。然而，自女娲创造人类以来，法宝虽强，始终只是辅助工具，需修士操控才能发挥威力。如今修仙界最大的至宝是GPT，它能以文字为引，转化出所需答案。图片处理方面也有Stable Diffusion、DALL-E等法宝。这些AI工具并非替代修士，而是提升效率的助手。例如，Stable Diffusion最初由慕尼黑和海德堡大学宗师炼制，现已发展多个版本，如v1、v2.0、SDXL等，帮助修士更便捷地生成图像。通过合理使用这些工具，修士们可以更好地实现心中所想，而非被技术取代。

最近听到不少大宗门纷纷发声：随着AI神器的现世“程序员职业将不复存在”，“设计图将要失业”。

至此，不少修士开始担忧起来，现出世的AI神器会不会取代掉我辈修士。

其实，至女娲天神创造人类以来，在这漫漫修仙路上，人类在不断的进步。在炼器界不少大修士或隐世宗门炼制出不少法宝，如炼制石器法宝、到铁器法宝、到蒸汽机法宝。。。

每一次炼器界的冲破，无不给各修仙界带来巨大的影响。但法宝虽强，终究是法宝只是辅助我辈修士，终不可能代替我们，AI即使是神器也需我们修士输入真元和法诀加于操控才能发挥出法宝真正威力。

在如今的修仙界，最大的至宝莫过于GPT。GPT已有初级的器灵，虽无灵智，但修士能够以文字为引，让GPT转化出自己想要的答案。

当然在图片处理方面也已经有修仙大派炼制出如：Stable Diffusion、DALL-E、Midjourney等法宝

添加图片注释，不超过 140 字（可选）

我偶然在一神秘的山洞里发现一份残缺的Stable Diffusion法宝的炼制玉简，上面有记载Stable Diffusion法宝的炼制术。下面我们一起来探索这份神秘的玉简，揭开Stable Diffusion绘图法宝的神秘面纱。

添加图片注释，不超过 140 字（可选）

SD秘籍入门篇

SD起源

Stable Diffusion法宝最初源自于Latent Diffusion之术，由慕尼黑路德维希-马克西米利安大学和海德堡大学的宗师炼制。Stable Diffusion的第一个卷本（v1）由CompVis宗派炼制出来。

SD卷本

添加图片注释，不超过 140 字（可选）

Stable Diffusion v1: CompVis团队发布的原始卷本。
Stable Diffusion v2.0: Stability AI资助和炼制的更新卷本。
Stable Diffusion XL (SDXL): 在Stable Diffusion的基础上进行了扩展和改进。
SDXL Turbo: SDXL Turbo是SDXL的超快模型，改变了用户与技术的交互方式。
Stable Diffusion v3: 最新的卷本，目前处于早期预览阶段。

SD秘籍炼制篇

Windows法器卷本

添加图片注释，不超过 140 字（可选）

大家看到这个风格，一定会感觉这好像并不是Stable Diffusion宗派的风格啊。

的确，Stable Diffusion宗派并没有提供相应的Windows法器上的卷本，我们来看看它是怎么来的。

在修仙的B站界中，有一名声名鹊起的up主，名为秋叶。他近日炼制出了一款名为Stable Diffusion整合包v4的阵法，此阵法使得SD的炼制变化简便易用和一键启灵之特性，深受修仙者们的青睐。

下载时，如果只是简单的体验，只需下载这两个文件，其它的就不用了。因为这些文件都比较大

添加图片注释，不超过 140 字（可选）

如果你的电脑时第一次安装，需要先下载启动器运行依赖，双击安装就可以

添加图片注释，不超过 140 字（可选）

解压sd-webui-aki-v4.8文件夹后，双击打开“A绘世启动器.exe”程序。

添加图片注释，不超过 140 字（可选）

中间有提示就点确认，然后就出现此窗体了

添加图片注释，不超过 140 字（可选）

等待一会，就会自动弹出浏览器页面：http://127.0.0.1:7860/

添加图片注释，不超过 140 字（可选）

至此就炼制完成了

秋叶WEBUI整合包免费下载地址：

网盘：https://pan.quark.cn/s/2c832199b09b

解压密码：bilibili@秋葉aaaki

到这里不少修士应该会一直带着一个疑问，我是普通电脑没有英伟达的显卡，能不能搭建SD，答案是肯定的，可以。不过就是CPU和内存基本会被拉满，还过还是可以体验的。

添加图片注释，不超过 140 字（可选）

Linux法器卷本

添加图片注释，不超过 140 字（可选）

环境配置: 首先，更新现有的潜在扩散环境，运行以下命令：

安装xformers: 为了在GPU上提高效率和速度，强烈推荐安装xformers库。需要较新卷本的nvcc和gcc/g++，可以通过以下命令获取：

然后，运行以下命令（编译可能需要长达30分钟）：

下载权重: 下载SD2.1-v和SD2.1-base模型的权重。

文本到图像: 使用以下命令从SD2.1-v模型中采样：

这些步骤是从页面中提取的关键信息，用于安装和运行Stable Diffusion模型。请确保按照指示操作以避免安装问题。如果需要更多帮助，请参考页面上的详细文档。

SD秘籍秘诀篇

SD官方API

打开官方秘籍

添加图片注释，不超过 140 字（可选）

点击进入API篇

添加图片注释，不超过 140 字（可选）

找到API key替换掉代码中的数据

添加图片注释，不超过 140 字（可选）

点击API key链接，这里需要一个账号登录，比如使用自己的google账号登录

添加图片注释，不超过 140 字（可选）

复制这里的API key,替换掉代码中的，这里我选择使用的是Python的调用方式。

prompt：dog wearing black glasses

提示词：戴黑色眼镜的狗

添加图片注释，不超过 140 字（可选）

这是接口返回的结果

添加图片注释，不超过 140 字（可选）

我们来更换prompt试试效果：

增加描述性细节：如颜色、场景、风格、光照等的描述

prompt：A sleek black dog wearing stylish black sunglasses, standing on a beach at sunset.

提示词：一个圆滑的黑色狗戴着时髦的黑色太阳镜，站在日落的海滩。

添加图片注释，不超过 140 字（可选）

使用高级词汇：使用专业的词汇来代替通用词汇。

prompt：A confident Border Collie wearing aviator-style black glasses, captured in a dynamic action shot.

提示词：一个自信的边境牧羊犬戴着飞行员风格的黑色眼镜，捕捉到了一个动态的动作镜头。

添加图片注释，不超过 140 字（可选）

再增加一些场景与氛围

prompt：a photorealistic image of a friendly golden retriever dog wearing stylish black glasses and a red bow tie, sitting in a bright and modern office environment。

提示词：一张写实风格的图片，展示一只友好的金毛寻回犬戴着时尚的黑色眼镜和红色领结，坐在明亮现代的办公环境中。

添加图片注释，不超过 140 字（可选）

再利用对比和比喻手法：通过对比或比喻手法，增强图像的视觉效果。

prompt：A photorealistic picture showing a super cute white dog with stylish black glasses and suave manners sitting on a sunny family balcony with flowers and greenery.

提示词：一张写实风格的图片，展示一只超级可爱的白毛小狗，戴着时尚的黑色眼镜和温文尔雅的举止，坐在带有鲜花、绿植的阳光家庭阳台环境中。

添加图片注释，不超过 140 字（可选）

可以看到prompt非常的神奇，这就是我们驱动法宝的“法诀”，它能够将修士的真意传给SD，然后转化为栩栩如生的图像。

也就是当下流传比较广的“法诀在手，天下我有”....

然而，

法诀却非万能的。修士们常常发现，即便使用了法诀，所绘之图却与心中所想相去甚远，甚至反复调整并尝试，结果依旧不尽人意。这是因为，AI所修炼的模型之中，尚未吸纳足够的知识库，以至于无法理解修士的真意。

若遇此困境，可以看看这个，机会难得，别错过。

除了上面基础接口外，官方宗门还提供了很多其它的接口，大家都可以尝试着调用

添加图片注释，不超过 140 字（可选）

自建webui

上面已经搭建好自己的Stable Diffusion，下面来直接使用一下：

添加图片注释，不超过 140 字（可选）

这是第一个由Stable Diffusion生成的图片，生成一只猫女。

不过这画质是相当的不错.....

换一换，法诀。如果说我不知道如何写法诀，怎么办？webui上收录了大量的法诀：

添加图片注释，不超过 140 字（可选）

然后，看看生成的效果

添加图片注释，不超过 140 字（可选）