岂止DALL·E！现在AI画家都会建模、做视频了，以后会什么简直不敢想-阿里云开发者社区

岂止DALL·E！现在AI画家都会建模、做视频了，以后会什么简直不敢想

2023-05-09 232

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 岂止DALL·E！现在AI画家都会建模、做视频了，以后会什么简直不敢想

【新智元导读】特斯拉前AI总监点赞！这个开源AI艺术创作模型，想要开启「人机合作」艺术创作新时代。

近日，由Emad Mostaque创立和资助的Stability.ai公司宣布公开发布AI创造的艺术作品。

你可能认为这只是AI在艺术领域的另一次尝试，但实际上远不止如此。

有两个原因。首先，与DALL-E 2不同的是，Stable Diffusion是开源的。这意味着任何人都可以利用它的骨干，免费建立针对特定文本到图像创作任务的应用程序。另外，Midjourney的开发者实施了一项功能，允许用户将其与Stable Diffusion结合起来，这导致了一些惊人的结果。试想一下，在接下来的几个月里会出现什么。第二，与DALL-E mini和Disco Diffusion不同，Stable Diffusion可以创造出惊人的逼真和艺术作品，对OpenAI或谷歌的模型没有什么可羡慕的。人们甚至声称它是「生成式搜索引擎」中新的SOTA。（除非另有说明，本文所有图片都是通过Stable Diffusion创作的）。 Stable Diffusion 体现了人工智能艺术世界的最佳特征：它可以说是现有最好的人工智能艺术模型，而且是开源的。这简直是闻所未闻，将产生巨大的影响。更有趣的是，关于这些服务的消息可能会通过最意想不到的来源到达你的手中。你的父母、你的孩子、你的伴侣、你的朋友或你的同事。这些人往往是人工智能领域发生的事情的局外人，他们即将发现这个领域的最新趋势。艺术可能成为AI最终敲开那些对未来视而不见的人的大门的方式。这不是很有诗意吗？

不只是开源的DALL·E 2

Stability.ai的诞生是为了创造「开放的AI工具，让我们发挥潜能」。不仅仅是从未进入大多数人手中的研究模型，而是具有现实世界应用的工具，开放给我和你来使用和探索。

这是与其他科技公司不同的地方，比如OpenAI，它嫉妒地守护着它最好的系统（GPT-3和DALL-E 2）的秘密，或者谷歌，它甚至从未打算将自己的（PaLM、LaMDA、Imagen或Parti）作为私人测试版发布。Stability.ai的这次公开发布不仅分享了模型权重和代码——虽然这对科学和技术的健康发展很关键，但大多数人并不关心它们。而且还为我们这些不想或不知道如何编码的人提供了一个无代码的即用型网站。网站名叫DreamStudio Lite，可以免费使用，最多可生成200张图片。像DALL-E 2一样，它采用付费订阅模式，可以用10英镑获得1千张图片（OpenAI每月补充15个积分，但要获得更多的积分，你必须以15美元购买115个包）。DALL-E的成本为0.03美元/图，而Stable Diffusion的成本为0.01英镑/图。此外，还可以通过API大规模地使用Stable Diffusion（成本呈线性增长，所以你可以用1000英镑获得100K代）。除了图像生成，Stability.ai很快将宣布DreamStudio Pro（音频/视频）和Enterprise（工作室）。DreamStudio可能很快会实现的另一个功能是，可以从其他图像生成图像，而不是通常的文本到图像的设置。就像下面这样：在网站上，还有一个关于提示工程的资源，如果你是这方面的新手，你可能会用得上。另外，与DALL-E 2不同，你可以控制参数来影响结果，并对其保留更多的代理权。Stability.ai已经做了一切来促进人们对模型的访问。OpenAI是第一个，必须走得更慢，以评估模型固有的潜在风险和偏见，但他们不需要将模型保持在封闭测试阶段这么久，也不需要建立这样一个限制创造力的商业模式。Midjourney和Stable Diffusion都已经证明了这一点。安全+开源 > 隐私和控制

开源技术有其自身的局限性。开放性应该走在隐私和严格控制之前，但不应该走在安全之前。正如该公司在公告中解释的那样，它是「一个允许商业和非商业使用的许可」，重点是模型的开放和负责任的下游使用。它还强制要求衍生作品至少要受到同样的基于用户的限制。开源模型本身是很好的模式，但如果我们不希望这项技术最终伤害人们，或以错误信息的形式为互联网增加更多的傲慢，建立合理的护栏也同样重要。「由于这些模型是在广泛的互联网搜刮的图像-文本对上训练出来的，模型可能会重现一些社会偏见，产生不安全的内容，所以开放的缓解策略以及对这些偏见的公开讨论可以让大家参与到这个对话中来。」在任何情况下，开放性+安全性>隐私和控制。

开源力量改变世界

凭借道德价值和开放性的坚实基础，Stable Diffusion承诺在现实世界的影响方面超越其竞争对手。

对于那些想下载它并在他们的电脑上运行它的人来说，你应该知道它需要6.9Gb的VRAM--这适合于高端消费级GPU，使它比DALL-E 2要轻，但对大多数用户来说仍然是遥不可及的。其余的人，像我一样，可以马上开始使用Dream Studio。 Stable Diffusion 被普遍认为是目前最好的AI艺术模型，它将成为无数应用程序、网络和服务的基础，重新定义我们如何创造和与艺术互动。但现在，专门为不同使用情况设计的应用程序将从头开始建立，供所有人使用。人们正在增强儿童画，用外画+内画制作拼贴画，设计杂志封面，画漫画，创造变形和动画视频，从图像中生成图像，等等。其中一些应用在DALL-E和Midjourney中已经成为可能，但Stable Diffusion可以推动当前的创意革命进入下一个阶段。用前特斯拉AI总监、李飞飞高徒Andrej Karpathy的话说，就是让「艺术创作进入了人类+AI合作的新时代。」像Stable Diffusion这样的AI艺术模型涉及到一类新工具，应该用我们所处的新现实的新思维框架来理解。我们不能简单地与其他时代进行类比或平行对比，并期望能够准确地解释或预测未来。有些事情会相似，有些则不会。我们必须把这个即将到来的未来当作未知的领域。

写在最后

毫无疑问，Stable Diffusion的公开发布是人工智能艺术模型领域有史以来最重要和最有影响的事件，而这只是一个开始。

作者之一的Emad Mostaque在Twitter上说："随着我们发布更快、更好和具体的模型，预计质量将继续全面上升。不仅仅是图像，下个月是音频，然后转向3D、视频。语言、代码，以及更多训练。

我们正处于一场为期数年的革命的边缘，在我们互动、联系和理解艺术，特别是一般的创造力的方式。而且不仅仅是在哲学、知识领域，而是作为现在每个人都分享和体验的东西。创意世界将永远改变，我们必须进行开放和尊重的对话，为所有人创造一个更好的未来。只有负责任地使用开源技术，才能创造我们希望看到的变化。参考资料：https://thealgorithmicbridge.substack.com/p/stable-diffusion-is-the-most-important