备案控制台

开发者社区人工智能文章正文

Stability AI推出新的AI图像生成模型Stable Cascade，对比 SD2.1 的算力成本降低了10倍左右！

2024-03-20 144

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Stability AI推出新的AI图像生成模型Stable Cascade，对比 SD2.1 的算力成本降低了10倍左右！

昨日，全球知名AI创新企业 Stability AI 推出了一款新的AI图像生成模型 Stable Cascade，并且同步在GitHub上开源了对应的微调、ControlNet 和 LoRA 训练的脚本。

Stable Cascade 是一款三阶段的文本到图像转换模型，利用高压缩率的潜在空间，实现了灵活性和高效性，提供优质的图像生成结果。

GitHub：https://github.com/Stability-AI/StableCascade

体验地址：https://huggingface.co/spaces/multimodalart/stable-cascade

该模型基于 Würstchen 架构，可以显著降低模型训练的算力成本，比 SD2.1 的算力成本降低了 10 倍左右。另外推理速度会比现有的 SD 模型快一倍左右。

重点

●🚀 模型由三个阶段组成，专注于图像压缩和生成。

●🌐 以非商业许可发布，支持普通用户硬件进行训练和微调。

●🔍 潜在生成阶段（C阶段）将用户输入转换为24x24像素的潜在空间，实现高效压缩。

●🔧 重点在C阶段进行额外学习和微调，A和B阶段可根据需要进行微调。

●💡 C和B阶段拥有不同的参数大小，减少硬件要求，同时提供高质量图像。

●🔬 在命令对齐和美学质量上超越其他模型。

●🎨 可以生成多样化图像和图像到图像的转换。

●📚 将公开训练、微调、ControlNet、LoRA的代码，支持更广泛的使用和定制。

更多功能：

除了标准的文本到图像生成之外，Stable Cascade 还可以执行图像变化和图像到图像生成。

局部重绘：输入与文本提示附带的蒙版配对的图像。该模型根据提供的文本提示填充图像的遮罩部分。

Canny Edge：通过跟踪输入到模型的现有图像的边缘来生成新图像。该测试也可以从草图进行扩展。

2x超分辨率：也可用于C阶段生成的潜在空间。

文章标签：

人工智能

物联网

编解码

关键词：

AI模型

AI算力

AI成本

AI图像模型

ai图像

python兴趣圈

目录

相关文章

阿里云开发者

|

5天前

|

机器学习/深度学习自然语言处理算法

AI 世界生存手册（一）：从LR到DeepSeek，模型慢慢变大了，也变强了

大家都可以通过写 prompt 来和大模型对话，那大模型之前的算法是怎样的，算法世界经过了哪些比较关键的发展，最后为什么是大模型这条路线走向了 AGI，作者用两篇文章共5.7万字详细探索一下。

阿里云开发者

56 7 8

AI 世界生存手册（一）：从LR到DeepSeek，模型慢慢变大了，也变强了

探索云世界动手实践

|

12天前

|

人工智能 Kubernetes jenkins

容器化AI模型的持续集成与持续交付（CI/CD）：自动化模型更新与部署

在前几篇文章中，我们探讨了容器化AI模型的部署、监控、弹性伸缩及安全防护。为加速模型迭代以适应新数据和业务需求，需实现容器化AI模型的持续集成与持续交付（CI/CD）。CI/CD通过自动化构建、测试和部署流程，提高模型更新速度和质量，降低部署风险，增强团队协作。使用Jenkins和Kubernetes可构建高效CI/CD流水线，自动化模型开发和部署，确保环境一致性并提升整体效率。

探索云世界动手实践

57 5 5

蚝油菜花

|

5天前

|

机器学习/深度学习人工智能并行计算

NotaGen：中央音乐学院联合清华推出AI音乐生成模型，古典乐谱一键生成，音乐性接近人类！

NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型，基于模仿大型语言模型的训练范式，能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式，显著提升了符号音乐生成的艺术性和可控性。

蚝油菜花

127 15 15

NotaGen：中央音乐学院联合清华推出AI音乐生成模型，古典乐谱一键生成，音乐性接近人类！

modelscope

|

6天前

|

编解码人工智能测试技术

CogView4开源发布！智谱AI文生图模型支持任意长度双语输入，汉字生成能力突出，可商用！

今天智谱AI正式发布并开源了最新的图像生成模型——CogView4。

modelscope

91 10 10

CogView4开源发布！智谱AI文生图模型支持任意长度双语输入，汉字生成能力突出，可商用！

蚝油菜花

|

4天前

|

人工智能机器人物联网

SpatialVLA：上海AI Lab联合上科大推出的空间具身通用操作模型

SpatialVLA 是由上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型，基于百万真实数据预训练，赋予机器人强大的3D空间理解能力，支持跨平台泛化控制。

蚝油菜花

39 7 7

SpatialVLA：上海AI Lab联合上科大推出的空间具身通用操作模型

蚝油菜花

|

12天前

|

机器学习/深度学习人工智能编解码

阿里开源AI视频生成大模型 Wan2.1：14B性能超越Sora、Luma等模型，一键生成复杂运动视频

Wan2.1是阿里云开源的一款AI视频生成大模型，支持文生视频和图生视频任务，具备强大的视觉生成能力，性能超越Sora、Luma等国内外模型。

蚝油菜花

548 2 2

阿里开源AI视频生成大模型 Wan2.1：14B性能超越Sora、Luma等模型，一键生成复杂运动视频

蚝油菜花

|

16天前

|

人工智能自然语言处理 API

ComfyUI-Copilot：阿里把AI助手塞进ComfyUI：一句话生成工作流，自动布线/调参/选模型，小白秒变大神！

ComfyUI-Copilot 是阿里推出的基于 ComfyUI 的 AI 智能助手，支持自然语言交互、智能节点推荐和自动工作流辅助，降低开发门槛并提升效率。

蚝油菜花

168 6 6

ComfyUI-Copilot：阿里把AI助手塞进ComfyUI：一句话生成工作流，自动布线/调参/选模型，小白秒变大神！

蚝油菜花

|

16天前

|

人工智能监控自动驾驶

Migician：清北华科联手放大招！多图像定位大模型问世：3秒锁定跨画面目标，安防监控迎来AI革命！

Migician 是北交大联合清华、华中科大推出的多模态视觉定位模型，支持自由形式的跨图像精确定位、灵活输入形式和多种复杂任务。

蚝油菜花

69 3 3

Migician：清北华科联手放大招！多图像定位大模型问世：3秒锁定跨画面目标，安防监控迎来AI革命！

楠竹11

|

15天前

|

人工智能数据可视化

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模型了

《CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM》提出了一种新型系统CAD-MLLM，能够根据文本、图像、点云或其组合生成高质量的CAD模型。该系统基于大型语言模型（LLM），通过多模态数据对齐和渐进式训练策略，实现了高效的CAD模型生成。作者创建了首个包含文本、图像、点云和命令序列的多模态数据集Omni-CAD，包含约450K个实例。实验表明，CAD-MLLM在多个任务上表现出色，特别是在点云条件生成任务中显著优于现有方法。未来工作将聚焦于提升计算效率、增加数据多样性及探索新模态。

楠竹11

151 18 18

探索云世界动手实践

|

12天前

|

人工智能 Prometheus 监控

容器化AI模型的监控与治理：确保模型持续稳定运行

在前几篇文章中，我们探讨了AI模型的容器化部署及构建容器化机器学习流水线。然而，将模型部署到生产环境只是第一步，更重要的是确保其持续稳定运行并保持性能。为此，必须关注容器化AI模型的监控与治理。监控和治理至关重要，因为AI模型在生产环境中面临数据漂移、概念漂移、模型退化和安全风险等挑战。全面的监控涵盖模型性能、数据质量、解释性、安全性和版本管理等方面。使用Prometheus和Grafana可有效监控性能指标，而遵循模型治理最佳实践（如建立治理框架、定期评估、持续改进和加强安全）则能进一步提升模型的可信度和可靠性。总之，容器化AI模型的监控与治理是确保其长期稳定运行的关键。

探索云世界动手实践

26 4 4

热门文章

最新文章

Manus：或将成为AI Agent领域的标杆

DeepSeek加持的通义灵码2.0 AI程序员实战案例：助力嵌入式开发中的算法生成革新

AnythingLLM：34K Star！一键上传文件轻松打造个人知识库，构建只属于你的AI助手，附详细部署教程

AstrBot：轻松将大模型接入QQ、微信等消息平台，打造多功能AI聊天机器人的开发框架，附详细教程

【最佳实践系列】零基础上手百炼语音AI模型

AI性能极致体验：通过阿里云平台高效调用满血版DeepSeek-R1模型

全程不用写代码，我用AI程序员写了一个飞机大战

[转载] 太神奇了！钉钉低代码×DeepSeek =5分钟手搓出学生个性化习题AI生成器

Kiln AI：零代码实现微调模型！自动生成合成数据与微调模型的开源平台

LangBot：无缝集成到QQ、微信等消息平台的AI聊天机器人平台

Manus AI 站在巨人（大模型）肩膀上的AI助手

Manus：AI 领域的又一次 "DeepSeek 时刻"？

中文法律AI大模型！LaWGPT 一键生成法律文书，司法考试通过率提升50%

Resume Matcher：增加面试机会！开源AI简历优化工具，一键解析简历和职位描述并优化

还在蹲Manus的邀请码？别等了！开源版Manus为你快速创建AI工位，给AI一台电脑，然后你就玩去吧！

无需邀请码！MetaGPT 开源AI助手 OpenManus，实时反馈+模块化设计，开发者福音

深度测评国产 AI 程序员，在 QwQ 和满血版 DeepSeek 助力下，哪些能力让你眼前一亮？

寻找通义灵码 AI 程序员 {头号玩家} ，体验 QwQ-Plus、DeepSeek 满血版的通义灵码

用通义灵码开发一个Python时钟：手把手体验AI程序员加持下的智能编码

AI做数学学会动脑子！ UCL等发现LLM程序性知识，推理绝不是背答案

相关课程

更多

AIGC无处不在，把AI应用构建于Serverless之上

【科技少年】AI领航员探索教程（赛前训练）

达摩院视觉AI精品课

AI开发者的Docker实践

趣味视觉AI应用入门与实战

AI数学基础

相关电子书

更多

AI 编程颠覆 IT 生产力

阿里云云原生技术实践营 AI 原生应用架构专场·北京站

Lindorm一站式AI数据平台实战

相关实验场景

更多

通过云原生API网关进行AI缓存

通过云原生API网关进行AI应用防护

体育赛事！零代码生成运动风格AI写真。

【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板

使用容器计算服务 ACS 算力快速搭建生成式 AI 会话应用

SAE 极速部署专属AI证件照神器

下一篇

通义万相2.1视频/图像模型新升级！可在阿里云百炼直接体验