替换一个节点,ComfyUI 瞬间起飞

简介: FunArt是阿里云函数计算推出的ComfyUI一键托管平台,集成VisionPlaid等高性能DiT推理引擎,支持多卡序列并行、4-bit量化与异步Offload,在保持原生兼容前提下显著加速图像/视频生成,真正实现开箱即用、弹性高可用的AI生成服务。

引言:生成式AI时代的推理加速挑战

在当今人工智能快速发展的时代,图像和视频生成技术已从科研前沿走向实际应用。从创意产业的广告制作、内容生成,到工业设计的可视化,再到医学影像辅助诊断和虚拟内容制作,扩散模型(Diffusion Model)正在为各个行业创造前所未有的价值。

然而,这种应用的广泛化也带来了新的挑战:随着模型规模的不断增大,推理时间随之增加,用户对生成速度的期待与硬件性能之间的矛盾日益凸显。同时,复杂的推理优化配置也为普通用户设置了较高的技术门槛,制约了这些强大技术的普及。

在 AI 生成领域,推理性能的提升直接决定用户体验的质量。FunArt 作为阿里云函数计算提供的一键托管 ComfyUI 应用平台,致力于为用户提供开箱即用的先进 DiT 推理引擎能力,持续提升图像/视频生成性能。此前,FunArt 已相继集成 NunchakuDeepGPU 两款 DiT 推理引擎,让用户无需繁琐配置即可享受加速推理的红利。

现在,FunArt 再次集成新引擎——VisionPlaid。VisionPlaid 是阿里云基础软件团队推出的一款专为视觉扩散模型(Diffusion Model)设计的高性能推理加速框架,深度整合前沿技术,提供对 ComfyUI 的原生支持,为多款模型提供极致的推理体验。

技术演进:从 Nunchaku 到 VisionPlaid

FunArt 在推理加速领域的演进历程反映了一个重要理念:单一的加速方案无法满足所有场景需求,只有不断集成最新技术,才能为用户提供真正的极致体验

FunArt的优势

FunArt是阿里云函数计算提供的一键托管ComfyUI应用平台,提供从项目开发到API调用的全生命周期管理能力。
image.png

一键部署,开箱即用

  • 一键部署:一键拉起图像生成项目,分钟级完成端到端环境搭建。
  • 开箱即用:自动分配Serverless GPU算力与存储资源,预装开箱即用的ComfyUI环境,全程无需手动安装依赖。

提供项目开发到API调用的全生命周期管理

  • 简单易上手的项目开发,项目开发阶段拉齐本地出图体验,可便捷地下载模型,安装插件,调试提示词与流程,快速出图。
  • 弹性高可用的API调用:API调用阶段充分发挥Serverless优势,弹性高可用,自动扩缩容。
  • 一站式发布:项目开发阶段调试通过的流程可直接发布为弹性高可用的API。

国内网络加速,减少等待

  • 模型预缓存:缓存50+ 常用模型,提升模型下载速度。
  • 使用国内Github源站加速插件下载,避免跨境访问连接超时。
  • 使用阿里云PyPI源,提升依赖安装速度。

灵活开放

  • 自定义模型上传:支持上传自定义模型,即时生效。
  • 自定义插件扩展:可通过文件管理或实例登录上传自定义插件,适配个性化需求。

资源独享,安全无忧

  • 独立的运行环境:项目独占GPU资源,避免资源争抢带来的性能波动。
  • 隔离的资源存储:模型与生成内容均存储在用户的NAS中,保证数据安全。

Serverless算力,弹性扩展,按需付费

  • 自动弹性伸缩:Serverless算力在突发流量时可自动扩容,轻松应对波峰流量。
  • 算力按需计费:算力按需计费,无请求时可自动释放计算资源,随起随停,浅休眠(原闲置)成本低。

企业级可靠性保障

  • 服务高可用:算力多可用区容灾部署,单点故障可自动迁移恢复

VisionPlaid 技术概览:推理加速的新方向

VisionPlaid 的出现标志着推理加速技术的一个重要突破。与传统的加速方案相比,VisionPlaid 采取了全新的技术路线,既保证了与现有生态(ComfyUI)的无缝兼容,又通过创新的算法和架构实现了显著的性能提升。这种"兼容性与性能并重"的设计思想,正是 VisionPlaid 能够快速被 FunArt 采纳的原因。

VisionPlaid的优势

1. 行业领先的 ComfyUI 并行化加速 (SP)

  • 超越简单的显存节省:不同于 comfyui-multigpu 等仅通过分布式 Offload 来节省内存的项目,VisionPlaid 实现了真正的序列并行(Sequence Parallelism, SP)加速。我们不仅能让你跑起来大模型,更能通过多卡协同计算,显著缩短单图/单视频的生成时间。
  • SOTA E2E 速度:VisionPlaid 支持在并行模式下同时开启 Async Offload,并将并行加速与 4-bit 量化 完美结合(Insane!)。这种组合拳让单张大图或长视频的端到端(E2E)生成速度直达硬件极限。

2. 极致的原生 ComfyUI 兼容性

  • 生态无缝衔接:ComfyUI 是目前最受欢迎的视觉工作流框架,使普通用户也能在消费级显卡上搭建自定义风格和组件。VisionPlaid 坚持原生兼容路线:
    • 直接支持社区权重:无需像 SGL-Diffusion 那样用后端服务接管,直接复用社区生态。
    • 全组件兼容:区别于 xDiT 等独立框架,VisionPlaid 融入原生态工作流,你可以继续使用你喜爱的各种自定义节点和插件。

3. 智能内存管理与异步 Offload

  • 突破显存物理上限:在 ComfyUI 原有的内存管理基础上,我们提供了更深层的智能异步加载/卸载(Async Load/Unload)能力。在推理进行的同时,后台异步准备下一阶段权重,理论上支持运行远超物理显存容量的超大规模模型。

4. 极简的架构易用性

  • 一键替换,无感加速:在工作流中支持并行,只需要替换一个节点(KSampler) 即可完成。
  • 智能 Worker 管理:VisionPlaid 能够智能管理 GPU 资源的分配与回收。当你切换 GPU 数量时,系统会自动销毁并重建 Worker,无需重启 ComfyUI 即可即时生效。

VisionPlaid核心特性

VisionPlaid 通过软硬件协同优化,在保持模型精度的前提下突破推理性能瓶颈。

并行与通信

  • SP 通信计算重叠:利用序列并行(Sequence Parallelism)隐藏通信延迟,实现计算与通信高效并发。
  • 量化通信:采用低位宽通信协议,大幅缓解多卡/多节点间的带宽压力。

精度与量化

  • 下一代量化支持:原生支持 Int4NVFP4,在极致压缩显存的同时确保生成质量。
  • 4-Step 蒸馏兼容:完美适配少步数模型,支持秒级极速图像/视频生成。

架构与算子

  • ComfyUI 原生加速:深度集成工作流,支持节点级并行推理。
  • 全能 Attention 后端:支持 SageAttentionFlashAttentionSDPA 无重启自由切换。
  • 异步 Offload 机制:动态加载/卸载权重,利用计算流水掩盖 IO 延迟,支持远超显存容量的超大模型推理。
  • 算子深度加速:整合 torch.compile 与自定义融合算子,榨干硬件性能。

VisionPlaid横向评测 (Benchmarks)

在与当前业界 SOTA 项目的横向对比中,VisionPlaid 在 Transformer 单步时间和端到端延迟上均展现了显著优势。

视频生成

VisionPlaid 的性能优势不仅体现在原始数字上,更重要的是这些性能提升对实际应用的影响。在视频生成领域,与 Diffusers 相比 1.6 倍的单卡加速意味着生成一段视频的时间从 499 秒降至 308 秒,减少了 191 秒的等待时间——这对于需要快速迭代的创意工作者而言是巨大的生产力提升。在双卡配置下,2.5 倍的加速将时间进一步压缩到 200 秒,使得原本需要 8 分钟的任务降至 3 分钟,这在生产环境中可以显著提升吞吐量。

image.png

框架名称 GPUs Step Time End-To-End Time Speedup
Diffusers 1 24.03 s/it 499.47 s 1x
LightX2V 1 20.41 s/it 465.00 s 1.07x
xDiT 1 32.80 s/it 670.23 s -
FastVideo 1 22.75 s/it 466.43 s 1.07x
SGL Diffusion 1 15.41 s/it 324.10 s 1.5x
VisionPlaid 1 14.98 s/it 308.11 s 1.6x
LightX2V 2 13.01 s/it 268.81 s 1.8x
xDiT 2 OOM - -
FastVideo 2 14.73 s/it 306.28 s 1.6x
SGL Diffusion 2 12.57 s/it 285.21 s 1.8x
VisionPlaid 2 8.74 s/it 200.60 s 2.5x

测试环境:[Wan 2.1 T2V 14B,4090,20 steps,81 frames,480P (480x848),SageAttention,BF16]

注:xDiT 未接入 SageAttention,因此省略 Speedup 信息;2 卡时疑似 cpu offload 和 parallel 冲突导致 OOM

图片生成 (bf16/fp8)

在图片生成领域,VisionPlaid 展现出了对不同精度配置的优异适应能力。即使在 fp8 低精度下仍能保持 1.10 倍的性能优势,说明 VisionPlaid 的优化不仅限于高精度场景,对于成本敏感的应用同样有效。在极端的 4-step 超快速生成配置下,VisionPlaid 能够在 3.51 秒内完成一张 1024x1024 图像的生成,这使得实时或近实时的交互式生成成为了可能。

框架名称 权重 GPUs Step Time End-To-End Time Speedup
Diffusers bf16 1 - OOM -
LightX2V bf16 1 3.23 s/it 65.63 s 1x
fp8 1 1.62 s/it 33.83 s 1x
4steps+fp8 1 0.81 s/it 4.10 s 1x
xDiT bf16 1 - OOM -
SGL Diffusion bf16 1 - OOM -
VisionPlaid bf16 1 2.97 s/it 60.95 s 1.08x vs LightX2V
fp8 1 1.51 s/it 30.73 s 1.10x vs LightX2V
4steps+fp8 1 0.71 s/it 3.51 s 1.17x vs LightX2V

测试环境:[Qwen-Image-2512,4090,20 steps or 4 steps,1024x1024,SageAttention]

:4-step 配置中使用了 CFG=1.0 的推荐配置;xDiT 和 SGLD 未支持 fp8

图片生成 (int4/4steps+int4)

最为值得关注的是 int4 超低精度配置下的性能表现。VisionPlaid + SageAttention 在单卡上达到了 2.0 倍的加速,在双卡上甚至能达到 2.7 倍,这意味着用户可以在消费级显卡上实现图片和视频的实时或准实时生成,同时显著降低推理成本。这对于没有高端 GPU 资源的开发者和企业而言,具有重要的实际意义,使其能够以更低的投入成本部署和运营 AI 生成应用。

框架名称 权重 GPUs Step Time End-To-End Time Speedup*
ComfyUI bf16 1 9.04 s/it 188.39 s 0.69x
4steps+bf16 1 4.38 s/it 24.40 s 0.56x
Nunchaku int4 1 6.42 s/it 129.46 s 1x
4steps+int4 1 3.19 s/it 13.73 s 1x
VisionPlaid + default attention int4 1 5.96 s/it 121.65 s 1.06x
4steps+int4 1 2.84 s/it 12.97 s 1.06x
VisionPlaid + sage attention int4 1 3.16 s/it 64.92 s 2.0x
4steps+int4 1 1.49 s/it 7.24 s 1.9x
VisionPlaid + default attention int4 2 3.77 s/it 77.07 s 1.7x
4steps+int4 2 1.97 s/it 9.23 s 1.5x
VisionPlaid + sage attention int4 2 2.29 s/it 47.17 s 2.7x
4steps+int4 2 1.24 s/it 6.04 s 2.3x

测试环境:[Qwen-Image-Edit-2509,4090,20 steps or 4 steps,1440x1920,ComfyUI 默认启动参数]

:4-step 配置中使用了 CFG=1.0 的推荐配置; Speedup 分别以 Nunchaku 的两个结果为基准,即 int4 以 int4 为基准,4steps+int4 以 4steps+int4 为基准;* VisionPlaid 的一个优势在于默认可以无重启切换 SageAttention,适合一些长期运行,workload 不固定的 ComfyUI 服务(比如阿里云 FC),这个配置利用了这一点

在 FunArt 中使用 VisionPlaid

FunArt 对 VisionPlaid 做了深度集成,包括:

  • 集成VisionPlaid
  • 提供VisionPlaid示例工作流
  • 提供示例工作流所需模型数据
  • 集成示例工作流所需依赖包
    用户可以以开箱即用的方式使用 VisionPlaid。当前还处于邀测阶段,请加入客户钉群:32245557,添加 VisionPlaid 白名单。

创建FunArt项目

1.登录FunArt控制台,在右上角切换您希望的地域;

image.png

2.切换到项目 tab,选择创建新项目
3.在新打开的创建新项目页面,

  • 第一步选择项目类型ComfyUI
  • image.png

  • 第二步选择GPU卡型和规格Ada.系列**或者__Blackwell系列*

  • image.png

  • 第三步配置其他项目属性,输入您希望的项目名称,选择您希望的地域加速引擎选择VisionPlaid,其他保持默认配置即可

  • 第四步在确认并完成创建页面,点击确认部署,等待项目创建完成

运行示例工作流

1.FunArt项目创建完成后,在打开的项目页面里,选择项目开发/工作站/Workflows,可以看到FunArt已经内置了几个VisionPlaid示例工作流;

image.png

2.选择您想要运行的工作流,点击右上角的Run按钮,就可以开始运行推理了。

总结

VisionPlaid 通过序列并行加速、原生生态兼容和智能显存管理等创新技术,为用户带来了性能与易用性的完美结合。

无论是需要实时交互的应用场景,还是对生成质量有高要求的长流程任务,FunArt 结合 VisionPlaid 都提供了最优的解决方案。用户无需进行复杂的配置或优化,仅需几次点击就能启动一个高性能的 AI 生成服务,充分体现了 FunArt 的"开箱即用"。

了解更多

FunArt 快速入门https://help.aliyun.com/zh/functioncompute/fc/introduction-to-image-generation-applications

FunArt 自定义部署https://functionai.console.aliyun.com/funart/cn-hangzhou/explore

相关文章
|
3天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
10441 46
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
22天前
|
人工智能 JavaScript Ubuntu
5分钟上手龙虾AI!OpenClaw部署(阿里云+本地)+ 免费多模型配置保姆级教程(MiniMax、Claude、阿里云百炼)
OpenClaw(昵称“龙虾AI”)作为2026年热门的开源个人AI助手,由PSPDFKit创始人Peter Steinberger开发,核心优势在于“真正执行任务”——不仅能聊天互动,还能自动处理邮件、管理日程、订机票、写代码等,且所有数据本地处理,隐私完全可控。它支持接入MiniMax、Claude、GPT等多类大模型,兼容微信、Telegram、飞书等主流聊天工具,搭配100+可扩展技能,成为兼顾实用性与隐私性的AI工具首选。
23561 121
|
8天前
|
人工智能 JavaScript API
解放双手!OpenClaw Agent Browser全攻略(阿里云+本地部署+免费API+网页自动化场景落地)
“让AI聊聊天、写代码不难,难的是让它自己打开网页、填表单、查数据”——2026年,无数OpenClaw用户被这个痛点困扰。参考文章直击核心:当AI只能“纸上谈兵”,无法实际操控浏览器,就永远成不了真正的“数字员工”。而Agent Browser技能的出现,彻底打破了这一壁垒——它给OpenClaw装上“上网的手和眼睛”,让AI能像真人一样打开网页、点击按钮、填写表单、提取数据,24小时不间断完成网页自动化任务。
2201 5