1. ComfyUI支持的基础模型类型

ComfyUI 采用模块化设计,通过不同的加载节点支持多种模型类型 https://docs.comfy.org/development/core-concepts/models

模型类型

说明

典型大小

Checkpoint(大模型/底模)

主生成模型,如 SD 1.5、SDXL、Flux 等

2–23 GB

LoRA

轻量级微调模型,用于风格/人物/概念

几十 MB–几百 MB

VAE

变分自编码器,影响图像色彩和细节

几百 MB

ControlNet

控制生成结构的模型(姿态、边缘、深度等)

1–2 GB

Embedding

文本嵌入,用于优化提示词效果

几十 KB–几 MB

Upscale 模型

图像放大模型(如 RealESRGAN、SwinIR)

几十 MB

IP-Adapter / FaceSwap

图像参考/换脸模型

几百 MB–几 GB

GGUF 量化模型

社区支持的量化格式(需安装自定义节点)

视量化精度而定

3.1  Checkpoint(大模型/底模)

3.1.1Checkpoint 简介

一、定义

Checkpoint(检查点/大模型/底模)是 Stable Diffusion 及 ComfyUI 生态中的核心主模型,是经过完整训练保存的神经网络权重文件。它包含了图像生成所需的全部核心参数,是整个 AI 绘画流程的"大脑"和"基石"。

二、文件特征

特征

说明

文件大小

2GB – 23GB(SD 1.5 约 4GB,SDXL 约 6–7GB,Flux Dev 约 23GB)

文件格式

.safetensors(推荐,安全快速)/ .ckpt(旧格式,有安全风险)/ .gguf(量化格式)

命名习惯

通常以模型名 + 版本号命名,如 flux1-dev.safetensors

存放路径

ComfyUI 的 models/checkpoints/ 目录下

三、核心组成

Checkpoint 内部包含以下关键模块:

模块

功能

说明

U-Net(去噪网络)

核心生成引擎

负责从噪声逐步还原出图像,决定画质和细节

文本编码器(Text Encoder)

理解提示词

将文字描述转换为模型可理解的语义向量

VAE(变分自编码器)

图像编解码

负责潜空间与像素空间的转换,影响色彩和清晰度

注:部分 Checkpoint 将 VAE 内置,部分需外接独立 VAE 模型。

四、核心作用

作用

说明

决定基础画风

写实、二次元、插画、3D 等整体视觉方向

控制语义理解

对提示词的理解深度和准确度

限定分辨率能力

原生支持 512²、1024² 或更高

影响生成质量上限

模型的训练质量和架构决定最终出图天花板

承载其他模型

LoRA、ControlNet、Embedding 等都依附于 Checkpoint 运行

五、与其他模型的关系

比喻:Checkpoint 是"地基和主体结构",其他模型是"装修、家具和软装"。没有 Checkpoint,其他模型无法独立工作。

六、使用方式

在 ComfyUI 中,通过 Load Checkpoint 节点加载:

  1. 一个工作流只能有一个主 Checkpoint(可通过切换节点更换)
  2. 更换 Checkpoint 会完全改变生成结果的基础风格和质量
  3. 可通过 CheckpointLoaderSimple 或带 VAE 选择的 CheckpointLoader 节点加载

七、选择要点

考虑因素

建议

显存大小

4GB 选 SD 1.5,8GB 选 SDXL,12GB+ 选 Flux

目标风格

写实选 Realistic Vision/Juggernaut,二次元选 Pony/MeinaMix

文字生成需求

需要生成文字选 Flux 或 SD3.5

商用需求

确认模型许可协议(Flux Dev/Schnell、SD 1.5/SDXL 通常可商用)

生态资源

需要大量 LoRA 配套选 SD 1.5 或 SDXL,Flux 生态快速增长中

八、一句话总结

Checkpoint 是 ComfyUI 图像生成的"操作系统"——它决定了你能画出什么质量、什么风格的图,是所有其他模型和功能得以运行的基础平台。选对 Checkpoint,是成功出图的第一步。

常见模型

系列

侧重点

代表模型

现状

是否可商用

是否支持自然语言

SD 1.5

生态最成熟、入门门槛低、特定风格资源丰富

v1-5-pruned-emaonly(官方)、Realistic Vision、DreamShaper、MeinaMix、ChilloutMix

架构老旧但生态庞大,大量特定风格微调模型仍基于此,适合低显存和特定需求场景

✅ 可商用(官方协议允许)

❌ 不支持,需结构化提示词(括号权重、关键词堆砌)

SDXL

1024 原生分辨率、提示词理解大幅提升、写实与通用质量高

SDXL Base + Refiner(官方)、Juggernaut XL、Pony Diffusion V6 XL、DreamShaper XL、RealVisXL、SDXL Lightning/Turbo

2023–2024 年主流,生态丰富,现逐渐被 Flux 替代,但仍是性价比之选,大量工作流基于此

✅ 可商用

⚠️ 有限支持,比 1.5 强但仍需一定技巧

SD3 / SD3.5

全新 DiT 架构、文字生成能力极强、多分辨率灵活

SD3 Medium、SD3 Large、SD3.5 Large、SD3.5 Large Turbo

架构革新但社区生态建设较慢,LoRA 和微调资源少于 SDXL 和 Flux,部分版本商用受限

⚠️ 部分受限(需查看具体版本许可)

✅ 支持,理解能力显著提升

Flux.1

当前开源质量天花板、提示词理解极佳、文字渲染顶尖

Flux.1 [Dev]、Flux.1 [Schnell]、Flux.1 [Pro](仅 API)、Flux.1 [Fill](扩图/重绘)、Flux.1 [Canny/Depth](ControlNet 版)

2024 下半年至今的社区主流,生态快速增长,大量基于 Flux 的微调模型和 LoRA 涌现,当前首选

✅ Dev/Schnell 可商用(Apache 2.0),Pro 仅 API

✅ 优秀支持,自然语言描述效果极佳

Kolors

中文理解优秀、国人审美优化、中文场景生成

Kolors(快手官方)

国产开源模型,中文提示词效果好,但国际社区资源相对少,主要在国内活跃

✅ 可商用

✅ 支持,中文自然语言效果突出

混元-DiT

中文场景优化、DiT 架构、多分辨率

HunyuanDiT(腾讯官方)

腾讯开源,中文理解好,但社区生态和微调资源不如 Flux 丰富

✅ 可商用

✅ 支持

Wan 2.1 / Wan 2.2

视频生成为主,兼顾图像、多模态理解

Wan 2.1(阿里官方)、Wan 2.2(阿里官方,待发布/已发布)

阿里开源的视频生成模型,Wan 2.1 已是当前开源视频生成 SOTA 之一,Wan 2.2 为下一代升级版本,图像生成能力同步提升,社区快速跟进中

✅ 可商用

✅ 支持,自然语言理解能力强

PixArt

高效轻量 DiT、快速推理、成本优化

PixArt-α、PixArt-Σ(华为诺亚)

主打高效和低成本,适合资源受限场景,社区资源一般,更多用于研究参考

✅ 可商用

✅ 支持

UltraPixel

超高分辨率生成、细节极致

UltraPixel(华为)

专攻高分辨率(4K+)图像生成,应用场景较窄,社区资源有限

需查看具体许可

⚠️ 有限支持

Playground v2.5 / v3

美学优化、色彩丰富、设计感强

Playground v2.5、Playground v3

由 Playground AI 发布,美学风格独特,社区资源一般,更多用于特定风格探索

需查看具体许可

✅ 支持

Ideogram 类模型

文字渲染、海报设计

部分社区移植版本

闭源产品 Ideogram 的开源替代尝试,效果不及官方,生态极弱

视具体移植版本

✅ 支持

Segmind Vega / SSD-1B

轻量高速、SDXL 蒸馏版

Segmind Vega、SSD-1B

针对速度和效率优化的蒸馏模型,质量略低于完整 SDXL,适合快速预览和低端设备

✅ 可商用

⚠️ 有限支持

补充说明

项目

说明

自然语言支持

指模型是否能理解流畅的句子描述(如"一个穿着红色连衣裙的女孩站在樱花树下"),而非必须依赖逗号分隔的关键词堆砌。Flux、SD3、Kolors、混元、Wan 系列在此方面表现优秀。

商用许可

大部分开源模型(SD 1.5、SDXL、Flux Dev/Schnell、Kolors、混元、Wan)采用宽松许可可商用;SD3 部分版本、Playground、UltraPixel 等需仔细查看具体许可协议。

Wan 2.2

截至 2026 年 6 月,Wan 2.2 为阿里万相大模型的最新迭代版本,在视频生成和图像理解/生成上进一步升级,具体发布时间需以官方公告为准,社区已有预热和适配准备。

当前首选推荐

Flux.1 Dev 为图像生成首选(质量+生态+商用);Wan 2.1/2.2 为视频生成首选;显存有限选 SDXL 或 Flux Schnell

Logo

CANN开发者社区旨在汇聚广大开发者,围绕CANN架构重构、算子开发、部署应用优化等核心方向,展开深度交流与思想碰撞,携手共同促进CANN开放生态突破!

更多推荐