Comfyui 教程-2
ComfyUI 采用模块化设计,通过不同的加载节点支持多种模型类型 https://docs.comfy.org/development/core-concepts/models:
|
模型类型 |
说明 |
典型大小 |
|
Checkpoint(大模型/底模) |
主生成模型,如 SD 1.5、SDXL、Flux 等 |
2–23 GB |
|
LoRA |
轻量级微调模型,用于风格/人物/概念 |
几十 MB–几百 MB |
|
VAE |
变分自编码器,影响图像色彩和细节 |
几百 MB |
|
ControlNet |
控制生成结构的模型(姿态、边缘、深度等) |
1–2 GB |
|
Embedding |
文本嵌入,用于优化提示词效果 |
几十 KB–几 MB |
|
Upscale 模型 |
图像放大模型(如 RealESRGAN、SwinIR) |
几十 MB |
|
IP-Adapter / FaceSwap |
图像参考/换脸模型 |
几百 MB–几 GB |
|
GGUF 量化模型 |
社区支持的量化格式(需安装自定义节点) |
视量化精度而定 |
3.1 Checkpoint(大模型/底模)
3.1.1Checkpoint 简介
一、定义
Checkpoint(检查点/大模型/底模)是 Stable Diffusion 及 ComfyUI 生态中的核心主模型,是经过完整训练保存的神经网络权重文件。它包含了图像生成所需的全部核心参数,是整个 AI 绘画流程的"大脑"和"基石"。
二、文件特征
|
特征 |
说明 |
|
文件大小 |
2GB – 23GB(SD 1.5 约 4GB,SDXL 约 6–7GB,Flux Dev 约 23GB) |
|
文件格式 |
.safetensors(推荐,安全快速)/ .ckpt(旧格式,有安全风险)/ .gguf(量化格式) |
|
命名习惯 |
通常以模型名 + 版本号命名,如 flux1-dev.safetensors |
|
存放路径 |
ComfyUI 的 models/checkpoints/ 目录下 |
三、核心组成
Checkpoint 内部包含以下关键模块:
|
模块 |
功能 |
说明 |
|
U-Net(去噪网络) |
核心生成引擎 |
负责从噪声逐步还原出图像,决定画质和细节 |
|
文本编码器(Text Encoder) |
理解提示词 |
将文字描述转换为模型可理解的语义向量 |
|
VAE(变分自编码器) |
图像编解码 |
负责潜空间与像素空间的转换,影响色彩和清晰度 |
注:部分 Checkpoint 将 VAE 内置,部分需外接独立 VAE 模型。
四、核心作用
|
作用 |
说明 |
|
决定基础画风 |
写实、二次元、插画、3D 等整体视觉方向 |
|
控制语义理解 |
对提示词的理解深度和准确度 |
|
限定分辨率能力 |
原生支持 512²、1024² 或更高 |
|
影响生成质量上限 |
模型的训练质量和架构决定最终出图天花板 |
|
承载其他模型 |
LoRA、ControlNet、Embedding 等都依附于 Checkpoint 运行 |
五、与其他模型的关系

比喻:Checkpoint 是"地基和主体结构",其他模型是"装修、家具和软装"。没有 Checkpoint,其他模型无法独立工作。
六、使用方式
在 ComfyUI 中,通过 Load Checkpoint 节点加载:

- 一个工作流只能有一个主 Checkpoint(可通过切换节点更换)
- 更换 Checkpoint 会完全改变生成结果的基础风格和质量
- 可通过 CheckpointLoaderSimple 或带 VAE 选择的 CheckpointLoader 节点加载
七、选择要点
|
考虑因素 |
建议 |
|
显存大小 |
4GB 选 SD 1.5,8GB 选 SDXL,12GB+ 选 Flux |
|
目标风格 |
写实选 Realistic Vision/Juggernaut,二次元选 Pony/MeinaMix |
|
文字生成需求 |
需要生成文字选 Flux 或 SD3.5 |
|
商用需求 |
确认模型许可协议(Flux Dev/Schnell、SD 1.5/SDXL 通常可商用) |
|
生态资源 |
需要大量 LoRA 配套选 SD 1.5 或 SDXL,Flux 生态快速增长中 |
八、一句话总结
Checkpoint 是 ComfyUI 图像生成的"操作系统"——它决定了你能画出什么质量、什么风格的图,是所有其他模型和功能得以运行的基础平台。选对 Checkpoint,是成功出图的第一步。
常见模型
|
系列 |
侧重点 |
代表模型 |
现状 |
是否可商用 |
是否支持自然语言 |
|
SD 1.5 |
生态最成熟、入门门槛低、特定风格资源丰富 |
v1-5-pruned-emaonly(官方)、Realistic Vision、DreamShaper、MeinaMix、ChilloutMix |
架构老旧但生态庞大,大量特定风格微调模型仍基于此,适合低显存和特定需求场景 |
✅ 可商用(官方协议允许) |
❌ 不支持,需结构化提示词(括号权重、关键词堆砌) |
|
SDXL |
1024 原生分辨率、提示词理解大幅提升、写实与通用质量高 |
SDXL Base + Refiner(官方)、Juggernaut XL、Pony Diffusion V6 XL、DreamShaper XL、RealVisXL、SDXL Lightning/Turbo |
2023–2024 年主流,生态丰富,现逐渐被 Flux 替代,但仍是性价比之选,大量工作流基于此 |
✅ 可商用 |
⚠️ 有限支持,比 1.5 强但仍需一定技巧 |
|
SD3 / SD3.5 |
全新 DiT 架构、文字生成能力极强、多分辨率灵活 |
SD3 Medium、SD3 Large、SD3.5 Large、SD3.5 Large Turbo |
架构革新但社区生态建设较慢,LoRA 和微调资源少于 SDXL 和 Flux,部分版本商用受限 |
⚠️ 部分受限(需查看具体版本许可) |
✅ 支持,理解能力显著提升 |
|
Flux.1 |
当前开源质量天花板、提示词理解极佳、文字渲染顶尖 |
Flux.1 [Dev]、Flux.1 [Schnell]、Flux.1 [Pro](仅 API)、Flux.1 [Fill](扩图/重绘)、Flux.1 [Canny/Depth](ControlNet 版) |
2024 下半年至今的社区主流,生态快速增长,大量基于 Flux 的微调模型和 LoRA 涌现,当前首选 |
✅ Dev/Schnell 可商用(Apache 2.0),Pro 仅 API |
✅ 优秀支持,自然语言描述效果极佳 |
|
Kolors |
中文理解优秀、国人审美优化、中文场景生成 |
Kolors(快手官方) |
国产开源模型,中文提示词效果好,但国际社区资源相对少,主要在国内活跃 |
✅ 可商用 |
✅ 支持,中文自然语言效果突出 |
|
混元-DiT |
中文场景优化、DiT 架构、多分辨率 |
HunyuanDiT(腾讯官方) |
腾讯开源,中文理解好,但社区生态和微调资源不如 Flux 丰富 |
✅ 可商用 |
✅ 支持 |
|
Wan 2.1 / Wan 2.2 |
视频生成为主,兼顾图像、多模态理解 |
Wan 2.1(阿里官方)、Wan 2.2(阿里官方,待发布/已发布) |
阿里开源的视频生成模型,Wan 2.1 已是当前开源视频生成 SOTA 之一,Wan 2.2 为下一代升级版本,图像生成能力同步提升,社区快速跟进中 |
✅ 可商用 |
✅ 支持,自然语言理解能力强 |
|
PixArt |
高效轻量 DiT、快速推理、成本优化 |
PixArt-α、PixArt-Σ(华为诺亚) |
主打高效和低成本,适合资源受限场景,社区资源一般,更多用于研究参考 |
✅ 可商用 |
✅ 支持 |
|
UltraPixel |
超高分辨率生成、细节极致 |
UltraPixel(华为) |
专攻高分辨率(4K+)图像生成,应用场景较窄,社区资源有限 |
需查看具体许可 |
⚠️ 有限支持 |
|
Playground v2.5 / v3 |
美学优化、色彩丰富、设计感强 |
Playground v2.5、Playground v3 |
由 Playground AI 发布,美学风格独特,社区资源一般,更多用于特定风格探索 |
需查看具体许可 |
✅ 支持 |
|
Ideogram 类模型 |
文字渲染、海报设计 |
部分社区移植版本 |
闭源产品 Ideogram 的开源替代尝试,效果不及官方,生态极弱 |
视具体移植版本 |
✅ 支持 |
|
Segmind Vega / SSD-1B |
轻量高速、SDXL 蒸馏版 |
Segmind Vega、SSD-1B |
针对速度和效率优化的蒸馏模型,质量略低于完整 SDXL,适合快速预览和低端设备 |
✅ 可商用 |
⚠️ 有限支持 |
补充说明
|
项目 |
说明 |
|
自然语言支持 |
指模型是否能理解流畅的句子描述(如"一个穿着红色连衣裙的女孩站在樱花树下"),而非必须依赖逗号分隔的关键词堆砌。Flux、SD3、Kolors、混元、Wan 系列在此方面表现优秀。 |
|
商用许可 |
大部分开源模型(SD 1.5、SDXL、Flux Dev/Schnell、Kolors、混元、Wan)采用宽松许可可商用;SD3 部分版本、Playground、UltraPixel 等需仔细查看具体许可协议。 |
|
Wan 2.2 |
截至 2026 年 6 月,Wan 2.2 为阿里万相大模型的最新迭代版本,在视频生成和图像理解/生成上进一步升级,具体发布时间需以官方公告为准,社区已有预热和适配准备。 |
|
当前首选推荐 |
Flux.1 Dev 为图像生成首选(质量+生态+商用);Wan 2.1/2.2 为视频生成首选;显存有限选 SDXL 或 Flux Schnell。 |
更多推荐



所有评论(0)