Comfyui 教程-2

放大的EZ

348人浏览 · 2026-06-10 10:26:34

放大的EZ · 2026-06-10 10:26:34 发布

ComfyUI支持的基础模型类型

ComfyUI 采用模块化设计，通过不同的加载节点支持多种模型类型 https://docs.comfy.org/development/core-concepts/models：

模型类型	说明	典型大小
Checkpoint（大模型/底模）	主生成模型，如 SD 1.5、SDXL、Flux 等	2–23 GB
LoRA	轻量级微调模型，用于风格/人物/概念	几十 MB–几百 MB
VAE	变分自编码器，影响图像色彩和细节	几百 MB
ControlNet	控制生成结构的模型（姿态、边缘、深度等）	1–2 GB
Embedding	文本嵌入，用于优化提示词效果	几十 KB–几 MB
Upscale 模型	图像放大模型（如 RealESRGAN、SwinIR）	几十 MB
IP-Adapter / FaceSwap	图像参考/换脸模型	几百 MB–几 GB
GGUF 量化模型	社区支持的量化格式（需安装自定义节点）	视量化精度而定

3.1 Checkpoint（大模型/底模）

3.1.1Checkpoint 简介

一、定义

Checkpoint（检查点/大模型/底模）是 Stable Diffusion 及 ComfyUI 生态中的核心主模型，是经过完整训练保存的神经网络权重文件。它包含了图像生成所需的全部核心参数，是整个 AI 绘画流程的"大脑"和"基石"。

二、文件特征

特征	说明
文件大小	2GB – 23GB（SD 1.5 约 4GB，SDXL 约 6–7GB，Flux Dev 约 23GB）
文件格式	.safetensors（推荐，安全快速）/ .ckpt（旧格式，有安全风险）/ .gguf（量化格式）
命名习惯	通常以模型名 + 版本号命名，如 flux1-dev.safetensors
存放路径	ComfyUI 的 models/checkpoints/ 目录下

三、核心组成

Checkpoint 内部包含以下关键模块：

模块	功能	说明
U-Net（去噪网络）	核心生成引擎	负责从噪声逐步还原出图像，决定画质和细节
文本编码器（Text Encoder）	理解提示词	将文字描述转换为模型可理解的语义向量
VAE（变分自编码器）	图像编解码	负责潜空间与像素空间的转换，影响色彩和清晰度

注：部分 Checkpoint 将 VAE 内置，部分需外接独立 VAE 模型。

四、核心作用

作用	说明
决定基础画风	写实、二次元、插画、3D 等整体视觉方向
控制语义理解	对提示词的理解深度和准确度
限定分辨率能力	原生支持 512²、1024² 或更高
影响生成质量上限	模型的训练质量和架构决定最终出图天花板
承载其他模型	LoRA、ControlNet、Embedding 等都依附于 Checkpoint 运行

五、与其他模型的关系

比喻：Checkpoint 是"地基和主体结构"，其他模型是"装修、家具和软装"。没有 Checkpoint，其他模型无法独立工作。

六、使用方式

在 ComfyUI 中，通过 Load Checkpoint 节点加载：

一个工作流只能有一个主 Checkpoint（可通过切换节点更换）
更换 Checkpoint 会完全改变生成结果的基础风格和质量
可通过 CheckpointLoaderSimple 或带 VAE 选择的 CheckpointLoader 节点加载

七、选择要点

考虑因素	建议
显存大小	4GB 选 SD 1.5，8GB 选 SDXL，12GB+ 选 Flux
目标风格	写实选 Realistic Vision/Juggernaut，二次元选 Pony/MeinaMix
文字生成需求	需要生成文字选 Flux 或 SD3.5
商用需求	确认模型许可协议（Flux Dev/Schnell、SD 1.5/SDXL 通常可商用）
生态资源	需要大量 LoRA 配套选 SD 1.5 或 SDXL，Flux 生态快速增长中

八、一句话总结

Checkpoint 是 ComfyUI 图像生成的"操作系统"——它决定了你能画出什么质量、什么风格的图，是所有其他模型和功能得以运行的基础平台。选对 Checkpoint，是成功出图的第一步。

常见模型

系列	侧重点	代表模型	现状	是否可商用	是否支持自然语言
SD 1.5	生态最成熟、入门门槛低、特定风格资源丰富	v1-5-pruned-emaonly（官方）、Realistic Vision、DreamShaper、MeinaMix、ChilloutMix	架构老旧但生态庞大，大量特定风格微调模型仍基于此，适合低显存和特定需求场景	✅ 可商用（官方协议允许）	❌ 不支持，需结构化提示词（括号权重、关键词堆砌）
SDXL	1024 原生分辨率、提示词理解大幅提升、写实与通用质量高	SDXL Base + Refiner（官方）、Juggernaut XL、Pony Diffusion V6 XL、DreamShaper XL、RealVisXL、SDXL Lightning/Turbo	2023–2024 年主流，生态丰富，现逐渐被 Flux 替代，但仍是性价比之选，大量工作流基于此	✅ 可商用	⚠️ 有限支持，比 1.5 强但仍需一定技巧
SD3 / SD3.5	全新 DiT 架构、文字生成能力极强、多分辨率灵活	SD3 Medium、SD3 Large、SD3.5 Large、SD3.5 Large Turbo	架构革新但社区生态建设较慢，LoRA 和微调资源少于 SDXL 和 Flux，部分版本商用受限	⚠️ 部分受限（需查看具体版本许可）	✅ 支持，理解能力显著提升
Flux.1	当前开源质量天花板、提示词理解极佳、文字渲染顶尖	Flux.1 [Dev]、Flux.1 [Schnell]、Flux.1 [Pro]（仅 API）、Flux.1 [Fill]（扩图/重绘）、Flux.1 [Canny/Depth]（ControlNet 版）	2024 下半年至今的社区主流，生态快速增长，大量基于 Flux 的微调模型和 LoRA 涌现，当前首选	✅ Dev/Schnell 可商用（Apache 2.0），Pro 仅 API	✅ 优秀支持，自然语言描述效果极佳
Kolors	中文理解优秀、国人审美优化、中文场景生成	Kolors（快手官方）	国产开源模型，中文提示词效果好，但国际社区资源相对少，主要在国内活跃	✅ 可商用	✅ 支持，中文自然语言效果突出
混元-DiT	中文场景优化、DiT 架构、多分辨率	HunyuanDiT（腾讯官方）	腾讯开源，中文理解好，但社区生态和微调资源不如 Flux 丰富	✅ 可商用	✅ 支持
Wan 2.1 / Wan 2.2	视频生成为主，兼顾图像、多模态理解	Wan 2.1（阿里官方）、Wan 2.2（阿里官方，待发布/已发布）	阿里开源的视频生成模型，Wan 2.1 已是当前开源视频生成 SOTA 之一，Wan 2.2 为下一代升级版本，图像生成能力同步提升，社区快速跟进中	✅ 可商用	✅ 支持，自然语言理解能力强
PixArt	高效轻量 DiT、快速推理、成本优化	PixArt-α、PixArt-Σ（华为诺亚）	主打高效和低成本，适合资源受限场景，社区资源一般，更多用于研究参考	✅ 可商用	✅ 支持
UltraPixel	超高分辨率生成、细节极致	UltraPixel（华为）	专攻高分辨率（4K+）图像生成，应用场景较窄，社区资源有限	需查看具体许可	⚠️ 有限支持
Playground v2.5 / v3	美学优化、色彩丰富、设计感强	Playground v2.5、Playground v3	由 Playground AI 发布，美学风格独特，社区资源一般，更多用于特定风格探索	需查看具体许可	✅ 支持
Ideogram 类模型	文字渲染、海报设计	部分社区移植版本	闭源产品 Ideogram 的开源替代尝试，效果不及官方，生态极弱	视具体移植版本	✅ 支持
Segmind Vega / SSD-1B	轻量高速、SDXL 蒸馏版	Segmind Vega、SSD-1B	针对速度和效率优化的蒸馏模型，质量略低于完整 SDXL，适合快速预览和低端设备	✅ 可商用	⚠️ 有限支持

补充说明

项目	说明
自然语言支持	指模型是否能理解流畅的句子描述（如"一个穿着红色连衣裙的女孩站在樱花树下"），而非必须依赖逗号分隔的关键词堆砌。Flux、SD3、Kolors、混元、Wan 系列在此方面表现优秀。
商用许可	大部分开源模型（SD 1.5、SDXL、Flux Dev/Schnell、Kolors、混元、Wan）采用宽松许可可商用；SD3 部分版本、Playground、UltraPixel 等需仔细查看具体许可协议。
Wan 2.2	截至 2026 年 6 月，Wan 2.2 为阿里万相大模型的最新迭代版本，在视频生成和图像理解/生成上进一步升级，具体发布时间需以官方公告为准，社区已有预热和适配准备。
当前首选推荐	Flux.1 Dev 为图像生成首选（质量+生态+商用）；Wan 2.1/2.2 为视频生成首选；显存有限选 SDXL 或 Flux Schnell。