ComfyUI è oggi l'ambiente di riferimento per generare immagini con i modelli diffusion in locale: gratuito, modulare, supporta praticamente tutte le architetture (Stable Diffusion 1.5/2.x, SDXL, SD3, FLUX.1, AuraFlow), si manovra con un grafo a nodi che ricorda Blender ed è mantenuto dal team Comfy-Org. Questa guida porta da zero a un primo flusso text-to-image funzionante, su Windows, Mac (Apple Silicon) e Linux. Tutto resta sul vostro computer: nessun dato esce, nessun limite sul numero di immagini.
A chi serve, cosa otterrai
Questa guida è per chi vuole generare immagini AI senza pagare crediti su Midjourney o DALL-E, per chi ha bisogno di privacy assoluta (clienti, NDA), per i creator che vogliono train di LoRA personali e per chi automatizza pipeline di immagine con script. Alla fine saprai: installare ComfyUI in modalità portable o sorgente, scaricare e organizzare i modelli (checkpoint, VAE, LoRA, embeddings), caricare un workflow base, generare la prima immagine e fare upscaling, gestire l'errore più comune (OutOfMemory).
Prerequisiti hardware veri
- GPU NVIDIA: la scelta migliore. Minimo pratico 6 GB di VRAM (Stable Diffusion 1.5 con qualche compromesso). Per SDXL servono 8 GB; per FLUX in qualità decente, 12 GB. Una RTX 4070 12 GB o una RTX 3060 12 GB sono i punti dolci. Driver CUDA aggiornati.
- Mac Apple Silicon (M2 o superiore): supportato via MPS, comodo per esperimenti, ma da 3 a 5 volte più lento rispetto a una NVIDIA equivalente. Memoria unificata 16 GB minimo, 24-32 GB per FLUX.
- AMD su Windows: funziona con DirectML o ZLUDA, ma con prestazioni inferiori; meglio Linux con ROCm.
- CPU only: tecnicamente possibile, in pratica non utilizzabile (minuti per immagine).
- Disco: prevedere 30-100 GB liberi. Un singolo checkpoint FLUX FP16 occupa ~23 GB, SDXL ~6,5 GB.
Quale strumento scegliere e perché ComfyUI
Sono ancora in giro tre alternative principali. AUTOMATIC1111 / Forge: interfaccia tradizionale a moduli, comoda per principianti ma meno flessibile sui workflow complessi; lo sviluppo di A1111 è ormai lento, Forge ne è il fork attivo. Fooocus: semplicità estrema, fa quello che vuoi senza pensare al grafo, ma è meno potente. ComfyUI: curva di apprendimento iniziale più ripida (il grafo intimorisce), ma una volta capito permette di sperimentare con qualsiasi modello, integrare ControlNet, LoRA, IP-Adapter, video diffusion e — fondamentale nel 2026 — i nuovi modelli FLUX/AuraFlow. Per chi vuole capire come funzionano davvero le diffusion model, ComfyUI è la scelta migliore.
Installazione su Windows (portable, consigliata)
- Aprire la pagina dei rilasci ufficiali e scaricare l'ultimo archivio
ComfyUI_windows_portable_nvidia.7z. Pesa circa 1,5 GB. - Estrarre con 7-Zip in una cartella priva di spazi e accenti, per esempio
C:\ComfyUI. - Dentro la cartella estratta lanciare
run_nvidia_gpu.bat(orun_cpu.batin fallback). Si apre una finestra terminale e, in pochi secondi, viene avviato un server locale suhttp://127.0.0.1:8188. - Aprire il browser sull'URL. Comparirà il grafo di default: un workflow text-to-image SD 1.5 minimale.
Aggiornare ComfyUI
Nella cartella update c'è uno script update_comfyui.bat: rilanciatelo settimanalmente. Il progetto evolve velocemente.
Installazione su macOS (Apple Silicon)
- Installare Homebrew se non presente, poi:
brew install git python@3.12. - Clonare il repository:
git clone https://github.com/comfyanonymous/ComfyUI.git cd ComfyUI - Creare un ambiente virtuale e installare le dipendenze:
python3.12 -m venv venv source venv/bin/activate pip install -r requirements.txt - Lanciare:
python main.py --force-fp16. Aprirehttp://127.0.0.1:8188.
Installazione su Linux
Stesso flusso di macOS, ma con PyTorch CUDA: pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124. Per AMD ROCm, sostituire con l'index cu124 con rocm6.1.
Scaricare il primo modello (checkpoint)
I modelli vanno in ComfyUI/models/checkpoints/. Tre opzioni consigliate per cominciare:
- SD 1.5 (Realistic Vision V6.0): leggero, perfetto se hai 6-8 GB di VRAM. Scarica da Hugging Face.
- SDXL Base 1.0 + Refiner: qualità nettamente superiore, richiede 8-12 GB. Disponibile su huggingface.co/stabilityai/stable-diffusion-xl-base-1.0.
- FLUX.1 [dev]: il modello più capace ad oggi per il fotorealismo e il testo dentro le immagini. Pesa ~23 GB in FP16, esiste una variante GGUF Q8 da 12 GB perfetta per le 12 GB di VRAM. Repository: black-forest-labs/FLUX.1-dev.
Per scaricare via terminale (richiede huggingface-cli login con token gratuito):
pip install -U huggingface_hub
huggingface-cli download stabilityai/stable-diffusion-xl-base-1.0 \
sd_xl_base_1.0.safetensors \
--local-dir ./ComfyUI/models/checkpointsPrimo workflow text-to-image
Nel grafo di default, fai click destro nel nodo "Load Checkpoint" e scegli il modello appena scaricato. Nel nodo "CLIP Text Encode (Positive)" inserisci il prompt; nel "Negative" quello che NON vuoi (es. blurry, low quality, deformed hands). Imposta Sampler: euler, Steps: 30, CFG: 7.0, Width: 1024, Height: 1024. Clicca Queue Prompt. La prima generazione carica i pesi (10-30 secondi); le successive arrivano in 3-8 secondi su una RTX 4070.
Prompt di test: portrait of an italian baker holding fresh ciabatta, warm morning light, depth of field, kodak portra 400, 35mm lens
Risultato atteso: un ritratto fotografico realistico in tonalità calde, sfondo sfocato. Per FLUX, omettere il prompt negativo (FLUX non lo usa).
Aggiungere un LoRA
I LoRA sono "add-on" che spostano lo stile del modello base. Vanno in ComfyUI/models/loras/. Nel grafo si aggiunge il nodo "Load LoRA" fra il checkpoint e il CLIP. Si imposta il peso (0.5-1.0). Su CivitAI ci sono migliaia di LoRA gratuiti per stile, soggetto, posa.
ComfyUI Manager: il pannello che ti salva la vita
Installa il Manager ufficiale:
cd ComfyUI/custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager.gitRiavvia ComfyUI. Apparirà un bottone "Manager" che permette di installare/aggiornare nodi custom (ControlNet, IPAdapter, Impact Pack, Animatediff) senza riga di comando. È praticamente obbligatorio.Esempi di workflow pronti
- SDXL base + refiner: nel menu "Load" caricare il file JSON comfyanonymous.github.io/ComfyUI_examples/sdxl.
- FLUX text-to-image: workflow dedicato disponibile su comfyanonymous.github.io/ComfyUI_examples/flux.
- Upscale 2x: aggiungere un nodo "UltimateSDUpscale" o usare un modello upscaler (RealESRGAN_x4plus.pth in
models/upscale_models/).
Errori comuni e soluzioni
- CUDA out of memory: passare a un modello più piccolo, ridurre la risoluzione a 768×768, o usare
--lowvramin avvio (Windows: modificare il.bat). - NaN tensors / Black image: con SDXL su GPU NVIDIA Pascal/Turing, lanciare con
--force-fp16o usare il VAE "sdxl_vae.safetensors" inmodels/vae/. - Apple Silicon "MPS backend out of memory": aggiungere
--force-fp16 --use-pytorch-cross-attention. - FLUX non si avvia, errore "unknown_arch": ComfyUI è troppo vecchio; aggiornare.
- Generazione lentissima su Windows AMD: il supporto DirectML è inefficiente; valutare ZLUDA o passare a Linux+ROCm.
Varianti e usi avanzati
Una volta padroneggiato il flusso base si aprono molte strade. Img2Img: aggiungere un nodo "Load Image" e "VAE Encode" prima del KSampler — utile per riprese reali da reinterpretare. Inpainting: dipingere maschera su un'immagine, far rifare solo quella parte. ControlNet: pilotare la generazione con bozze, mappe di profondità, pose. API headless: ComfyUI espone WebSocket e REST su localhost:8188: dal terminale puoi inviare prompt e ricevere immagini in script (utile per generare 100 varianti di una grafica).
Quando non usare l'approccio locale
Per uso saltuario e senza GPU dedicata, conviene un servizio cloud (Replicate, RunPod, Hugging Face Inference). ComfyUI ha senso quando: lo usi tutti i giorni, vuoi training di LoRA, hai dati riservati, sperimenti workflow complessi. Sotto la soglia delle 200 immagini al mese, gli abbonamenti Midjourney o DALL-E sono economici e senza grattacapi tecnici.
Come proseguire
Tre risorse per crescere: il canale YouTube di Olivio Sarikas (workflow ComfyUI commentati in inglese), la documentazione ufficiale docs.comfy.org, e la community CivitAI per scaricare LoRA e workflow JSON pronti. Per l'addestramento di un LoRA personalizzato su 10-30 foto vostre, il tool standard è Kohya_SS — pubblicheremo presto un tutorial dedicato.




