ComfyUI e FLUX in locale: generare immagini gratis

Generare immagini con l'IA senza pagare crediti, senza limiti di censura sui contenuti leciti e senza inviare nulla a un server esterno: e' possibile installando ComfyUI, l'interfaccia a nodi piu' potente del settore, insieme a FLUX, la famiglia di modelli open-weight di Black Forest Labs che oggi e' tra le migliori per la qualita' delle immagini. Questa e' una guida avanzata: richiede pazienza, ma alla fine avrai uno studio di generazione immagini tutto tuo.

A chi serve e cosa otterrai

La guida e' per chi vuole il pieno controllo sulla generazione di immagini: creativi, sviluppatori, appassionati che preferiscono lavorare in locale. Al termine avrai ComfyUI funzionante con il modello FLUX.1, capace di trasformare una descrizione testuale in un'immagine ad alta qualita' sul tuo computer.

Prerequisiti reali:

GPU NVIDIA consigliata, con almeno 8 GB di VRAM (12 GB o piu' per lavorare comodi). FLUX gira anche su schede AMD (con ROCm su Linux) e su Mac con chip Apple Silicon, ma con prestazioni e configurazioni diverse. Senza GPU si puo' usare la CPU, ma i tempi diventano molto lunghi.
Circa 30-40 GB di spazio libero su disco per i modelli.
Python 3.10+ e Git installati. Su Windows esiste anche un pacchetto portatile che evita molti passaggi.

Perche' FLUX e quale variante scegliere

FLUX.1 esiste in piu' versioni. Per iniziare in locale le due piu' rilevanti sono:

FLUX.1-schnell: licenza Apache 2.0 (libera anche per usi commerciali), velocissima, genera buone immagini in appena 4 passi. E' la scelta consigliata per iniziare e per chi ha hardware modesto. Non richiede alcuna registrazione per il download.
FLUX.1-dev: qualita' superiore, ma richiede piu' passi (20-50), e' piu' pesante e ha una licenza per soli usi non commerciali. Il download e' "gated": serve un account Hugging Face e accettare le condizioni.

Partiamo da schnell, piu' semplice e senza vincoli. In alternativa, chi ha poca VRAM puo' usare le versioni quantizzate in formato GGUF, piu' leggere.

Con una GPU NVIDIA e 8-12 GB di VRAM, FLUX.1-schnell genera un'immagine in pochi secondi.

Passo 1: installare ComfyUI

Apri un terminale e clona il repository, poi crea un ambiente virtuale Python per non sporcare il sistema:

git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
python -m venv venv
# Linux/macOS:
source venv/bin/activate
# Windows:
venv\Scripts\activate

Ora installa PyTorch. Se hai una GPU NVIDIA, usa la versione con CUDA (qui per CUDA 12.4):

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt

Su Windows, in alternativa, scaricare il pacchetto "ComfyUI Portable" dalla pagina delle release del progetto evita di gestire Python e PyTorch a mano: si scompatta e si avvia con un doppio clic.

Passo 2: scaricare i file del modello e metterli al posto giusto

FLUX in ComfyUI usa tre componenti separati: il modello vero e proprio (UNet/diffusion), i due encoder di testo e il VAE (che trasforma i dati in immagine). Vanno scaricati e collocati in cartelle precise dentro ComfyUI/models:

Modello: flux1-schnell.safetensors da black-forest-labs/FLUX.1-schnell su Hugging Face, da mettere in models/diffusion_models/.
Encoder di testo: clip_l.safetensors e t5xxl_fp16.safetensors dal repository comfyanonymous/flux_text_encoders, da mettere in models/clip/. Se hai poca RAM/VRAM, usa t5xxl_fp8_e4m3fn.safetensors al posto della versione fp16.
VAE: il file ae.safetensors (sempre dal repo di FLUX.1-schnell), da mettere in models/vae/.

Puoi scaricarli dal browser oppure da terminale con lo strumento di Hugging Face:

pip install -U "huggingface_hub[cli]"
hf download black-forest-labs/FLUX.1-schnell flux1-schnell.safetensors --local-dir models/diffusion_models
hf download black-forest-labs/FLUX.1-schnell ae.safetensors --local-dir models/vae
hf download comfyanonymous/flux_text_encoders clip_l.safetensors --local-dir models/clip
hf download comfyanonymous/flux_text_encoders t5xxl_fp16.safetensors --local-dir models/clip

Passo 3: avviare ComfyUI e caricare il flusso FLUX

Avvia il programma:

python main.py

Apri il browser all'indirizzo http://127.0.0.1:8188. ComfyUI include flussi di lavoro (workflow) di esempio gia' pronti per FLUX: dal menu dei template scegli quello "Flux Schnell". In alternativa puoi trascinare nell'interfaccia un'immagine di esempio generata con FLUX, che porta con se' il workflow. Verifica nei nodi che siano selezionati i file giusti (il modello, i due CLIP e il VAE che hai scaricato).

Passo 4: il primo prompt

Nel nodo del testo positivo, scrivi una descrizione in inglese (FLUX rende al meglio in inglese). Per esempio:

A cozy Italian coffee bar at dawn, warm morning light through the window, espresso machine steaming, photorealistic, 50mm lens, shallow depth of field

Imposta i passi di campionamento su 4 (schnell e' ottimizzato per pochi passi), una risoluzione di 1024x1024 e premi "Queue Prompt" (o il pulsante di esecuzione). Dopo qualche secondo comparira' l'immagine, che potrai salvare. Risultato atteso: una fotografia realistica di un bar italiano all'alba, con luce calda e messa a fuoco selettiva.

Un secondo prompt per provare uno stile diverso:

Minimalist vector illustration of a robot reading a book, flat colors, soft shadows, editorial style, on a light beige background

Errori comuni e soluzioni

"CUDA out of memory": la VRAM non basta. Avvia con python main.py --lowvram (o --novram nei casi estremi), usa l'encoder t5xxl in fp8 e riduci la risoluzione a 768 o 512.
I nodi sono rossi o un modello "non trovato": il file non e' nella cartella corretta o ha un nome diverso. Controlla i percorsi in models/diffusion_models, models/clip e models/vae e ricarica la pagina.
Immagini grigie o rumorose: spesso e' il VAE sbagliato o mancante, oppure troppi pochi passi con il modello dev. Verifica di usare schnell con 4 passi, o aumenta i passi se usi dev.
Generazione lentissima: stai usando la CPU. Controlla che PyTorch con CUDA sia installato correttamente e che la GPU venga rilevata.

Varianti, alternative e quando non usare questo metodo

Una volta presa la mano, puoi esplorare molto: i nodi per l'image-to-image (partire da una foto esistente), i ControlNet per guidare la composizione, e l'addestramento di piccole LoRA per insegnare a FLUX uno stile o un soggetto specifico. Se ComfyUI ti sembra troppo complesso, alternative piu' guidate sono Stable Diffusion WebUI Forge e Automatic1111, mentre su Mac l'app Draw Things e' molto semplice. Quando invece il metodo locale non conviene: se non hai una GPU adeguata, se ti serve generare poche immagini ogni tanto, o se vuoi i modelli commerciali piu' recenti senza configurare nulla, i servizi online (dallo stesso sito di Black Forest Labs a strumenti come Midjourney) restano la scelta piu' pratica. Il fai-da-te in locale conviene a chi genera molto, vuole privacy totale o ama personalizzare ogni dettaglio del processo.