Mentre i generatori di immagini commerciali piu' noti restano chiusi e a pagamento, il filone open continua a colmare il divario. HiDream-O1-Image e' un modello generativo open con licenza permissiva MIT, capace di creare e modificare immagini fino a 2048 x 2048 pixel direttamente sul proprio computer, senza inviare nulla a un server esterno. La prima versione e' stata pubblicata l'8 maggio 2026, seguita da varianti distillate piu' veloci a meta' mese.
Cosa sa fare, oltre al testo-immagine
Il modello e' costruito su un'architettura che gli autori chiamano Pixel-level Unified Transformer: codifica nello stesso spazio i pixel grezzi, il testo e le condizioni specifiche del compito. In pratica questo gli permette di fare diverse cose con un unico modello:
- Generazione testo-immagine a partire da un prompt;
- Editing su istruzione, per modificare un'immagine esistente con un comando ("rimuovi gli auricolari", "cambia lo sfondo");
- Personalizzazione su soggetto, fornendo alcune foto di riferimento di una persona o di un oggetto;
- Resa di testo lungo e controllo del layout, un punto storicamente debole dei generatori.
Esiste in una versione Full da 8 miliardi di parametri (50 passi di inferenza, qualita' massima) e in una Dev piu' rapida (28 passi). Nelle classifiche comparative di settore il modello si colloca ai vertici tra le opzioni open per il testo-immagine.
Cosa serve per farlo girare
Il requisito principale e' una GPU NVIDIA con CUDA. Per la versione completa alla massima risoluzione conviene avere almeno 24 GB di VRAM; con schede piu' piccole si puo' lavorare a risoluzioni inferiori o usare la variante Dev. E' consigliata l'installazione di flash-attention per ottimizzare i calcoli. Su Mac e su PC senza GPU dedicata l'esecuzione e' molto piu' lenta o impraticabile per le risoluzioni alte.
Come scaricarlo e usarlo, passo per passo
Il modo piu' diretto e' clonare il repository ufficiale e installare le dipendenze:
git clone https://github.com/HiDream-ai/HiDream-O1-Image.git
cd HiDream-O1-Image
pip install -r requirements.txt
I pesi del modello si scaricano da Hugging Face. Con la utility ufficiale:
pip install -U huggingface_hub
huggingface-cli download HiDream-ai/HiDream-O1-Image --local-dir ./HiDream-O1-Image-weights
A questo punto puoi generare un'immagine da riga di comando indicando il prompt e le dimensioni:
python inference.py \
--model_path ./HiDream-O1-Image-weights \
--prompt "Un faro su una scogliera al tramonto, stile fotografia cinematografica, luce calda" \
--output_image results/faro.png \
--height 1024 --width 1024
Per modificare un'immagine esistente basta passare un'immagine di riferimento:
python inference.py \
--model_path ./HiDream-O1-Image-weights \
--prompt "rendi il cielo stellato" \
--ref_images assets/foto.jpg \
--output_image results/foto-edit.png \
--keep_original_aspect
Se preferisci un'interfaccia grafica nel browser, il repository include una piccola web app:
python app.py --model_path ./HiDream-O1-Image-weights --host 0.0.0.0 --port 7860
Poi apri http://localhost:7860 e lavori da li'. In alternativa, gli utenti di ComfyUI possono integrare il modello nel proprio flusso a nodi, l'ambiente piu' diffuso per la generazione locale di immagini.
Un prompt di prova e cosa aspettarsi
Prompt: "Ritratto fotorealistico di una donna anziana sorridente, illuminazione naturale da finestra, dettaglio sulla pelle e sugli occhi, profondita' di campo ridotta, 50mm"
Con la versione Full a 1024 pixel e 50 passi il risultato atteso e' un ritratto nitido e coerente, con sfondo sfocato e illuminazione morbida. Aumentando la risoluzione a 2048 si ottiene piu' dettaglio a costo di tempi e memoria maggiori. Per la resa del testo dentro l'immagine (ad esempio l'insegna di un negozio), HiDream-O1-Image e' tra i modelli open piu' affidabili, ma conviene comunque tenere le scritte brevi.
Consigli per risultati migliori
Qualche accorgimento pratico fa la differenza. Per il fotorealismo, descrivi l'illuminazione e l'obiettivo ("luce naturale da finestra", "50mm", "profondita' di campo ridotta") piu' che accumulare aggettivi generici. Per le scene complesse, conviene la versione Full a piu' passi; per provare velocemente molte varianti, la Dev a 28 passi e' piu' che sufficiente. Se la VRAM e' poca, riduci la risoluzione a 768 o 1024 pixel e poi usa un passaggio di upscaling separato: spesso il risultato e' migliore che generare direttamente a 2048. Fissare un --seed ti permette di riprodurre e ritoccare un'immagine che ti e' piaciuta, cambiando solo un dettaglio del prompt.
Per chi gia' lavora con ComfyUI, l'integrazione nel flusso a nodi consente di combinare HiDream-O1-Image con upscaler, ControlNet e LoRA, ottenendo pipeline molto piu' flessibili rispetto alla riga di comando.
Quando conviene (e quando no)
La forza di un modello open con licenza MIT e' la liberta': nessun costo per immagine, nessun limite di utilizzo imposto da un servizio, dati che non lasciano il computer — un punto importante per chi lavora con materiali riservati. Lo svantaggio e' che serve hardware adeguato e un minimo di dimestichezza con la riga di comando. Se non hai una GPU potente o ti serve solo qualche immagine ogni tanto, un servizio online resta piu' comodo; se invece generi immagini in quantita', vuoi controllo totale e privacy, l'opzione locale ripaga in fretta. Tutte le istruzioni e gli esempi sono nella scheda ufficiale su Hugging Face.




