HiDream-O1-Image, il text-to-image open-weight da 8B

Otto maggio 2026: l'azienda cinese HiDream AI ha rilasciato sotto licenza open-weight (modificata Apache 2.0, uso commerciale consentito) HiDream-O1-Image, un modello text-to-image da 8 miliardi di parametri. Il 10 maggio è arrivato su Hugging Face Spaces per provarlo via browser e nella stessa giornata è stato pubblicato il technical report sulla pagina della community.

La notizia, nel mondo open, è di quelle grosse: HiDream-O1-Image-Dev-2604 è entrato all'ottavo posto del Text-to-Image Arena di Artificial Analysis, davanti a tutti i modelli open-weight esistenti e poco dietro a quelli proprietari come Imagen 4, Midjourney v8 e Adobe Firefly Ultra 3. Per orientarsi nella geografia dei concorrenti: Black Forest Labs (FLUX), Stability AI (Stable Diffusion 3.5), Alibaba (Qwen-Image) e Tencent (Hunyuan-Image) restano dietro.

Cosa contiene tecnicamente

HiDream ha rilasciato due varianti del modello:

HiDream-O1-Image-Full: la versione completa, non distillata. Richiede tra 17 e 22 GB di VRAM per girare in fp16 e produce immagini fino a 2.048 pixel di lato lungo. Le immagini sono di altissima qualità ma è lento: circa 22 secondi per immagine su una RTX 4090.
HiDream-O1-Image-Dev-2604: la versione distillata, ottenuta tramite consistency distillation in 4 step. Richiede 9-12 GB di VRAM, gira anche su una RTX 4070 o 4080, ed è circa 4 volte più veloce: 5-6 secondi per immagine. La qualità è marginalmente inferiore ma supera comunque FLUX-dev su quasi tutti i benchmark.

Accanto al modello l'azienda ha rilasciato anche un Reasoning-Driven Prompt Agent, un piccolo modello di accompagnamento che riscrive automaticamente il prompt dell'utente per massimizzare la fedeltà al testo originale. È una novità importante: chi ha usato Stable Diffusion sa quanto sia frustrante quando il modello "ignora" pezzi del prompt; il prompt agent risolve in buona parte il problema riformulando le istruzioni in modo strutturato.

Come installarlo con Hugging Face e ComfyUI

Per chi ha una GPU NVIDIA con almeno 12 GB di VRAM la strada più veloce è scaricare il modello da Hugging Face e caricarlo in ComfyUI. Prima però bisogna avere ComfyUI aggiornato all'ultima versione (gennaio 2026 o successiva).

# 1. Scarica HiDream-O1-Image-Dev (distillato, 12 GB)pip install -U huggingface_hubhuggingface-cli download HiDream-ai/HiDream-O1-Image \    --include "hidream-o1-image-dev-2604.safetensors" \    --local-dir ./models/checkpoints/# 2. Scarica il text encoder dedicato e il VAEhuggingface-cli download HiDream-ai/HiDream-O1-Image \    --include "text_encoder/*" "vae/*" \    --local-dir ./models/# 3. Avvia ComfyUIpython main.py --listen 0.0.0.0 --port 8188

Dentro ComfyUI il workflow è semplice: nodo Load Checkpoint con il file scaricato, CLIP Text Encode (Prompt) con la propria descrizione, KSampler impostato su 4 steps e cfg 1.0 (la versione distillata è in modalità single-step quasi pura), VAE Decode e Save Image. Il primo render parte in 6-8 secondi.

HiDream-O1-Image-Dev gira in 6 secondi su una RTX 4080 con 12 GB di VRAM.

Un prompt di prova

Per testare la qualità si può provare un prompt che storicamente mette in difficoltà i modelli open: rendering tipografico + soggetto realistico + composizione complessa.

Una giovane barista italiana in un bar di Napoli, sorriso aperto, sta servendo un caffè espresso a un cliente seduto al bancone. Sul muro alle sue spalle un'insegna in neon rosa con la scritta corsiva "BUONGIORNO", chiaramente leggibile. Luce naturale dal mattino che entra dalla porta a sinistra, atmosfera realistica, ritratto fotografico, 50mm.

Stable Diffusion 3.5 e FLUX-dev hanno entrambi problemi sulla scritta del neon (lettere malformate, parole inventate); HiDream-O1-Image-Dev rende "BUONGIORNO" leggibile al primo colpo nell'80% dei tentativi. La pelle e l'atmosfera fotografica sono molto vicine ai modelli proprietari.

Quando preferirlo, e quando no

HiDream-O1-Image è oggi la migliore scelta open per chi lavora a immagini fotorealistiche, prompt complessi e progetti commerciali con vincoli di proprietà del modello (perché tutto resta in casa). Resta indietro su tre aree: generazione di volti riconoscibili e celebrità (filtrate dal training, per scelta), illustrazioni in stile cartoon o anime (FLUX e Stable Diffusion sono migliori su quel terreno) e generazione di immagini estremamente lunghe oltre i 2.048 pixel di lato lungo, dove serve un upscaler dedicato come Topaz.

Per chi non ha una GPU adeguata ci sono due alternative immediate: lo Spazio dedicato su Hugging Face Spaces, gratuito con coda, o l'API ospitata di HiDream AI in versione beta (con free trial di 100 immagini).

Cosa aspettarsi adesso

Il rilascio di HiDream-O1-Image arriva pochi giorni dopo il lancio di Gemini Omni (in leak) da parte di Google e dell'annuncio di Imagen 4 Ultra di Adobe. La pressione sulla generazione di immagini open è altissima: Black Forest Labs sta finalizzando FLUX Pro 2, Stability AI ha annunciato per giugno Stable Diffusion 4.0. Per ora, però, l'asticella è alzata da Pechino. E come spesso accade nel mondo open, il vantaggio di un team "piccolo" (HiDream AI ha circa 40 ricercatori) è la velocità di iterazione. Aspettiamoci una versione 1.5 entro fine giugno.