HiDream, il laboratorio cinese che lo scorso anno aveva sorpreso la community con HiDream-I1, l'8 maggio ha pubblicato su Hugging Face HiDream-O1-Image: un modello text-to-image open con licenza MIT, 8 miliardi di parametri, capace di entrare al numero 8 dell'Artificial Analysis Text to Image Arena il giorno stesso del lancio - il miglior risultato di sempre per un modello a pesi aperti, davanti a Flux.2 di Black Forest Labs.

La cosa interessante non e' la classifica in se', ma il modo in cui il modello e' costruito: HiDream taglia con la diffusione classica nel cosiddetto spazio latente (VAE + text encoder + UNet) e mette tutto dentro un unico transformer che lavora direttamente sui pixel. La differenza si vede soprattutto nel rendering del testo dentro le immagini, una cosa che i modelli classici ancora sbagliano spesso.

Cos'e' il Pixel-level Unified Transformer

L'architettura, che HiDream chiama UiT (Pixel-level Unified Transformer), unisce tre cose in un unico spazio condiviso di token:

  • I pixel grezzi dell'immagine, suddivisi in patch piccole (16x16).
  • Il testo del prompt, tokenizzato.
  • Condizioni task-specifiche (negazioni, vincoli stilistici, coordinate per inpainting).

Il modello applica attenzione direttamente su questo spazio condiviso. Niente VAE che comprime e decomprime, niente text encoder esterno con il suo bias. Il prezzo, ovviamente, e' computazionale: lavorare in pixel grezzi e' piu' costoso. La compensazione e' un agente di riformulazione del prompt che progetta layout, attributi dei soggetti e logica fisica prima di lanciare la generazione - di fatto un piccolo modello di reasoning incorporato, simile a quello che fanno i modelli di tipo o1 per il testo.

Due varianti: Full e Dev

HiDream rilascia due checkpoint:

  • HiDream-O1-Image (full): 50 passi di inferenza, CFG 5.0, qualita' massima.
  • HiDream-O1-Image-Dev: distillato, 28 passi, CFG 0.0, leggermente meno fedele ma 4-5 volte piu' veloce su una stessa GPU.

Entrambi sono pubblicati con licenza MIT, quindi pienamente liberi anche per uso commerciale, modifica e distribuzione di derivati. Esiste gia' un porting FP8 della community per girare con 24 GB di VRAM su una RTX 4090, e wrapper per ComfyUI sono apparsi su GitHub in pochi giorni.

Il modello lavora direttamente in pixel-space e gestisce meglio testo, riflessi e dettagli minuti.

Come scaricarlo e provarlo

Provarlo gratis

Il modo piu' veloce e' la demo ufficiale di HiDream O1 Image su Hugging Face Spaces: ci sono un paio di code di attesa ma in compenso non serve installare niente.

Installarlo in locale (richiede una GPU)

Per chi ha una scheda con almeno 24 GB di VRAM (RTX 3090, 4090, A5000) i passaggi sono i seguenti.

1) Installare la libreria di base e clonare il repository:

pip install torch torchvision transformers accelerate safetensors
git clone https://github.com/HiDream-ai/HiDream-O1-Image
cd HiDream-O1-Image

2) Scaricare i pesi (servono circa 16 GB di spazio per la variante full):

huggingface-cli login
huggingface-cli download HiDream-ai/HiDream-O1-Image --local-dir ./weights

3) Lanciare una generazione di prova:

python inference.py \
  --prompt "Un libro antico aperto su una scrivania, con il titolo ‘AI Notizie’ stampato in oro sulla copertina, luce calda da una finestra, stile fotografico" \
  --steps 50 --cfg 5.0 --seed 42 --output ./out.png

Per ComfyUI, esistono gia' nodi pronti come ComfyUI-HiDreamSampler: dopo averli installati via Manager, basta caricare uno dei workflow di esempio dal repo.

Quanto consuma

Su una RTX 4090, il modello full genera un'immagine 1024x1024 in circa 18-22 secondi con i 50 step di default. La variante Dev distillata scende sotto i 5 secondi. Per chi non ha una scheda dedicata, ci sono provider come fal.ai e Replicate che lo offrono come API a circa 0,02-0,04 dollari a immagine.

Cosa fa bene e cosa no

Punti forti, evidenti gia' nelle prime prove della community:

  • Testo nelle immagini: scritte ben formate anche su loghi, libri, insegne. Era il vero punto debole di SDXL e Flux.
  • Mani e dettagli anatomici: meno errori rispetto a SD 3.5 e ai modelli a transformer classico.
  • Aderenza al prompt: l'agente di reasoning interno gestisce bene composizioni complesse con tre o piu' soggetti.

Punti deboli:

  • Tempi di inferenza piu' lunghi rispetto ai modelli «classici».
  • Il modello e' fortemente orientato a foto realistico-cinematografico; per stili illustrativi puri (anime, vector art) servono LoRA dedicate, alcune gia' apparse sulla community Hugging Face.
  • Manca il watermarking C2PA nativo - cosa che, alla luce delle linee guida UE pubblicate l'8 maggio, sara' un punto da affrontare per i deployer professionali.

Perche' conta

HiDream-O1-Image arriva in un mercato che si era assestato intorno a tre nomi: Stable Diffusion (e i suoi derivati), Flux di Black Forest Labs, e poco altro sul lato open. Con un modello a pesi liberi che sta sopra Flux nell'arena indipendente, HiDream costringe i produttori commerciali (Midjourney, DALL·E, Imagen, Recraft) a rivedere la qualita' offerta a parita' di abbonamento e contribuisce a tenere viva la pressione open. Il prossimo passo che la community sta aspettando, secondo WaveSpeed, e' una versione video basata sulla stessa architettura UiT.

Per chi crea contenuti professionalmente, la mossa giusta nel breve e' molto semplice: provare HiDream sui propri prompt tipici e confrontarlo con quello che gia' si usa. Per la maggior parte dei casi text-to-image «general», la qualita' giustifica un cambio del workflow.