DiffusionGemma: il modello Google a diffusione, come usarlo

Google DeepMind ha pubblicato il 10 giugno 2026 DiffusionGemma, un modello linguistico open source che genera testo in modo radicalmente diverso da ChatGPT, Claude o dagli altri Gemma: invece di produrre le parole una dopo l'altra, parte da un «rumore» di simboli e lo raffina a blocchi, in parallelo. Il risultato e' una velocita' fino a quattro volte superiore, oltre 1.000 token al secondo su una singola scheda Nvidia H100. Il modello e' rilasciato con licenza Apache 2.0, quindi liberamente utilizzabile anche a fini commerciali.

Cos'e' un modello a diffusione testuale (spiegato semplice)

I modelli linguistici tradizionali sono «autoregressivi»: predicono un token alla volta, ognuno basato su quelli precedenti, come chi scrive una frase parola per parola. DiffusionGemma applica invece l'idea della diffusione, la stessa tecnica che muove i generatori di immagini come Stable Diffusion. Parte da una tela di token casuali e, attraverso piu' passaggi, li «ripulisce» finche' non emerge un testo coerente, lavorando su blocchi di 256 token in parallelo anziche' in fila.

Il vantaggio e' la velocita': generare in parallelo significa sfruttare meglio la GPU e ridurre i tempi di attesa. Lo svantaggio, ammesso dalla stessa Google, e' che la qualita' complessiva dell'output resta inferiore a quella del Gemma 4 standard. DiffusionGemma non e' quindi pensato per sostituire i grandi modelli su compiti delicati, ma per scenari in cui contano reattivita' e throughput: completamento di codice, riscritture rapide, classificazione, generazione di bozze.

La diffusione testuale genera i token a blocchi, in parallelo, invece che uno alla volta.

I numeri: 26 miliardi di parametri, ma solo 3,8 attivi

DiffusionGemma e' un modello Mixture of Experts (MoE): ha 26 miliardi di parametri totali ma ne attiva soltanto 3,8 miliardi a ogni inferenza, indirizzando ogni richiesta verso gli «esperti» piu' adatti. Questa architettura lo rende sorprendentemente leggero da eseguire: quantizzato, sta comodamente entro i 18 GB di VRAM di una scheda consumer di fascia alta, come una RTX 4090 o 5090. E' un punto importante per chi vuole far girare l'IA in locale senza affittare server costosi.

Come provarlo e scaricarlo passo passo

I pesi sono disponibili su Hugging Face con il nome google/diffusiongemma-26B-A4B-it e si possono eseguire con i principali motori di inferenza: vLLM, Hugging Face Transformers, SGLang e MLX (per i Mac Apple Silicon). Il modo piu' rapido per provarlo su una macchina con GPU adeguata e' tramite vLLM.

Installazione e avvio del server locale (compatibile con le API in stile OpenAI):

pip install vllm

# avvia il modello come server locale
vllm serve google/diffusiongemma-26B-A4B-it

Una volta avviato, puoi interrogarlo come faresti con un endpoint OpenAI, per esempio con curl:

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/diffusiongemma-26B-A4B-it",
    "prompt": "Scrivi tre titoli per un articolo sull energia solare:",
    "max_tokens": 200
  }'

In alternativa, chi non ha una GPU potente puo' provarlo senza installare nulla: il modello e' distribuibile su Hugging Face, su Google Cloud tramite Model Garden e come microservizio NVIDIA NIM. Per un primo assaggio gratuito conviene partire dalla pagina del modello su Hugging Face, dove spesso e' attiva una demo interattiva.

Quantizzato, DiffusionGemma gira entro 18 GB di VRAM: adatto anche a schede consumer di fascia alta.

Un esempio d'uso e cosa aspettarsi

Provando un prompt come «Riscrivi questo paragrafo in tono formale: [testo]», DiffusionGemma restituisce la risposta quasi istantaneamente, percepibilmente piu' veloce di un modello autoregressivo di pari dimensioni. Su compiti semplici la qualita' e' piu' che adeguata; su ragionamenti complessi, calcoli a piu' passaggi o testi lunghi e strutturati conviene invece affidarsi a Gemma 4 o ai modelli di frontiera. La regola pratica e': usa DiffusionGemma quando la priorita' e' la rapidita' e il volume, non la precisione assoluta.

Come si colloca rispetto agli altri modelli aperti

Il 2026 e' stato un anno di abbondanza per i modelli open: dai cinesi GLM, Qwen e DeepSeek agli americani Nemotron di Nvidia, le alternative gratuite e auto-ospitabili si sono moltiplicate. DiffusionGemma occupa pero' una nicchia diversa. Non compete sul filo dei benchmark di ragionamento, dove altri vincono, ma porta sul tavolo un'idea architetturale nuova per il testo. In un panorama in cui quasi tutti i modelli condividono lo stesso impianto autoregressivo, sperimentare una via alternativa ha un valore che va oltre la singola release: se la diffusione testuale dovesse dimostrarsi competitiva anche sulla qualita', e non solo sulla velocita', potrebbe aprire una seconda famiglia di modelli accanto a quella dominante. Per ora il messaggio di Google e' chiaro: provatelo dove serve velocita', studiatelo se vi interessa il futuro dell'architettura dei modelli.

Perche' questa uscita e' interessante

Al di la' del singolo modello, DiffusionGemma e' la prova che la diffusione — finora dominio delle immagini — sta diventando una strada concreta anche per il testo. Se la tecnica maturera', potrebbe abbassare in modo significativo i costi e i tempi dell'inferenza, il collo di bottiglia economico dell'IA di cui si parla in questi mesi. Per ora e' uno strumento da laboratorio e da sviluppatori curiosi, ma il fatto che Google lo rilasci in modo aperto, con licenza permissiva, lo rende un terreno di sperimentazione prezioso per chi costruisce applicazioni. I dettagli tecnici provengono dal blog ufficiale di Google e dalla scheda del modello su Hugging Face.