DiffusionGemma di Google: cos'e' e come usarlo

Quasi tutti i modelli linguistici che usiamo oggi - da GPT ai Gemini ai Llama - generano testo nello stesso modo: una parola (anzi, un token) dopo l'altra, da sinistra a destra. DiffusionGemma, pubblicato da Google su Hugging Face all'inizio di giugno 2026, fa qualcosa di diverso: genera il testo per diffusione, partendo da una sequenza "rumorosa" e raffinandola progressivamente in parallelo, con un meccanismo simile a quello dei generatori di immagini come Stable Diffusion. E' uno dei primi modelli a diffusione testuale di questa scala distribuiti da un grande laboratorio con licenza aperta.

Il modello si chiama google/diffusiongemma-26B-A4B-it, e' rilasciato con licenza Apache 2.0 (quindi utilizzabile anche commercialmente) ed e' gia' stato scaricato oltre un milione di volte. Accetta in ingresso testo e immagini e produce testo in uscita: e' quindi multimodale in input.

Cosa rende speciale un modello "a diffusione"

La sigla 26B-A4B indica un modello con circa 26 miliardi di parametri totali ma solo circa 4 miliardi "attivi" per ogni passaggio, grazie a un'architettura a esperti (mixture-of-experts): in pratica e' grande in capacita' ma relativamente leggero da eseguire. La generazione per diffusione promette due vantaggi concreti rispetto all'approccio autoregressivo: la possibilita' di produrre piu' parti del testo in parallelo (potenzialmente piu' veloce) e una particolare attitudine ai compiti di riempimento e correzione, dove il modello deve completare o sistemare un testo gia' esistente. Non a caso le demo ufficiali pubblicate da Google riguardano la generazione di codice, la correzione di errori OCR e perfino la generazione di strutture 3D.

I pesi quantizzati in formato GGUF permettono di eseguire il modello in locale.

Come provarlo subito, senza installare nulla

Il modo piu' rapido per toccarlo con mano e' usare una delle demo gratuite (Spaces) su Hugging Face. Basta aprire dal browser uno degli Spaces ufficiali - per esempio quello di generazione codice o la demo multimodale - scrivere un prompt e vedere il risultato, senza alcuna configurazione. E' la scelta consigliata per una prima valutazione.

Come scaricarlo ed eseguirlo in locale

Se volete eseguirlo sul vostro computer, ci sono due strade. La prima, per chi usa Python e ha una GPU adeguata, e' tramite la libreria transformers di Hugging Face:

pip install -U transformers accelerate huggingface_hub
# scaricare i pesi ufficiali
huggingface-cli download google/diffusiongemma-26B-A4B-it

Il modello va poi caricato seguendo le istruzioni della scheda ufficiale (usa la classe multimodale di transformers e una procedura di generazione a passi di diffusione). Trattandosi di un modello da 26 miliardi di parametri, nella versione a precisione piena richiede una GPU di fascia alta con molta memoria.

La seconda strada, piu' accessibile, sfrutta i pesi quantizzati in formato GGUF pubblicati dalla community (per esempio da Unsloth). La quantizzazione riduce drasticamente la memoria richiesta: una versione a 4 bit puo' girare su una scheda con circa 16 GB di VRAM (come una RTX 4090/3090) o su un Mac con almeno 32 GB di memoria unificata. Per scaricarli:

huggingface-cli download unsloth/diffusiongemma-26B-A4B-it-GGUF   --include "*Q4_K_M*" --local-dir ./diffusiongemma

Attenzione a un punto importante: i modelli a diffusione hanno bisogno di un motore di esecuzione che li supporti. I runtime piu' diffusi come Ollama, pensati per i modelli autoregressivi, potrebbero non eseguire ancora l'architettura diffusion_gemma: verificate sempre le note di compatibilita' del file GGUF e usate, se indicato, il runtime suggerito dall'autore del repository (esistono gia' server basati su llama.cpp adattati a questi modelli).

Un prompt di prova e cosa aspettarsi

Il punto di forza di DiffusionGemma e' la generazione e correzione di codice. Un esempio di prompt da usare nella demo o in locale:

"Scrivi una funzione Python che riceve una lista di numeri e restituisce media, mediana e deviazione standard, con i type hint e una docstring. Aggiungi tre test con assert."

Il risultato atteso e' una funzione completa, commentata e corredata di test, generata in pochi secondi. Per provare la correzione OCR, potete incollare un testo con errori tipici da scansione (lettere scambiate, spazi mancanti) e chiedere di ripulirlo: il modello e' particolarmente bravo a ricostruire la versione corretta.

Per chi e' utile

DiffusionGemma e' soprattutto un oggetto interessante per sviluppatori, ricercatori e curiosi che vogliono sperimentare un paradigma di generazione diverso da quello dominante, restando nell'ecosistema aperto e gratuito di Gemma. Per l'uso quotidiano generalista i grandi modelli conversazionali restano piu' comodi, ma per compiti specifici come la correzione di testo, il completamento di codice o la sperimentazione sull'inferenza parallela, questo modello apre una strada nuova - ed essendo Apache 2.0, lo fa senza vincoli di licenza. Il consiglio: iniziate dalla demo gratuita su Hugging Face e, se vi convince, passate ai pesi GGUF per eseguirlo in casa.