Google ha rilasciato il 10 giugno 2026 DiffusionGemma, il primo modello a pesi aperti della sua famiglia Gemma a generare testo con la tecnica della diffusione invece del classico metodo «parola dopo parola». Distribuito con licenza Apache 2.0 su Hugging Face, Kaggle e Vertex AI, promette una generazione fino a quattro volte più veloce a parità di qualità. È un modello che puoi scaricare ed eseguire da solo, gratis, sul tuo hardware: vediamo cos'è e come provarlo.
Cosa significa «generare testo per diffusione»
I modelli linguistici tradizionali sono autoregressivi: producono un token alla volta, ognuno condizionato dai precedenti. È come scrivere una frase parola dopo parola senza poter tornare indietro. DiffusionGemma adotta invece la diffusione discreta, l'idea che ha rivoluzionato la generazione di immagini: parte da una «tela» di testo rumorosa — nel caso base 256 token — e la ripulisce progressivamente, in parallelo, fino a far emergere il testo finale. Poiché i token vengono raffinati tutti insieme a ogni passo, anziché uno per volta, la generazione può essere molto più rapida.
Il modello si chiama tecnicamente google/diffusiongemma-26B-A4B-it: è costruito sull'architettura mixture-of-experts (MoE) di Gemma 4 con 26 miliardi di parametri totali ma solo circa 4 miliardi attivi per token (la sigla A4B), il che lo rende più leggero da eseguire di quanto suggerisca il numero complessivo.
Di quale hardware hai bisogno
Qui sta il punto pratico. I pesi a 26 miliardi di parametri in precisione BF16 occupano circa 52 GB di VRAM: troppi per una singola GPU consumer. Ci sono però vie d'uscita concrete:
- Quantizzazione INT8: scende a circa 28 GB, sufficienti per una GPU professionale come una L40S da 48 GB.
- Build quantizzate dalla comunità: esistono già versioni GGUF e NVFP4 che abbassano ulteriormente il fabbisogno di memoria.
- Supporto in arrivo per llama.cpp, che permetterà l'esecuzione anche su configurazioni più modeste e su CPU.
Per chi non ha hardware adeguato, la strada più semplice resta provarlo via API su Vertex AI o noleggiare una GPU cloud a ore.
Come scaricarlo ed eseguirlo con vLLM
Il modo più rapido per metterlo in funzione in locale è vLLM, che avvia un server compatibile con le API di OpenAI. Servono Python e una GPU adeguata:
pip install vllm
# Avvia un server locale che scarica i pesi da Hugging Face
vllm serve google/diffusiongemma-26B-A4B-itIl server resta in ascolto su http://localhost:8000. A quel punto puoi interrogarlo con una normale chiamata in stile OpenAI:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "google/diffusiongemma-26B-A4B-it",
"messages": [{"role": "user", "content": "Spiega in tre frasi cos\u0027e\u0027 un modello a diffusione."}]
}'In alternativa, il modello è supportato anche da Hugging Face Transformers (con una classe di generazione dedicata alla diffusione), MLX per i Mac con Apple Silicon, Unsloth e NVIDIA NeMo. Un parametro chiave è num_diffusion_steps, che bilancia qualità e velocità: per la maggior parte degli usi il punto d'equilibrio sta tra 12 e 20 passi.
Per chi è utile e quando conviene
DiffusionGemma non è (ancora) un modello pensato per chi vuole semplicemente chattare: è uno strumento per ricercatori e sviluppatori che vogliono sperimentare un paradigma alternativo agli LLM autoregressivi, magari per compiti dove la velocità di generazione è critica o per studiare le proprietà della diffusione sul testo. Il fatto che sia a pesi aperti e con licenza permissiva lo rende interessante per chi ha bisogno di eseguire tutto in locale — per ragioni di privacy, costi o personalizzazione — e per chi vuole fare fine-tuning su dati propri. Se cerchi invece il miglior chatbot generalista pronto all'uso, le opzioni commerciali restano più comode; ma come segnale di dove sta andando la ricerca, DiffusionGemma è uno dei rilasci più interessanti del momento.




