Gemma 4: il modello aperto di Google in locale con Ollama

Tra i modelli aperti che oggi puoi far girare sul tuo computer, Gemma 4 di Google è uno dei più completi: multimodale, capace di capire oltre 140 lingue, rilasciato con licenza Apache 2.0 (la più libera per usi commerciali) e disponibile in tante taglie, dalla versione minuscola che gira su un telefono fino al modello da 31 miliardi di parametri. Presentata da Google il 2 aprile 2026, la famiglia Gemma 4 è ormai ampiamente integrata negli strumenti più usati, a partire da Ollama, ed è il punto di riferimento "occidentale" per chi vuole un'IA locale e gratuita. Vediamo cosa offre e come usarla in pratica.

Le taglie di Gemma 4: dal telefono al modello da 31 miliardi

La forza di Gemma 4 è la scelta. La famiglia copre esigenze molto diverse, così puoi prendere il modello che la tua macchina riesce a far girare:

E2B ed E4B: le versioni "edge", leggere (rispettivamente circa 5 e 8 miliardi di parametri totali, ma con pochi parametri attivi), pensate per girare su portatili e dispositivi con poca memoria, con un contesto fino a 128.000 token.
12B: il modello "unificato", equilibrato tra qualità e requisiti, con contesto fino a 256.000 token.
26B A4B: una versione Mixture-of-Experts che attiva solo 3,8 miliardi di parametri per richiesta, per avere capacità elevate a costo di calcolo contenuto.
31B: il modello "denso" di punta, il più capace della famiglia.

Per farsi un'idea delle prestazioni, la versione da 31 miliardi, secondo la scheda tecnica ufficiale di Google, raggiunge l'85,2% su MMLU-Pro e l'80% su LiveCodeBench v6, con un punteggio Codeforces intorno a 2150: numeri da modello di fascia alta, anche se vanno riferiti solo alla taglia più grande e non a quelle piccole.

Gemma 4 si può eseguire in locale sul proprio computer: la versione E4B gira con circa 16 GB di memoria.

Cosa sa fare: multimodale e 140 lingue

Gemma 4 non si limita al testo. Le versioni edge e il modello da 12B sono nativamente multimodali: capiscono testo, immagini e audio, quindi puoi mostrare loro una foto e farci domande, o dare in pasto un file vocale. La versione da 31B lavora con testo e immagini. Il supporto a oltre 140 lingue, italiano incluso, lo rende utile anche fuori dall'inglese, dove molti modelli aperti faticano.

Il contesto lungo — fino a 256.000 token nelle taglie maggiori — permette di dare al modello documenti molto estesi, codice o intere conversazioni senza che perda il filo. È la base ideale anche per costruirci sopra applicazioni come un assistente documentale (RAG) interamente locale.

Licenza Apache 2.0: perché è una buona notizia

La scelta della licenza Apache 2.0 è uno dei motivi principali per preferire Gemma 4 ad altri modelli "aperti". A differenza di licenze che impongono limiti sugli utenti o sull'uso commerciale, Apache 2.0 consente di usare il modello liberamente anche in prodotti commerciali, modificarlo e ridistribuirlo. Per un'azienda o uno sviluppatore italiano significa poter integrare Gemma 4 nei propri servizi senza vincoli legali nascosti, e farlo girare in casa per tenere i dati sotto controllo.

Come scaricarlo e usarlo con Ollama

Il modo più semplice per provare Gemma 4 in locale è Ollama. Dopo aver installato Ollama dal sito ufficiale, da terminale bastano due comandi:

# Scarica ed esegue la versione predefinita (E4B, circa 9,6 GB)
ollama pull gemma4
ollama run gemma4

# Varianti disponibili
ollama run gemma4:e2b     # leggerissima, per macchine modeste
ollama run gemma4:12b     # equilibrata
ollama run gemma4:31b     # la piu' capace (richiede molta memoria)

Una volta avviato, puoi dialogare direttamente nel terminale. Esempio di prompt e risultato atteso:

Prompt: Spiega in tre frasi semplici la differenza tra machine learning e deep learning, con un esempio per ciascuno.

Risposta attesa: una spiegazione chiara in italiano, con il machine learning descritto come apprendimento da dati strutturati (es. prevedere il prezzo di una casa) e il deep learning come sottoinsieme basato su reti neurali profonde (es. riconoscere un gatto in una foto).

Ollama espone anche un'API locale su http://localhost:11434, così puoi richiamare Gemma 4 da Python o da qualunque applicazione, senza inviare nulla al cloud. Per requisiti hardware: la E4B gira bene con circa 16 GB di memoria; le taglie da 26B e 31B richiedono una buona GPU o molta RAM. In alternativa a Ollama puoi scaricare i pesi da Hugging Face (organizzazione google) o usare LM Studio, che offre un'interfaccia grafica comoda per chi non ama il terminale.

Quando scegliere Gemma 4 e quando guardare altrove

Gemma 4 è un'ottima prima scelta quando vuoi un modello aperto, multimodale e con buon italiano da eseguire in locale, gratis e con licenza pulita per usi commerciali. È perfetto per assistenti privati, prototipi, automazioni e applicazioni RAG sui propri documenti.

Se invece ti serve la massima capacità di ragionamento su problemi complessi, i modelli di frontiera via API — Claude, GPT-5, Gemini nelle versioni più grandi — restano avanti, ma chiusi e a pagamento. E per compiti molto specifici, come la programmazione agentica, vale la pena confrontare Gemma 4 con i modelli aperti specializzati nel coding usciti negli ultimi mesi. La buona notizia è che, con Ollama, provarli tutti costa solo qualche gigabyte di download e cinque minuti di tempo.