Eseguire un grande modello di linguaggio sul tuo PC, senza pagare nessuno e senza che le tue conversazioni passino dal cloud, oggi e' realistico. Ollama (lo strumento open-source che gestisce installazione, esecuzione e API REST dei modelli) e' diventato lo standard de facto: scarichi un comando, scegli il modello, sei online in due minuti. Questa guida ti porta dall'installazione al primo agente funzionante, con esempi reali su DeepSeek V4, Qwen 3.6 e Mistral.

A chi serve e cosa otterrai

Questa guida e' utile a tre profili. Lo sviluppatore che vuole prototipare con un LLM senza spendere in API. Il professionista che lavora su documenti sensibili (avvocati, medici, consulenti) e non puo' mandare dati a servizi cloud. Lo studente o appassionato che vuole capire come funzionano davvero gli LLM e provare modelli diversi senza sottoscrizioni.

Al termine avrai: Ollama installato; un modello scaricato che ti risponde da terminale e da browser; l'API REST attiva sulla tua macchina; un'interfaccia grafica come Open WebUI per usarlo come ChatGPT; un piccolo script Python che chiama il modello locale per automazioni.

Prerequisiti hardware

Il fattore limitante e' la RAM (e la VRAM se hai una GPU). I modelli quantizzati a 4 bit hanno questa regola pratica:

ModelloRAM minimaRAM consigliataGPU opzionale
Modelli 3B (Llama 3.2)8 GB16 GB4 GB VRAM
Modelli 7-8B (Mistral, Llama)16 GB16-24 GB8 GB VRAM
Modelli 13-14B (Phi-4, Qwen)16 GB32 GB16 GB VRAM
Modelli 30-34B32 GB48 GB24 GB VRAM
Modelli 70B+48 GB64 GB+48 GB VRAM

Sistemi consigliati: Apple Silicon (M1 Pro/Max in su) e' la scelta migliore per il rapporto qualita'/prezzo grazie alla memoria unificata. Un MacBook Pro M2 con 32 GB di RAM esegue comodamente modelli da 13B. Su Windows/Linux serve una GPU NVIDIA con almeno 8 GB di VRAM (RTX 3060 12GB e' un'ottima entry); il fallback su CPU funziona ma e' lento. AMD Radeon ha ora supporto ROCm in Ollama: RX 7900 XT e XTX vanno bene, le serie precedenti faticano.

1) Installare Ollama

Vai su ollama.com e scarica l'installer per il tuo sistema. Su Linux il comando ufficiale e':

curl -fsSL https://ollama.com/install.sh | sh

Su macOS scarichi il file .dmg, trascini Ollama nelle Applicazioni e l'app parte. Su Windows scarichi l'installer .exe.

Per verificare che sia attivo, apri il terminale e digita:

ollama --version

Dovresti vedere qualcosa come ollama version is 0.5.4. Se non lo vedi, il PATH non e' aggiornato: chiudi e riapri il terminale.

2) Scaricare e provare il primo modello

Per scaricare un modello e iniziare a chattarci, basta un comando:

ollama run llama3.2:3b

La prima volta Ollama scarica il modello (circa 2 GB per la 3B), lo carica in memoria e ti apre una shell interattiva. Scrivi un prompt, premi invio, vedi la risposta. Premi Ctrl-D per uscire.

I modelli che consiglio per partire, dal piu' leggero al piu' pesante:

# 3 miliardi di parametri, anche su laptop modesti
ollama pull llama3.2:3b

# 7-8B, il punto dolce tra qualita' e RAM
ollama pull mistral:7b
ollama pull llama3.2:8b

# 14B, per chi ha 32+ GB di RAM o una GPU con 16 GB di VRAM
ollama pull qwen3:14b

# 70B quantizzato a 4-bit: serve hardware serio (48+ GB)
ollama pull llama3.3:70b

3) Quali modelli usare nel 2026

La libreria di Ollama (ollama.com/library) si e' moltiplicata. Le opzioni piu' interessanti oggi:

  • DeepSeek V4: il modello cinese che a fine aprile ha eguagliato Claude Opus 4.6 sui benchmark di coding. La versione MoE completa e' impraticabile in locale (671B di parametri totali, 37B attivi), ma le varianti distillate deepseek-v4-distill:8b e deepseek-v4-distill:32b sono utilizzabili. Eccellenti in ragionamento e coding.
  • Qwen 3.6 di Alibaba: il piu' versatile open per uso generale. qwen3:7b, qwen3:14b e qwen3:32b coprono tutta la fascia. Eccellente l'italiano, buoni i tool-use.
  • Llama 3.3 70B: il vecchio re di Meta, ancora competitivo. Pesante ma maturo.
  • Mistral Small 3.1 (mistral-small:24b): francese, scritto bene, eccellente in europeo.
  • Phi-4 14B di Microsoft: piccolo ma sopra la sua categoria in ragionamento.
  • Gemma 3 27B di Google: ottimo nella sintesi e nei task di scrittura.

Per il mio uso quotidiano - revisione di documenti italiani, scrittura assistita, piccoli script Python - qwen3:14b e' la mia scelta primaria su un Mac da 32 GB. Per il coding serio passo a deepseek-v4-distill:32b.

4) L'API REST: usare Ollama dalle tue app

Una volta avviato, Ollama espone un'API REST locale sulla porta 11434. Puoi chiamarla da qualunque applicazione. Esempio con curl:

curl http://localhost:11434/api/generate -d '{
  "model": "qwen3:14b",
  "prompt": "Riassumi in tre punti il romanzo I Promessi Sposi.",
  "stream": false
}'

Lo stesso in Python (richiede pip install ollama):

import ollama

response = ollama.chat(
    model='qwen3:14b',
    messages=[
        {'role': 'system', 'content': 'Sei un assistente di scrittura italiana. Rispondi sempre in italiano.'},
        {'role': 'user', 'content': 'Scrivi un comunicato stampa di 100 parole sull\'uscita di un nuovo libro di poesie.'}
    ]
)

print(response['message']['content'])

Ollama implementa anche l'API OpenAI-compatibile: bastano poche righe per usare Ollama come backend dei tuoi script che gia' parlano con OpenAI. Endpoint: http://localhost:11434/v1/, chiave fittizia.

5) Interfaccia grafica: Open WebUI

Per usare i modelli locali come usi ChatGPT, installa Open WebUI. La via piu' rapida e' Docker:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Poi apri http://localhost:3000 nel browser, crei un account locale (rimane sulla tua macchina), e vedi tutti i modelli scaricati da Ollama. Hai conversazioni multiple, cronologia, prompt personalizzati, upload di file. E' ChatGPT, ma sul tuo computer.

In alternativa, LM Studio e' un'app desktop nativa per Mac/Windows/Linux con la stessa funzione: interfaccia grafica per scaricare modelli da Hugging Face e chattarci. Per chi non vuole usare Docker e il terminale, e' la scelta piu' semplice.

6) Tre prompt da provare subito

Prompt 1, scrittura:

Sei un editor italiano severo. Ti incollero' un testo e tu mi indicherai tutti gli errori di grammatica, le ripetizioni e le frasi confuse. Per ogni problema, scrivi la riga originale, spiega il problema in una frase e proponi una correzione. Non riscrivere l'intero testo.

Prompt 2, coding:

Sei un programmatore Python esperto. Scrivimi una funzione che dato un file CSV con colonne 'data', 'importo', 'categoria' produce un report mensile delle uscite per categoria. Usa pandas. Aggiungi commenti in italiano e un esempio d'uso a fine file. Mostra solo il codice, niente preamboli.

Prompt 3, analisi:

Ti passo una mail di reclamo di un cliente. Estraine: (1) il problema principale in una frase; (2) eventuali clienti, ordini o prodotti citati con il loro identificativo; (3) il tono (calmo, irritato, urgente); (4) una proposta di risposta professionale in italiano, massimo 100 parole.

Errori comuni

"Killed" sul terminale: il sistema operativo ha terminato il processo perche' la RAM e' finita. Soluzione: scarica una versione piu' piccola del modello (es. qwen3:7b al posto di qwen3:14b) o chiudi altre applicazioni.

Risposte lentissime: probabilmente Ollama sta usando la CPU invece della GPU. Su Linux/Windows verifica con nvidia-smi che la VRAM venga occupata quando lanci un prompt; su Mac controlla che la versione di Ollama sia aggiornata. Se la GPU non viene usata, verifica i driver CUDA o ROCm.

"context length exceeded": hai inserito un testo piu' lungo del contesto del modello. Quasi tutti i modelli moderni gestiscono 8k-128k token, ma alcuni partono con 2k di default. Imposta a runtime: ollama run qwen3:14b --num_ctx 32768.

Quando non usare modelli locali

Tre scenari in cui restare sul cloud e' meglio. Coding agentico complesso: Claude Opus 4.7 e GPT-5.5 in modalita' agente eseguono passi multi-step con strumenti che i modelli open quantizzati a 4-bit ancora gestiscono male. Generazione immagini di alta qualita': per il text-to-image serve ComfyUI con Flux o SDXL, e una GPU dedicata. Visione su immagini cliniche o tecniche specializzate: i modelli proprietari sono nettamente avanti.

Per tutto il resto - scrittura, riassunti, traduzione, classificazione, prima bozza di codice, analisi di documenti che non vuoi mandare in cloud - Ollama nel 2026 ha raggiunto un livello di qualita' che fino a 18 mesi fa era impensabile. Bastano un pomeriggio e un PC decente per smettere di pagare ChatGPT, almeno per la meta' dei tuoi usi.

Come proseguire

Una volta che Ollama gira, le strade interessanti sono tre. Costruire una pipeline RAG sui tuoi PDF usando LangChain o LlamaIndex con Ollama come backend. Configurare un'extension di VS Code (Continue.dev, Cody) per avere un copilot interamente locale. Esporre Ollama in rete locale per condividerlo nell'ufficio (attenzione alla sicurezza: aggiungi autenticazione con un reverse proxy come Caddy o Nginx). I modelli scaricati restano in ~/.ollama/models: pesano parecchio, conviene tenere d'occhio lo spazio disco e cancellare le versioni che non usi con ollama rm nome-modello.