Far girare un modello di intelligenza artificiale direttamente sul proprio computer — senza internet, senza account, senza che i dati escano dalla macchina — oggi è alla portata di chiunque abbia un PC recente. Lo strumento più semplice per farlo è Ollama: gratuito, open source, disponibile per Windows, macOS e Linux. Questa guida ti porta dall'installazione al primo dialogo, fino a usare Ollama come «motore» per le tue applicazioni e a dargli un'interfaccia grafica.

A chi serve e cosa otterrai

È utile a chi vuole: privacy totale (documenti riservati, codice aziendale, dati personali che non devono finire su un servizio esterno); lavorare offline; sperimentare con tanti modelli senza pagare a consumo; integrare un modello in script e programmi senza dipendere da un'API a pagamento. Al termine avrai Ollama installato, almeno un modello scaricato, saprai chattarci da terminale, chiamarlo via API (anche in modo compatibile con l'SDK di OpenAI) e usarlo da un'interfaccia web simile a ChatGPT.

Prerequisiti reali. Un computer con almeno 8 GB di RAM (16 GB consigliati, 32 GB o più per i modelli grandi). Una scheda grafica dedicata (NVIDIA o, su Mac, i chip Apple Silicon M1/M2/M3/M4) accelera molto, ma non è obbligatoria: senza GPU i modelli piccoli funzionano comunque, solo più lentamente. Spazio su disco: ogni modello pesa da ~1-2 GB (i più piccoli) a decine di GB.

Passo 1 - Installare Ollama

  • Windows e macOS: scarica l'installer da ollama.com/download, eseguilo e segui la procedura guidata. Al termine Ollama gira in background (icona nella barra di sistema) ed espone un servizio locale sulla porta 11434.
  • Linux: apri un terminale ed esegui:
curl -fsSL https://ollama.com/install.sh | sh

Per verificare che funzioni, in un terminale digita:

ollama --version

Passo 2 - Scaricare e provare il primo modello

Un buon punto di partenza, leggero e multilingue, è Llama 3.2 nella versione da 3 miliardi di parametri:

ollama run llama3.2

Il primo avvio scarica il modello (qualche GB), poi si apre una chat nel terminale. Prova questo prompt:

Sei un assistente che risponde in italiano. Spiega a un collega non tecnico, in 4 frasi, la differenza tra un modello eseguito in locale e uno usato tramite un servizio cloud.

Risultato atteso: quattro frasi in italiano corretto che toccano privacy/dati, costi, necessità di hardware proprio e velocità/qualità rispetto ai modelli cloud. Per uscire dalla chat digita /bye. Comandi utili: ollama list (modelli installati), ollama pull nome-modello (scarica senza avviare), ollama rm nome-modello (rimuove).

Passo 3 - Scegliere il modello giusto per la tua RAM

RAM disponibileModelli consigliatiNote
8 GBllama3.2 (3B), qwen2.5:3b, phi4-mini, gemma3:4bVeloci, adatti a chat, riassunti, bozze. Qualità limitata su compiti complessi.
16 GBllama3.1:8b, qwen2.5:7b, gemma3:12b, mistralBuon compromesso per uso quotidiano, anche un po' di codice.
32 GB o piùqwen2.5:32b, gemma3:27b, deepseek-r1:32b (ragionamento)Più capaci; servono pazienza senza GPU adeguata.
GPU 16-24 GB+ o Mac 32-64 GBmodelli fino a 70B quantizzati (es. llama3.3:70b)Risultati vicini ai modelli cloud di fascia media.

Regola pratica: un modello «da N miliardi di parametri» quantizzato a 4 bit occupa all'incirca N/2 GB di memoria; lasciane sempre un po' libera per il sistema. La libreria completa è su ollama.com/library.

Passo 4 - Usare Ollama dalle tue applicazioni (API)

Mentre Ollama è in esecuzione, espone un'API HTTP locale. Esempio con curl:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Elenca 3 idee per un post sul risparmio energetico in casa.",
  "stream": false
}'

In Python è comodo usare la compatibilità con l'SDK di OpenAI: basta puntare al server locale.

from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")  # la chiave è ignorata
resp = client.chat.completions.create(
    model="llama3.2",
    messages=[
        {"role": "system", "content": "Rispondi sempre in italiano, in modo conciso."},
        {"role": "user", "content": "Riassumi in 3 punti i vantaggi di eseguire un LLM in locale."}
    ]
)
print(resp.choices[0].message.content)

Risultato atteso: tre punti su privacy/controllo dei dati, costi (nessun consumo a pagamento), funzionamento offline. Così puoi sostituire una chiamata a un servizio cloud con una locale in qualunque script che usi già l'SDK di OpenAI.

Passo 5 - Dare a Ollama un'interfaccia grafica

Se vuoi un'esperienza simile a ChatGPT nel browser, l'opzione più diffusa è Open WebUI. Con Docker installato:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway   -v open-webui:/app/backend/data --name open-webui --restart always   ghcr.io/open-webui/open-webui:main

Poi apri http://localhost:3000, crea un account locale e seleziona uno dei modelli che hai scaricato con Ollama. Avrai cronologia delle chat, possibilità di caricare documenti, gestione di più modelli.

Errori comuni e soluzioni

  • «Error: could not connect to ollama app» → il servizio non è in esecuzione: riavvia l'app (Windows/macOS) o esegui ollama serve in un terminale (Linux).
  • Risposte lentissime, una parola al secondo → il modello è troppo grande per la tua macchina o non sta usando la GPU: scegli un modello più piccolo, oppure verifica driver/CUDA (NVIDIA). Su portatili, collega l'alimentatore.
  • «model requires more system memory than is available» → RAM insufficiente: usa una versione più piccola del modello (es. :3b invece di :8b) o una quantizzazione più aggressiva.
  • Il download si interrompe → rilancia ollama pull nome-modello: riprende da dove si era fermato.
  • La porta 11434 è occupata → un'altra istanza di Ollama è già attiva; chiudila dal gestore processi prima di riavviare.

Quando NON usare Ollama (e le alternative)

I modelli locali piccoli non reggono il confronto con i migliori modelli cloud su compiti complessi (codice articolato, ragionamento lungo, analisi sofisticate): se ti serve la massima qualità e i dati non sono sensibili, conviene un servizio come ChatGPT, Claude o Gemini. Se invece vuoi un'interfaccia desktop più curata per gestire e provare modelli, valuta LM Studio (grafico, ottimo per Apple Silicon e Windows); se vuoi il massimo controllo a basso livello c'è llama.cpp, su cui Ollama stesso si appoggia. Per immagini e audio gli strumenti giusti sono altri (ComfyUI/Stable Diffusion per le immagini, Whisper per la trascrizione): Ollama è per i modelli linguistici (e alcuni multimodali con visione).

Come proseguire

Una volta presa la mano, i passi naturali sono: collegare Ollama a un sistema di «retrieval» per interrogare i tuoi documenti (RAG); usarlo come backend in un'automazione (per esempio in n8n); provare i modelli «di ragionamento» come deepseek-r1 per i compiti che richiedono passaggi logici espliciti; e tenere d'occhio la libreria di Ollama, dove i modelli aperti più recenti arrivano in versioni quantizzate quasi subito.