Far girare un modello di intelligenza artificiale direttamente sul proprio computer — senza internet, senza account, senza che i dati escano dalla macchina — oggi è alla portata di chiunque abbia un PC recente. Lo strumento più semplice per farlo è Ollama: gratuito, open source, disponibile per Windows, macOS e Linux. Questa guida ti porta dall'installazione al primo dialogo, fino a usare Ollama come «motore» per le tue applicazioni e a dargli un'interfaccia grafica.
A chi serve e cosa otterrai
È utile a chi vuole: privacy totale (documenti riservati, codice aziendale, dati personali che non devono finire su un servizio esterno); lavorare offline; sperimentare con tanti modelli senza pagare a consumo; integrare un modello in script e programmi senza dipendere da un'API a pagamento. Al termine avrai Ollama installato, almeno un modello scaricato, saprai chattarci da terminale, chiamarlo via API (anche in modo compatibile con l'SDK di OpenAI) e usarlo da un'interfaccia web simile a ChatGPT.
Prerequisiti reali. Un computer con almeno 8 GB di RAM (16 GB consigliati, 32 GB o più per i modelli grandi). Una scheda grafica dedicata (NVIDIA o, su Mac, i chip Apple Silicon M1/M2/M3/M4) accelera molto, ma non è obbligatoria: senza GPU i modelli piccoli funzionano comunque, solo più lentamente. Spazio su disco: ogni modello pesa da ~1-2 GB (i più piccoli) a decine di GB.
Passo 1 - Installare Ollama
- Windows e macOS: scarica l'installer da
ollama.com/download, eseguilo e segui la procedura guidata. Al termine Ollama gira in background (icona nella barra di sistema) ed espone un servizio locale sulla porta11434. - Linux: apri un terminale ed esegui:
curl -fsSL https://ollama.com/install.sh | sh
Per verificare che funzioni, in un terminale digita:
ollama --version
Passo 2 - Scaricare e provare il primo modello
Un buon punto di partenza, leggero e multilingue, è Llama 3.2 nella versione da 3 miliardi di parametri:
ollama run llama3.2
Il primo avvio scarica il modello (qualche GB), poi si apre una chat nel terminale. Prova questo prompt:
Sei un assistente che risponde in italiano. Spiega a un collega non tecnico, in 4 frasi, la differenza tra un modello eseguito in locale e uno usato tramite un servizio cloud.
Risultato atteso: quattro frasi in italiano corretto che toccano privacy/dati, costi, necessità di hardware proprio e velocità/qualità rispetto ai modelli cloud. Per uscire dalla chat digita /bye. Comandi utili: ollama list (modelli installati), ollama pull nome-modello (scarica senza avviare), ollama rm nome-modello (rimuove).
Passo 3 - Scegliere il modello giusto per la tua RAM
| RAM disponibile | Modelli consigliati | Note |
|---|---|---|
| 8 GB | llama3.2 (3B), qwen2.5:3b, phi4-mini, gemma3:4b | Veloci, adatti a chat, riassunti, bozze. Qualità limitata su compiti complessi. |
| 16 GB | llama3.1:8b, qwen2.5:7b, gemma3:12b, mistral | Buon compromesso per uso quotidiano, anche un po' di codice. |
| 32 GB o più | qwen2.5:32b, gemma3:27b, deepseek-r1:32b (ragionamento) | Più capaci; servono pazienza senza GPU adeguata. |
| GPU 16-24 GB+ o Mac 32-64 GB | modelli fino a 70B quantizzati (es. llama3.3:70b) | Risultati vicini ai modelli cloud di fascia media. |
Regola pratica: un modello «da N miliardi di parametri» quantizzato a 4 bit occupa all'incirca N/2 GB di memoria; lasciane sempre un po' libera per il sistema. La libreria completa è su ollama.com/library.
Passo 4 - Usare Ollama dalle tue applicazioni (API)
Mentre Ollama è in esecuzione, espone un'API HTTP locale. Esempio con curl:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Elenca 3 idee per un post sul risparmio energetico in casa.",
"stream": false
}'
In Python è comodo usare la compatibilità con l'SDK di OpenAI: basta puntare al server locale.
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama") # la chiave è ignorata
resp = client.chat.completions.create(
model="llama3.2",
messages=[
{"role": "system", "content": "Rispondi sempre in italiano, in modo conciso."},
{"role": "user", "content": "Riassumi in 3 punti i vantaggi di eseguire un LLM in locale."}
]
)
print(resp.choices[0].message.content)
Risultato atteso: tre punti su privacy/controllo dei dati, costi (nessun consumo a pagamento), funzionamento offline. Così puoi sostituire una chiamata a un servizio cloud con una locale in qualunque script che usi già l'SDK di OpenAI.
Passo 5 - Dare a Ollama un'interfaccia grafica
Se vuoi un'esperienza simile a ChatGPT nel browser, l'opzione più diffusa è Open WebUI. Con Docker installato:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
Poi apri http://localhost:3000, crea un account locale e seleziona uno dei modelli che hai scaricato con Ollama. Avrai cronologia delle chat, possibilità di caricare documenti, gestione di più modelli.
Errori comuni e soluzioni
- «Error: could not connect to ollama app» → il servizio non è in esecuzione: riavvia l'app (Windows/macOS) o esegui
ollama servein un terminale (Linux). - Risposte lentissime, una parola al secondo → il modello è troppo grande per la tua macchina o non sta usando la GPU: scegli un modello più piccolo, oppure verifica driver/CUDA (NVIDIA). Su portatili, collega l'alimentatore.
- «model requires more system memory than is available» → RAM insufficiente: usa una versione più piccola del modello (es.
:3binvece di:8b) o una quantizzazione più aggressiva. - Il download si interrompe → rilancia
ollama pull nome-modello: riprende da dove si era fermato. - La porta 11434 è occupata → un'altra istanza di Ollama è già attiva; chiudila dal gestore processi prima di riavviare.
Quando NON usare Ollama (e le alternative)
I modelli locali piccoli non reggono il confronto con i migliori modelli cloud su compiti complessi (codice articolato, ragionamento lungo, analisi sofisticate): se ti serve la massima qualità e i dati non sono sensibili, conviene un servizio come ChatGPT, Claude o Gemini. Se invece vuoi un'interfaccia desktop più curata per gestire e provare modelli, valuta LM Studio (grafico, ottimo per Apple Silicon e Windows); se vuoi il massimo controllo a basso livello c'è llama.cpp, su cui Ollama stesso si appoggia. Per immagini e audio gli strumenti giusti sono altri (ComfyUI/Stable Diffusion per le immagini, Whisper per la trascrizione): Ollama è per i modelli linguistici (e alcuni multimodali con visione).
Come proseguire
Una volta presa la mano, i passi naturali sono: collegare Ollama a un sistema di «retrieval» per interrogare i tuoi documenti (RAG); usarlo come backend in un'automazione (per esempio in n8n); provare i modelli «di ragionamento» come deepseek-r1 per i compiti che richiedono passaggi logici espliciti; e tenere d'occhio la libreria di Ollama, dove i modelli aperti più recenti arrivano in versioni quantizzate quasi subito.




