Ollama è ormai il modo più semplice per scaricare e far girare un modello open in locale, ma la sua interfaccia è una shell. Per usare i modelli come si usa ChatGPT — con chat persistenti, condivisione tra utenti, allegati, RAG sui propri PDF, scelta del modello da un menu a tendina — serve un frontend. Open WebUI è il progetto open source più maturo: l'interfaccia è praticamente identica a quella di OpenAI, gira sul tuo computer, supporta multi-utente e si autoaggiorna. In questa guida lo installiamo passo passo, lo colleghiamo a Ollama e configuriamo RAG, ricerca web e accesso da qualunque dispositivo della rete di casa.
A chi serve, cosa otterrai, prerequisiti
Serve a chi vuole tre cose: usare i modelli AI senza far uscire i propri dati dal computer (avvocati, medici, freelance con NDA, scuole, PA), avere una sola interfaccia per più modelli (Llama, Qwen, Mistral, DeepSeek, ma anche Claude o GPT-5 se si vuole tenere unito tutto in un'unica chat history), creare un \"ChatGPT condiviso\" in casa o in ufficio con account separati per ogni utente.
Cosa otterrai a fine guida: una pagina web a http://localhost:3000 (o sul tuo IP locale, accessibile da tutti i dispositivi della rete) con login, chat multi-conversazione, scelta del modello, upload di PDF/Word/immagini, RAG con citazioni delle fonti, ricerca web opzionale e voce. Prerequisiti minimi: macOS 12+, Windows 10+ o Ubuntu 22.04+; 16 GB di RAM (32 consigliati); una GPU non è obbligatoria ma utile (qualunque scheda da 8 GB di VRAM rende l'esperienza fluida); 20 GB di disco liberi per i primi modelli; Docker Desktop installato (sezione 3) — oppure Python 3.11 se preferisci l'install nativo.
1) Installa Ollama
Ollama si scarica da ollama.com. Su macOS: pacchetto .dmg. Su Windows: installer .exe. Su Linux:
curl -fsSL https://ollama.com/install.sh | shVerifica che sia in funzione: nel terminale digita ollama --version. Per scaricare un primo modello, parti dal modello più leggero pubblicato da OpenAI (sì, OpenAI ha rilasciato due modelli aperti a 2025):
ollama pull gpt-oss:20bIn alternativa, se hai 8 GB di RAM e poca pazienza:
ollama pull qwen3:8b
ollama pull llama3.2:3bLascia che Ollama scarichi (5-25 GB a modello). Test rapido:
ollama run qwen3:8b "Saluta in italiano e dimmi che modello sei."2) Installa Docker (se non ce l'hai)
Open WebUI gira meglio in container. Vai su docker.com e installa Docker Desktop. Su Linux server, va benissimo anche solo docker-ce via repository ufficiale. Verifica con docker --version.
3) Avvia Open WebUI in un comando
Apri il terminale e dai:
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:mainTre cose importanti in questo comando: --add-host=host.docker.internal:host-gateway permette al container di vedere Ollama in esecuzione sul tuo PC; -v open-webui:/app/backend/data persiste chat e impostazioni in un volume Docker (se rilanci il container non perdi nulla); OLLAMA_BASE_URL dice a Open WebUI dove cercare Ollama.
4) Primo accesso
Apri il browser su http://localhost:3000. La prima volta crei l'account amministratore con email e password. Importante: il primo utente registrato diventa admin; ogni utente successivo è in stato \"pending\" finché tu non lo approvi nelle impostazioni.
Una volta dentro vedrai la tendina dei modelli in alto. Se hai installato qwen3:8b apparirà nel menu. Apri una nuova chat e prova:
Scrivi in italiano una breve poesia sul Mediterraneo che faccia rima e contenga le parole \"sale\", \"vento\" e \"silenzio\".
5) Configura RAG sui tuoi PDF
RAG (Retrieval Augmented Generation) significa caricare documenti e farsi rispondere dal modello citando quei documenti. Open WebUI lo fa nativamente. In Impostazioni → Documenti, aggiungi una collezione, per esempio \"Contratti 2026\", e fai drag-and-drop dei PDF (anche scansioni con OCR, se installi anche tesseract). Il sistema usa di default il bge-large embedding tramite Ollama: per attivarlo:
ollama pull bge-largePoi in Impostazioni → Documenti → \"Embedding Model\" seleziona bge-large. Pronto: nella chat, clicca la graffetta, scegli la collezione, e fai una domanda come:
Nei contratti del 2026 caricati, quali clausole di esclusiva durano più di 12 mesi? Cita testualmente.
Il modello risponderà citando il file e la pagina. Funziona offline.
6) Aggiungi la ricerca web (facoltativo)
Se vuoi che il modello possa navigare in tempo reale, in Impostazioni → Strumenti → Web Search abilita uno dei provider supportati. Le opzioni gratuite più semplici sono SearXNG (self-hosted: un altro container Docker, occorre il tuo dominio o l'IP) e DuckDuckGo via API non ufficiale (funziona ma con rate limit). Open WebUI passa al modello i risultati e gestisce la citazione.
7) Apri il servizio agli altri dispositivi di casa
Per accedere a Open WebUI da tablet, smartphone, secondo PC, basta usare l'IP del computer dove gira. Su macOS lo trovi in Impostazioni di Sistema → Rete; su Windows con ipconfig; su Linux con ip addr. Se l'IP è 192.168.1.42, da qualunque dispositivo della stessa rete punta a http://192.168.1.42:3000 e fai login. Per esporlo all'esterno casa tua usa Tailscale (gratis per uso personale fino a 100 dispositivi): installa il client sul PC e sul telefono, accedi tramite il magic DNS Tailscale, lasci il servizio dietro VPN senza aprire porte sul router.
8) Modelli consigliati e configurazione GPU
Tre consigli pratici. Per uso generico in italiano: qwen3:14b (8,5 GB) è oggi il miglior modello aperto fra i 7-15 miliardi di parametri per la nostra lingua. Per code: qwen2.5-coder:14b o deepseek-coder-v2:16b se hai 16+ GB di VRAM. Per RAG su documenti tecnici: llama3.3:70b se hai una scheda da 48+ GB, altrimenti gpt-oss:20b che gira bene su 24 GB.
Se Ollama non vede la tua GPU: su Windows verifica i driver NVIDIA aggiornati e che nvidia-smi funzioni dal prompt. Su Linux installa il nvidia-container-toolkit. Su macOS Apple Silicon non serve niente di particolare, ma controlla che Ollama usi Metal: OLLAMA_LOG=debug ollama serve e cerca \"metal\" nei log.
Errori comuni e soluzioni
- \"Connection refused\" o nessun modello nel menù → Ollama non gira o non è raggiungibile dal container. Su Linux può servire
OLLAMA_HOST=0.0.0.0:11434 ollama serveper far ascoltare Ollama su tutte le interfacce. - Risposte lentissime → il modello sta girando in CPU. Verifica che la GPU sia rilevata: con NVIDIA dovresti vedere il processo in
nvidia-smi. - \"Document indexing failed\" → manca il modello embedding. Esegui
ollama pull bge-large. - Su Windows il container non vede Ollama → metti
OLLAMA_BASE_URL=http://host.docker.internal:11434esplicitamente; su Linux usa l'IP dell'host (172.17.0.1di solito).
Alternative e quando NON usarlo
Open WebUI è la prima scelta per la maggior parte dei casi consumer e PMI. Le alternative valide sono: LibreChat (più orientato a chiamate API multi-provider, meno semplice come ambiente per modelli locali), LM Studio (no auth, no multi-utente, ma il setup è zero-click su macOS e Windows), AnythingLLM (più focus su RAG, meno funzioni chat). Quando NON usare Open WebUI: se l'obiettivo è solo \"provo un modello al volo\" — meglio ollama run nel terminale; se vuoi fornire un servizio a centinaia di utenti — meglio piattaforme commerciali come LM Studio Server o vLLM con un proxy dedicato. Una volta installato, l'aggiornamento è semplice: docker pull ghcr.io/open-webui/open-webui:main seguito da docker stop open-webui && docker rm open-webui e rilancio del comando della sezione 3 (le tue chat sono nel volume, non si perdono).




