Open WebUI + Ollama: ChatGPT privata in 15 minuti

Ollama è ormai il modo più semplice per scaricare e far girare un modello open in locale, ma la sua interfaccia è una shell. Per usare i modelli come si usa ChatGPT — con chat persistenti, condivisione tra utenti, allegati, RAG sui propri PDF, scelta del modello da un menu a tendina — serve un frontend. Open WebUI è il progetto open source più maturo: l'interfaccia è praticamente identica a quella di OpenAI, gira sul tuo computer, supporta multi-utente e si autoaggiorna. In questa guida lo installiamo passo passo, lo colleghiamo a Ollama e configuriamo RAG, ricerca web e accesso da qualunque dispositivo della rete di casa.

A chi serve, cosa otterrai, prerequisiti

Serve a chi vuole tre cose: usare i modelli AI senza far uscire i propri dati dal computer (avvocati, medici, freelance con NDA, scuole, PA), avere una sola interfaccia per più modelli (Llama, Qwen, Mistral, DeepSeek, ma anche Claude o GPT-5 se si vuole tenere unito tutto in un'unica chat history), creare un \"ChatGPT condiviso\" in casa o in ufficio con account separati per ogni utente.

Cosa otterrai a fine guida: una pagina web a http://localhost:3000 (o sul tuo IP locale, accessibile da tutti i dispositivi della rete) con login, chat multi-conversazione, scelta del modello, upload di PDF/Word/immagini, RAG con citazioni delle fonti, ricerca web opzionale e voce. Prerequisiti minimi: macOS 12+, Windows 10+ o Ubuntu 22.04+; 16 GB di RAM (32 consigliati); una GPU non è obbligatoria ma utile (qualunque scheda da 8 GB di VRAM rende l'esperienza fluida); 20 GB di disco liberi per i primi modelli; Docker Desktop installato (sezione 3) — oppure Python 3.11 se preferisci l'install nativo.

1) Installa Ollama

Ollama si scarica da ollama.com. Su macOS: pacchetto .dmg. Su Windows: installer .exe. Su Linux:

curl -fsSL https://ollama.com/install.sh | sh

Verifica che sia in funzione: nel terminale digita ollama --version. Per scaricare un primo modello, parti dal modello più leggero pubblicato da OpenAI (sì, OpenAI ha rilasciato due modelli aperti a 2025):

ollama pull gpt-oss:20b

In alternativa, se hai 8 GB di RAM e poca pazienza:

ollama pull qwen3:8b
ollama pull llama3.2:3b

Lascia che Ollama scarichi (5-25 GB a modello). Test rapido:

ollama run qwen3:8b "Saluta in italiano e dimmi che modello sei."

2) Installa Docker (se non ce l'hai)

Open WebUI gira meglio in container. Vai su docker.com e installa Docker Desktop. Su Linux server, va benissimo anche solo docker-ce via repository ufficiale. Verifica con docker --version.

3) Avvia Open WebUI in un comando

Apri il terminale e dai:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  --name open-webui --restart always \
  ghcr.io/open-webui/open-webui:main

Tre cose importanti in questo comando: --add-host=host.docker.internal:host-gateway permette al container di vedere Ollama in esecuzione sul tuo PC; -v open-webui:/app/backend/data persiste chat e impostazioni in un volume Docker (se rilanci il container non perdi nulla); OLLAMA_BASE_URL dice a Open WebUI dove cercare Ollama.

4) Primo accesso

Apri il browser su http://localhost:3000. La prima volta crei l'account amministratore con email e password. Importante: il primo utente registrato diventa admin; ogni utente successivo è in stato \"pending\" finché tu non lo approvi nelle impostazioni.

Una volta dentro vedrai la tendina dei modelli in alto. Se hai installato qwen3:8b apparirà nel menu. Apri una nuova chat e prova:

Scrivi in italiano una breve poesia sul Mediterraneo che faccia rima e contenga le parole \"sale\", \"vento\" e \"silenzio\".

Open WebUI fornisce l'interfaccia stile ChatGPT a un'istanza Ollama in locale.

5) Configura RAG sui tuoi PDF

RAG (Retrieval Augmented Generation) significa caricare documenti e farsi rispondere dal modello citando quei documenti. Open WebUI lo fa nativamente. In Impostazioni → Documenti, aggiungi una collezione, per esempio \"Contratti 2026\", e fai drag-and-drop dei PDF (anche scansioni con OCR, se installi anche tesseract). Il sistema usa di default il bge-large embedding tramite Ollama: per attivarlo:

ollama pull bge-large

Poi in Impostazioni → Documenti → \"Embedding Model\" seleziona bge-large. Pronto: nella chat, clicca la graffetta, scegli la collezione, e fai una domanda come:

Nei contratti del 2026 caricati, quali clausole di esclusiva durano più di 12 mesi? Cita testualmente.

Il modello risponderà citando il file e la pagina. Funziona offline.

6) Aggiungi la ricerca web (facoltativo)

Se vuoi che il modello possa navigare in tempo reale, in Impostazioni → Strumenti → Web Search abilita uno dei provider supportati. Le opzioni gratuite più semplici sono SearXNG (self-hosted: un altro container Docker, occorre il tuo dominio o l'IP) e DuckDuckGo via API non ufficiale (funziona ma con rate limit). Open WebUI passa al modello i risultati e gestisce la citazione.

7) Apri il servizio agli altri dispositivi di casa

Per accedere a Open WebUI da tablet, smartphone, secondo PC, basta usare l'IP del computer dove gira. Su macOS lo trovi in Impostazioni di Sistema → Rete; su Windows con ipconfig; su Linux con ip addr. Se l'IP è 192.168.1.42, da qualunque dispositivo della stessa rete punta a http://192.168.1.42:3000 e fai login. Per esporlo all'esterno casa tua usa Tailscale (gratis per uso personale fino a 100 dispositivi): installa il client sul PC e sul telefono, accedi tramite il magic DNS Tailscale, lasci il servizio dietro VPN senza aprire porte sul router.

8) Modelli consigliati e configurazione GPU

Tre consigli pratici. Per uso generico in italiano: qwen3:14b (8,5 GB) è oggi il miglior modello aperto fra i 7-15 miliardi di parametri per la nostra lingua. Per code: qwen2.5-coder:14b o deepseek-coder-v2:16b se hai 16+ GB di VRAM. Per RAG su documenti tecnici: llama3.3:70b se hai una scheda da 48+ GB, altrimenti gpt-oss:20b che gira bene su 24 GB.

Se Ollama non vede la tua GPU: su Windows verifica i driver NVIDIA aggiornati e che nvidia-smi funzioni dal prompt. Su Linux installa il nvidia-container-toolkit. Su macOS Apple Silicon non serve niente di particolare, ma controlla che Ollama usi Metal: OLLAMA_LOG=debug ollama serve e cerca \"metal\" nei log.

Errori comuni e soluzioni

\"Connection refused\" o nessun modello nel menù → Ollama non gira o non è raggiungibile dal container. Su Linux può servire OLLAMA_HOST=0.0.0.0:11434 ollama serve per far ascoltare Ollama su tutte le interfacce.
Risposte lentissime → il modello sta girando in CPU. Verifica che la GPU sia rilevata: con NVIDIA dovresti vedere il processo in nvidia-smi.
\"Document indexing failed\" → manca il modello embedding. Esegui ollama pull bge-large.
Su Windows il container non vede Ollama → metti OLLAMA_BASE_URL=http://host.docker.internal:11434 esplicitamente; su Linux usa l'IP dell'host (172.17.0.1 di solito).

Alternative e quando NON usarlo

Open WebUI è la prima scelta per la maggior parte dei casi consumer e PMI. Le alternative valide sono: LibreChat (più orientato a chiamate API multi-provider, meno semplice come ambiente per modelli locali), LM Studio (no auth, no multi-utente, ma il setup è zero-click su macOS e Windows), AnythingLLM (più focus su RAG, meno funzioni chat). Quando NON usare Open WebUI: se l'obiettivo è solo \"provo un modello al volo\" — meglio ollama run nel terminale; se vuoi fornire un servizio a centinaia di utenti — meglio piattaforme commerciali come LM Studio Server o vLLM con un proxy dedicato. Una volta installato, l'aggiornamento è semplice: docker pull ghcr.io/open-webui/open-webui:main seguito da docker stop open-webui && docker rm open-webui e rilancio del comando della sezione 3 (le tue chat sono nel volume, non si perdono).

Open WebUI con Ollama: la tua ChatGPT privata in casa, in 15 minuti

A chi serve, cosa otterrai, prerequisiti

1) Installa Ollama

2) Installa Docker (se non ce l'hai)

3) Avvia Open WebUI in un comando

4) Primo accesso

5) Configura RAG sui tuoi PDF

6) Aggiungi la ricerca web (facoltativo)

7) Apri il servizio agli altri dispositivi di casa

8) Modelli consigliati e configurazione GPU

Errori comuni e soluzioni

Alternative e quando NON usarlo

Fonti

Andrea Bertolotti

📬 Newsletter di AI Notizie

Continua a leggere

LangGraph 1.1: costruire agenti AI multi-step in Python con stato e human-in-the-loop

Costruire un server MCP per Claude in Python: tutorial completo

DeepSeek V4 in pratica: come usarlo gratis nel browser, via API e in locale

Generare musica con l'IA gratis: guida pratica a Suno e Udio nel 2026