Far girare un modello di intelligenza artificiale sul proprio computer, senza inviare nulla al cloud e senza pagare chiavi API, e' oggi alla portata di chiunque. Lo strumento piu' semplice per farlo e' LM Studio: un'applicazione gratuita con interfaccia grafica che scarica i modelli, li fa chattare in locale e all'occorrenza espone un server API compatibile con OpenAI. Questa guida ti porta dall'installazione fino a integrare il modello in un tuo script.

A chi serve e cosa ti serve (hardware compreso)

E' utile a chi vuole privacy totale (dati sensibili, documenti riservati), a chi lavora offline o vuole evitare i costi delle API, e a chi sviluppa e vuole un endpoint locale per i test. Requisiti: Windows, macOS (Apple Silicon consigliato) o Linux. La regola pratica sulla memoria: un modello da 7-8 miliardi di parametri quantizzato a 4 bit gira bene con circa 8 GB di RAM/VRAM; uno da 13-14 miliardi ne chiede circa 16; i modelli da 30B in su richiedono 24 GB o piu'. Sui Mac con chip Apple la memoria unificata viene sfruttata molto bene.

LM Studio o Ollama? Quale scegliere

Sono i due strumenti piu' diffusi e si completano. LM Studio e' la scelta migliore se vuoi partire subito: interfaccia grafica, catalogo di modelli integrato, gestione visiva della quantizzazione e del caricamento su GPU. Ollama e' piu' adatto a chi ama la riga di comando e vuole automatizzare (si integra benissimo in script e in strumenti come n8n). Esistono anche Jan e GPT4All, simili a LM Studio. Per questa guida usiamo LM Studio perche' e' il modo piu' rapido per chi parte da zero e perche' offre comunque un server API per la parte avanzata.

Con LM Studio il modello gira interamente sul tuo computer, anche offline.

Passo 1: installare LM Studio e scaricare il primo modello

  1. Scarica l'app dal sito ufficiale lmstudio.ai e installala come un qualsiasi programma.
  2. Apri LM Studio e vai nella sezione di ricerca modelli (l'icona della lente).
  3. Cerca un modello adatto a iniziare, ad esempio Qwen2.5-7B-Instruct, Llama 3.1 8B Instruct o Gemma 2 9B. Sono i formati GGUF, quelli che LM Studio sa eseguire.
  4. Scegli una variante quantizzata: per la maggior parte dei casi Q4_K_M e' il miglior compromesso tra qualita' e leggerezza. Avvia il download.

Passo 2: chattare in locale e scegliere la quantizzazione giusta

Terminato il download, vai nella scheda Chat, seleziona il modello in alto e caricalo. Ora puoi scrivere come faresti con ChatGPT, ma tutto resta sul tuo computer. La quantizzazione e' la leva piu' importante per le prestazioni: ridurre la precisione dei pesi (da 16 bit a 4-5 bit) fa scendere drasticamente la memoria richiesta con una perdita di qualita' contenuta. Regola pratica: parti da Q4_K_M; se hai memoria abbondante e vuoi piu' qualita' passa a Q5_K_M o Q6_K; se sei al limite scendi a Q3. Nelle impostazioni di caricamento puoi anche aumentare i 'GPU layers' per spostare piu' calcolo sulla scheda grafica e guadagnare velocita'.

Un prompt utile per testare la qualita' del modello scaricato:

Sei un assistente che risponde solo in italiano. Riassumi questo testo in 5 punti elenco, poi proponi un titolo. [incolla qui un articolo di circa 600 parole]

Passo 3: attivare il server API compatibile con OpenAI

Qui LM Studio diventa interessante per chi sviluppa. Vai nella scheda Developer (o 'Local Server'), seleziona il modello e premi Start Server: di default ascolta su http://localhost:1234 esponendo endpoint nello stile OpenAI. Puoi interrogarlo con un semplice curl:

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "local-model",
    "messages": [{"role": "user", "content": "Scrivi una mail formale per disdire un abbonamento."}],
    "temperature": 0.7
  }'

Oppure dal client ufficiale di OpenAI in Python, semplicemente puntando al server locale (la chiave puo' essere qualsiasi stringa):

from openai import OpenAI

client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")
resp = client.chat.completions.create(
    model="local-model",
    messages=[{"role": "user", "content": "Elenca 3 idee per un post LinkedIn sul lavoro ibrido."}]
)
print(resp.choices[0].message.content)

Cosi' puoi sviluppare e testare app che 'parlano OpenAI' senza spendere un centesimo, e poi - se vorrai - cambiare solo il base URL per passare a un servizio cloud.

Errori comuni e come risolverli

  • Il modello non si carica / la app si chiude: e' quasi sempre memoria insufficiente. Scegli una quantizzazione piu' bassa (da Q5 a Q4 o Q3) o un modello piu' piccolo.
  • Risposte lentissime: aumenta i 'GPU layers' nelle impostazioni di caricamento; su CPU pura i modelli grandi sono inevitabilmente lenti.
  • Output incoerente o ripetitivo: abbassa la temperature (es. 0.3-0.5) e verifica di aver scelto la variante Instruct, non quella 'base'.
  • Il server non risponde: controlla che sia avviato e che porta 1234 non sia occupata; in caso, cambiala nelle impostazioni.

Varianti, alternative e quando non usarlo

Per casi avanzati puoi caricare modelli specializzati nel codice (es. varianti Coder) o modelli multimodali che leggono immagini, se la tua macchina regge. Se invece ti serve automazione da terminale o l'esecuzione su un server headless, valuta Ollama. E ricorda i limiti: un modello da 7-8B in locale non eguaglia GPT-5.5, Claude Opus o Gemini sui compiti piu' difficili. L'IA locale conviene per privacy, costo zero e disponibilita' offline; per il massimo della qualita' su compiti complessi i grandi modelli cloud restano avanti. La buona notizia e' che, grazie al server compatibile, puoi tenere entrambi e scegliere di volta in volta.

Tre cose utili da fare subito con un modello locale

Una volta che il modello gira, ecco tre usi concreti che ne ripagano l'installazione:

  1. Lavorare su testi riservati: contratti, referti, verbali, appunti aziendali. Poiche' nulla esce dal computer, puoi far riassumere o riscrivere documenti che non affideresti mai a un servizio cloud.
  2. Bozze e brainstorming offline: in treno o senza rete, un modello locale resta a disposizione per generare idee, email, scalette.
  3. Prototipare app: grazie al server compatibile con OpenAI puoi sviluppare e collaudare un'applicazione che usa un LLM senza consumare crediti a pagamento, e passare al cloud solo alla fine.

Un prompt di sistema ben scritto cambia molto la qualita': nelle impostazioni della chat puoi fissare istruzioni permanenti come 'Rispondi sempre in italiano, in modo conciso, e se non sei sicuro dillo esplicitamente'. Per documenti lunghi, verifica nella scheda di caricamento la lunghezza di contesto (context length): aumentarla permette al modello di tenere a mente piu' testo, ma consuma piu' memoria.

Gestire piu' modelli e aggiornarli

Con il tempo accumulerai diversi modelli: conviene fare un po' di ordine. In LM Studio puoi vedere lo spazio occupato e rimuovere quelli che non usi, perche' i file GGUF pesano da qualche gigabyte a parecchie decine. Una buona abitudine e' tenere due o tre modelli con ruoli diversi - uno piccolo e velocissimo per le risposte rapide, uno medio piu' capace per i compiti seri, ed eventualmente uno specializzato nel codice - e scegliere di volta in volta. I nuovi modelli escono di continuo: tornare ogni tanto nella sezione di ricerca e ordinare per data o per popolarita' e' il modo migliore per restare aggiornati senza inseguire ogni annuncio. Cosi' il tuo 'laboratorio di IA' personale resta leggero, privato e a costo zero.