LM Studio: guida a eseguire LLM in locale gratis (2026)

Usare l'intelligenza artificiale senza mandare i propri dati a un server remoto, senza pagare un abbonamento e anche senza connessione a Internet: è possibile, e nel 2026 è più facile di quanto sembri. LM Studio è un'applicazione gratuita che scarica ed esegue modelli linguistici open direttamente sul tuo computer, con un'interfaccia grafica pulita e, per chi sviluppa, un server API compatibile con quello di OpenAI.

In questa guida vedremo come installarlo, scaricare il primo modello, chattarci e poi — per chi vuole spingersi oltre — avviare il server locale e collegarlo al proprio codice Python. È un tutorial adatto sia a chi non ha mai usato modelli in locale, sia a chi vuole integrarli in un'applicazione.

A chi serve e cosa ti serve davvero

LM Studio è utile a chi vuole: privacy totale (i dati non escono dal computer), nessun costo per token, possibilità di lavorare offline, e libertà di provare decine di modelli open (Llama, Qwen, Mistral, Gemma, DeepSeek, Phi). Prerequisiti:

Sistema operativo: Windows 10/11, macOS 14+ (solo Apple Silicon, cioè chip M1 o successivi) oppure Linux.
Memoria: almeno 8 GB di RAM per i modelli più piccoli; 16 GB sono consigliati, 32 GB o più per i modelli grandi. Una scheda video con VRAM dedicata accelera molto, ma su Mac con Apple Silicon la memoria è unificata e l'app sfrutta il backend MLX, spesso più veloce.
Spazio su disco: ogni modello pesa da circa 1-2 GB (versioni piccole e «quantizzate») fino a decine di GB.

La buona notizia, come spiega la documentazione su lmstudio.ai, è che prima di scaricare un modello l'app ti mostra una stima di RAM/VRAM richiesta, evitandoti di scaricare qualcosa che il tuo hardware non riesce a far girare.

Passo 1: installare LM Studio

Vai su lmstudio.ai e scarica l'installer per il tuo sistema operativo.
Installa ed esegui l'app come un qualsiasi programma. Al primo avvio LM Studio può proporti un modello di partenza: puoi accettarlo o saltare e scegliere tu.

LM Studio offre un'interfaccia grafica per scaricare e usare modelli IA in locale.

Passo 2: scaricare il primo modello

Apri la scheda Discover (la lente d'ingrandimento): è un catalogo collegato a Hugging Face.
Cerca un modello adatto al tuo hardware. Per iniziare con poche risorse, prova un modello da 3-4 miliardi di parametri in versione quantizzata (per esempio una variante Qwen o Llama di piccola taglia, formato GGUF, quantizzazione Q4). Pesano pochi GB e girano anche su portatili modesti.
Controlla la stima di memoria che l'app mostra accanto a ogni file e fai clic su Download.

Consiglio pratico: la sigla «Q4_K_M» o simili indica la quantizzazione, cioè quanto il modello è stato compresso. Più il numero è basso, meno memoria serve ma minore è la qualità; Q4 è un buon compromesso per iniziare.

Passo 3: chattare con il modello

Vai nella scheda Chat e seleziona in alto il modello scaricato: l'app lo carica in memoria.
Scrivi un messaggio e premi invio. La prima risposta può richiedere qualche secondo per il caricamento; le successive saranno più rapide.

Prompt di prova da incollare:

Sei un assistente in italiano. Riassumi in 3 punti i vantaggi di eseguire
un modello di IA in locale invece che nel cloud.

Risultato atteso: una risposta in italiano con tre punti (privacy, nessun costo per token, funzionamento offline). Puoi anche allegare un documento PDF o TXT alla chat: LM Studio supporta una forma di lettura dei documenti (RAG) per fare domande sul loro contenuto.

Passo 4 (avanzato): attivare il server API locale

Qui LM Studio diventa interessante per gli sviluppatori. L'app può esporre un server compatibile con le API di OpenAI: questo significa che qualsiasi programma scritto per OpenAI funziona cambiando solo l'indirizzo del server.

Apri la scheda Developer (o «Local Server») e fai clic su Start Server. Per impostazione predefinita il server gira su http://localhost:1234.
Assicurati che un modello sia caricato.
Prova subito una chiamata dal terminale:

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "local-model",
    "messages": [{"role": "user", "content": "Ciao, in che lingua rispondi?"}]
  }'

Se ricevi una risposta JSON con il testo del modello, il server funziona. Ora puoi usarlo dal codice Python riutilizzando la libreria ufficiale di OpenAI e cambiando solo base_url:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

resp = client.chat.completions.create(
    model="local-model",
    messages=[{"role": "user", "content": "Scrivi una poesia di 4 versi sul mare."}],
)
print(resp.choices[0].message.content)

La chiave API qui è un valore fittizio: il server gira in locale e non richiede un account. Come documentato nella guida ufficiale alla compatibilità OpenAI, sono supportati gli endpoint principali per chat ed embedding. Esiste anche una CLI, lms, per gestire i modelli da terminale.

Il server locale di LM Studio è compatibile con le API di OpenAI: basta cambiare l'indirizzo.

Errori comuni e come risolverli

«Il modello è troppo lento o il computer si blocca»: hai scelto un modello troppo grande. Scarica una versione con meno parametri o una quantizzazione più aggressiva (Q4 invece di Q8).
«Out of memory» al caricamento: riduci la lunghezza del contesto nelle impostazioni del modello, chiudi altre app, o passa a un modello più piccolo.
La chiamata curl non risponde: verifica di aver premuto «Start Server», che un modello sia caricato e che la porta sia 1234 (oppure aggiorna l'indirizzo di conseguenza).
Risposte di bassa qualità: i modelli piccoli sbagliano più spesso. Per compiti complessi sali di taglia, se l'hardware lo consente.

LM Studio o Ollama? E quando NON usarlo

LM Studio è la scelta migliore se vuoi un'interfaccia grafica e un'esperienza «clicca e usa». Ollama è più orientato alla riga di comando e si integra bene negli script e nei server. I due strumenti non si escludono: molti usano LM Studio per esplorare i modelli e Ollama per i deployment automatizzati.

Quando NON conviene il locale? Quando ti servono le massime prestazioni dei modelli di frontiera (GPT-5, Claude Opus, Gemini), che restano nel cloud, o quando il tuo computer è troppo modesto: in quei casi le API a pagamento offrono qualità superiore. Ma per privacy, sperimentazione, prototipi e uso quotidiano leggero, far girare l'IA in casa è ormai una possibilità reale e gratuita. Da qui puoi proseguire collegando LM Studio a strumenti come editor di codice, sistemi RAG sui tuoi documenti o piccoli agenti locali.