Far girare un modello di intelligenza artificiale sul proprio computer, senza connessione e senza pagare un abbonamento, è oggi alla portata di chiunque — anche di chi non ha mai aperto un terminale. LM Studio è l'applicazione che lo rende possibile con un'interfaccia grafica: scarichi un modello con un clic, ci chatti come faresti con ChatGPT e, se vuoi, lo trasformi in un server locale a cui collegare i tuoi programmi. Questa guida ti accompagna dall'installazione all'uso avanzato, con i criteri per scegliere il modello giusto per il tuo hardware.

A chi serve e perché usarlo

LM Studio è perfetto per chi vuole privacy (i dati non escono dal computer), per chi lavora offline, per chi vuole sperimentare con i modelli aperti senza costi a consumo, e per gli sviluppatori che vogliono un endpoint locale compatibile con le API di OpenAI. Rispetto a strumenti da riga di comando come Ollama, il suo punto di forza è l'interfaccia grafica: niente comandi da memorizzare. Alla fine saprai scaricare e usare un LLM in locale, regolarne i parametri e collegarlo a un tuo script Python.

Prerequisiti reali: quanto hardware serve

LM Studio gira su Windows, macOS (Apple Silicon) e Linux. Il fattore decisivo è la memoria:

  • 8 GB di RAM: il minimo per modelli piccoli (3-4 miliardi di parametri, molto quantizzati). Funziona, ma lento.
  • 16 GB di RAM (o Mac M-series con 16 GB): puoi usare comodamente modelli da 7-8 miliardi di parametri. È il punto di partenza consigliato.
  • 32 GB o più, o una GPU dedicata con 12-24 GB di VRAM: modelli da 14-32 miliardi di parametri con buone prestazioni.

Una GPU NVIDIA o un Mac Apple Silicon accelerano molto la generazione; senza, si usa la CPU ed è più lento ma funziona.

La memoria disponibile (RAM o VRAM) decide quali modelli puoi far girare in locale.

Passo 1: scarica e installa LM Studio

Vai su lmstudio.ai, scarica la versione per il tuo sistema operativo e installa l'applicazione come faresti con qualsiasi altro programma. Al primo avvio ti accoglie una schermata con una barra di ricerca dei modelli e una sezione chat.

Passo 2: scarica il tuo primo modello

Apri la sezione di ricerca (l'icona della lente o «Discover») e cerca un modello adatto. Per iniziare, scelte solide sono Llama 3.1 8B, Qwen 2.5 7B o un modello «instruct» recente di dimensioni simili. Vedrai più varianti dello stesso modello: sono le quantizzazioni, cioè versioni compresse che riducono la memoria necessaria al prezzo di una piccola perdita di qualità. La sigla da cercare per un buon equilibrio è Q4_K_M: comprime molto mantenendo buona qualità. Evita le versioni non quantizzate (F16) a meno di avere molta memoria. LM Studio in genere segnala se un modello «entra» nella tua RAM: fidati di quell'indicazione.

Passo 3: carica il modello e chatta

Una volta scaricato, vai nella sezione chat, seleziona il modello in alto e attendi il caricamento in memoria. Ora puoi scrivere come in una normale chat. Prova un prompt di verifica:

Scrivi una email formale in italiano per chiedere un rinvio di una scadenza di tre giorni, motivandolo con un imprevisto tecnico. Massimo 120 parole.

Il risultato atteso è una email ben formattata in pochi secondi (la velocità dipende dal tuo hardware). Se la risposta è lenta o il computer arranca, hai scelto un modello troppo grande: torna al passo 2 e prendine uno più piccolo o più quantizzato.

Passo 4: regola i parametri che contano

Nelle impostazioni della chat trovi alcune leve utili:

  • Context Length: quanti token il modello «ricorda». Più alto consuma più memoria. Per chat brevi vanno bene 4.000-8.000 token.
  • GPU Offload: quanti «strati» del modello spostare sulla GPU. Se hai una scheda video, alzalo per andare più veloce; se vai in errore di memoria, abbassalo.
  • Temperature: la creatività. Bassa (0,2-0,4) per risposte precise, alta (0,8-1,0) per testi creativi.
  • System Prompt: imposta il ruolo, come negli assistenti commerciali.
Una volta caricato il modello, l'interazione e' identica a quella di un chatbot online.

Passo 5: usa LM Studio come server locale (per sviluppatori)

Qui sta la parte avanzata. LM Studio può esporre un server compatibile con le API di OpenAI: significa che il codice scritto per ChatGPT funziona, cambiando solo l'indirizzo. Vai nella scheda «Developer» (o «Local Server»), avvia il server: di norma ascolta su http://localhost:1234/v1. Prova con curl:

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "modello-locale",
    "messages": [{"role": "user", "content": "Dimmi una curiosita sullo spazio."}]
  }'

Oppure da Python, riusando la libreria di OpenAI:

pip install openai
from openai import OpenAI

client = OpenAI(base_url="http://localhost:1234/v1", api_key="non-serve")

resp = client.chat.completions.create(
    model="modello-locale",
    messages=[{"role": "user", "content": "Riassumi in 3 righe la fotosintesi."}],
)
print(resp.choices[0].message.content)

Il risultato atteso è una risposta generata interamente dal tuo computer, senza alcuna chiamata a internet. È il modo per costruire app private o per non pagare le API durante lo sviluppo.

Errori comuni e soluzioni

  • «Failed to load model» / out of memory: il modello è troppo grande per la tua RAM/VRAM. Scegli una quantizzazione più spinta (Q4 invece di Q6) o un modello più piccolo.
  • Generazione lentissima: stai girando solo su CPU. Alza il GPU Offload se hai una scheda video, o accetta che senza GPU la velocità è limitata.
  • Il server non risponde: verifica di aver premuto «Start» nel pannello Developer e che la porta 1234 non sia occupata da un altro programma.
  • Risposte incoerenti o ripetitive: abbassa la temperatura e controlla di usare la versione «instruct» del modello, non quella base.

Alternative e quando non usarlo

LM Studio non è l'unica strada. Ollama è preferibile se ami la riga di comando e vuoi automatizzare; Jan è un'altra app grafica open source. La regola: se ti serve un'interfaccia semplice, LM Studio è il punto di partenza ideale. Non è la scelta giusta quando ti serve la massima qualità assoluta (i modelli locali piccoli restano sotto a GPT-5 o Claude Opus), quando devi elaborare contesti enormi, o quando non hai hardware adeguato: in quei casi le API cloud restano più convenienti. Per provare modelli aperti diversi puoi cercarli su Hugging Face, mentre la documentazione di LM Studio spiega le funzioni più recenti. Un buon prossimo passo è collegare il server locale a un sistema RAG sui tuoi documenti, per avere un assistente privato che conosce i tuoi file.