Far girare un modello di intelligenza artificiale sul proprio computer, senza inviare nulla al cloud, e oggi alla portata di chiunque abbia un PC recente. Lo strumento piu semplice per farlo si chiama LM Studio: un'applicazione gratuita con interfaccia grafica che scarica, gestisce ed esegue modelli linguistici in locale, e che all'occorrenza si trasforma in un vero server API compatibile con quello di OpenAI. In questa guida vediamo come installarlo, quale modello scegliere e come usarlo sia dalla chat sia dal codice.
A chi serve e cosa otterrai
Questa guida e pensata per chi vuole privacy totale (i dati non lasciano il computer), per chi lavora offline o con documenti riservati, per sviluppatori che vogliono prototipare senza pagare le API e per curiosi che vogliono capire come funzionano davvero i modelli. Al termine avrai: LM Studio installato, almeno un modello scaricato e funzionante in chat, e un endpoint API locale da richiamare con poche righe di Python.
Prerequisiti reali
- Sistema operativo: Windows, macOS (Apple Silicon, cioe chip M1 o successivi) o Linux.
- Memoria: e la risorsa che conta di piu. Con 8 GB di RAM puoi usare modelli piccoli (3-4 miliardi di parametri); con 16 GB sali a modelli da 7-9 miliardi; con 32 GB o piu, e soprattutto con una buona scheda video, arrivi a modelli da 14-32 miliardi.
- Scheda video (opzionale ma utile): una GPU NVIDIA con diversi GB di VRAM accelera molto la generazione. Sui Mac con Apple Silicon, la memoria unificata viene usata in modo efficiente e non serve una GPU dedicata.
- Spazio su disco: ogni modello occupa da 2 a oltre 20 GB. Tienine da parte un po'.
Quale modello scegliere (nomi reali)
LM Studio esegue modelli in formato GGUF (lo standard di llama.cpp, valido su tutti i sistemi) e, sui Mac Apple Silicon, anche in formato MLX, ottimizzato da Apple e tipicamente piu veloce del 30-50% sullo stesso hardware. Tra i modelli aperti piu validi a meta 2026:
- Qwen3 (Alibaba): ottimo tuttofare, eccellente in ragionamento e codice, disponibile in molte taglie.
- Llama (Meta) e Gemma (Google): solidi e ben supportati, buoni per uso generale.
- gpt-oss (OpenAI): la linea aperta di OpenAI, valida per ragionamento.
- DeepSeek e le sue versioni distillate: forti su matematica e logica.
Un concetto chiave e la quantizzazione: i modelli vengono compressi per occupare meno memoria. Le sigle tipo Q4_K_M, Q5_K_M o Q8 indicano quanto sono compressi. La Q4_K_M e un ottimo compromesso tra qualita e leggerezza ed e quasi sempre il punto di partenza giusto. Piu il numero e alto, migliore e la qualita ma maggiore l'occupazione di memoria.
Procedimento passo passo
- Scarica e installa. Vai su lmstudio.ai, scarica la versione per il tuo sistema operativo e installala come una normale applicazione.
- Cerca un modello. Apri la scheda di ricerca (l'icona della lente): LM Studio integra un browser dei modelli di Hugging Face. Digita ad esempio Qwen3 e osserva le varianti. L'app ti segnala quali entrano comodamente nella memoria del tuo computer.
- Scegli la quantizzazione e scarica. Seleziona una variante
Q4_K_Mdi una taglia adatta alla tua RAM (ad esempio un 7-8B se hai 16 GB) e premi Download. - Carica il modello. Vai nella scheda Chat, seleziona in alto il modello scaricato e attendi il caricamento in memoria.
- Chatta. Scrivi il primo messaggio. Da subito puoi regolare i parametri nel pannello laterale: la temperature (creativita), la lunghezza massima della risposta e il system prompt, l'istruzione che definisce il comportamento del modello.
Un primo system prompt da provare, da incollare nelle impostazioni della chat:
"Sei un assistente che risponde in italiano, in modo conciso e accurato. Se non sei sicuro di un dato, dillo esplicitamente invece di inventarlo."
Attivare il server API locale (la parte avanzata)
Qui LM Studio diventa potente per gli sviluppatori. L'app puo esporre un server compatibile con le API di OpenAI sul tuo computer. Apri la scheda Developer nella barra laterale e attiva l'interruttore Start Server: per impostazione predefinita ascolta su http://localhost:1234.
A questo punto puoi usare la libreria ufficiale di OpenAI puntandola al tuo PC invece che al cloud. In Python:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="lm-studio" # qualsiasi stringa va bene in locale
)
resp = client.chat.completions.create(
model="local-model", # usa l'identificativo mostrato in LM Studio
messages=[
{"role": "system", "content": "Rispondi in italiano."},
{"role": "user", "content": "Scrivi una funzione Python che conta le parole in un file di testo."}
],
temperature=0.3
)
print(resp.choices[0].message.content)
Risultato atteso: una funzione Python pronta all'uso, generata interamente sul tuo computer, senza alcun costo e senza inviare il prompt a server esterni. Lo stesso endpoint funziona con qualunque strumento o libreria che parli il "linguaggio" delle API di OpenAI, comprese molte estensioni per editor di codice.
Dal terminale: la CLI lms e il daemon
Per chi preferisce la riga di comando, LM Studio offre la CLI lms e un daemon senza interfaccia grafica, comodo su server o in pipeline di automazione. Alcuni comandi utili:
# elenca i modelli scaricati
lms ls
# avvia il server locale dal terminale
lms server start
# mostra lo stato del server
lms server status
Questo permette di usare i modelli locali anche su una macchina senza schermo, ad esempio un mini-PC dedicato all'IA in casa o in ufficio.
Funzioni extra: chat con i documenti e MCP
LM Studio include la chat con i documenti (un RAG di base): puoi allegare un PDF o un file di testo e fare domande sul suo contenuto, sempre in locale. Inoltre supporta il Model Context Protocol (MCP): nel pannello Developer puoi configurare server MCP (filesystem, ricerca web, database) per dare al modello l'accesso a strumenti esterni, trasformandolo di fatto in un piccolo agente.
Errori comuni e soluzioni
- "Failed to load model" / l'app si blocca al caricamento: il modello e troppo grande per la tua memoria. Scarica una taglia inferiore o una quantizzazione piu leggera (da Q5 a Q4).
- Generazione lentissima: stai usando solo la CPU. Verifica che, se hai una GPU, sia attivo lo scarico dei layer sulla scheda video (impostazione "GPU offload") e aumentane il valore.
- Il codice non si connette al server: controlla che il server sia avviato (scheda Developer), che la porta sia
1234e che l'URL termini con/v1. - Risposte tagliate: aumenta il limite di token in uscita e la lunghezza del contesto nelle impostazioni del modello.
Varianti, alternative e quando NON usarlo
LM Studio e la scelta migliore se vuoi un'interfaccia grafica curata e un server pronto in un clic. Se preferisci un approccio totalmente da terminale, l'alternativa naturale e Ollama, piu minimale e amatissimo dagli sviluppatori; un'altra opzione open e Jan. Tutte e tre eseguono gli stessi modelli GGUF.
Quando NON conviene il locale? Se ti serve la massima qualita assoluta su compiti complessi, i modelli di frontiera nel cloud (Claude, GPT, Gemini) restano avanti rispetto a quelli che puoi eseguire su un PC normale. E se devi elaborare grandi volumi con tempi rapidi, l'hardware domestico diventa un collo di bottiglia. Il locale brilla invece per privacy, costi azzerati, uso offline e sperimentazione libera. Il consiglio pratico: parti con un modello da 7-8B in Q4_K_M, prendi confidenza con la chat e il server, e sali di taglia solo quando senti il bisogno di piu qualita.




