Tra i modelli aperti piu' forti in circolazione c'e' un nome che in Italia si sente ancora poco: GLM-5.1, rilasciato da Z.ai (l'azienda cinese ex Zhipu AI, nata come spin-off dell'universita' Tsinghua). E' un modello a pesi aperti con licenza permissiva MIT, pubblicato su Hugging Face, che si e' issato in cima alle classifiche per la programmazione, superando di poco anche modelli chiusi di OpenAI e Anthropic su alcuni benchmark.
Perche' se ne parla: e' bravo a programmare
Il dato che ha fatto rumore riguarda SWE-Bench Pro, una prova che misura quanto un modello sa risolvere problemi reali di ingegneria del software. GLM-5.1 ha ottenuto un punteggio di 58,4, superando di un soffio GPT-5.4 (57,7) e Claude Opus 4.6 (57,3). Si tratta di un'architettura Mixture-of-Experts con oltre 700 miliardi di parametri totali, progettata per portare avanti in autonomia l'intero ciclo "pianifica, scrivi, testa, correggi, ottimizza" su compiti di codice lunghi e complessi. Essendo aperto e con licenza MIT, puo' essere scaricato, modificato e usato anche a fini commerciali senza royalty.
Come provarlo senza installare nulla
Il modo piu' rapido e' usarlo dalla chat ufficiale: su chat.z.ai e' possibile dialogare con GLM-5.1 gratuitamente, con i limiti tipici dei piani free. Per chi sviluppa, Z.ai offre anche un accesso via API a pagamento, comodo per integrarlo in un'app o in un editor di codice senza gestire l'infrastruttura.
Come scaricarlo ed eseguirlo in locale
Attenzione: e' un modello enorme, la versione completa richiede hardware da data center (decine di GB di memoria video). La via realistica per un PC potente e' una versione quantizzata in formato GGUF, piu' leggera. Con Ollama installato, e disponibilita' di una community build, il flusso e' del tipo:
# scaricare i pesi quantizzati (GGUF) dalla community
huggingface-cli download unsloth/GLM-5.1-GGUF --include "*Q4*"
# in alternativa, eseguirlo con llama.cpp puntando al file GGUF scaricato
./llama-cli -m GLM-5.1-Q4_K_M.gguf -p "Scrivi una funzione Python che valida un IBAN"
Per la maggior parte degli utenti, pero', ha piu' senso usare la chat ufficiale o l'API: l'esecuzione locale di un modello di queste dimensioni e' un esercizio da appassionati con hardware adeguato (o piu' GPU). Esistono anche versioni ottimizzate, come la variante FP8 e una build NVFP4 curata da NVIDIA, pensate per ridurre i requisiti su schede recenti.
Un prompt di prova e cosa aspettarsi
Hai un bug: questa funzione Python va in errore con liste vuote.
Trova la causa, correggila e aggiungi due test.
def media(lista):
return sum(lista) / len(lista)
Un modello come GLM-5.1 individua la divisione per zero quando la lista e' vuota, propone un controllo esplicito (sollevando un'eccezione o restituendo un valore di default) e aggiunge un paio di test con assert. E' il tipo di compito "da programmatore" su cui questi modelli aperti sono ormai competitivi con i migliori sistemi commerciali, a costo potenzialmente molto piu' basso.
Quando ha senso sceglierlo
GLM-5.1 e' interessante soprattutto per chi vuole un modello forte sul codice senza dipendere da un singolo fornitore chiuso, o per aziende che, grazie alla licenza MIT, vogliono ospitarlo sui propri server per ragioni di costo o riservatezza dei dati. Per l'uso quotidiano in chat resta piu' comodo affidarsi alla versione ospitata; ma il fatto che un modello aperto competa testa a testa con i big chiusi e' la vera notizia, e conferma quanto velocemente i laboratori cinesi stiano colmando il divario.




