Mentre la concorrenza si misura a colpi di benchmark generalisti, Moonshot AI ha scelto la specializzazione. Il 12 giugno 2026 il laboratorio cinese ha rilasciato Kimi K2.7-Code, un modello open-weight pensato specificamente per il coding agentico: non solo scrivere codice, ma pianificare, eseguire e correggere attraverso lunghe sequenze di passaggi, come fa un agente che lavora dentro un progetto reale.
Un colosso che attiva poco
K2.7-Code adotta un'architettura Mixture-of-Experts con 1.000 miliardi di parametri totali ma soli 32 miliardi attivi per token: la solita ricetta per avere enorme capacita' senza pagare un costo di inferenza proporzionale. Costruito a partire da Kimi K2.6, porta miglioramenti sostanziali sui compiti di coding "a lungo orizzonte" e - dettaglio importante per i costi - usa circa il 30% in meno di token di ragionamento rispetto al predecessore. Meno token bruciati per arrivare alla soluzione significa risposte piu' rapide e fatture piu' leggere.
Sui test interni, Moonshot dichiara un +21,8% su Kimi Code Bench v2, un +11,0% su Program Bench e un +31,5% su MLS Bench Lite rispetto alla versione precedente. Il modello e' distribuito su Hugging Face come moonshotai/Kimi-K2.7-Code con una licenza MIT modificata, ed e' disponibile anche tramite la piattaforma e le API ufficiali di Kimi.
Come usarlo via API
Il modo piu' immediato e' l'API di Moonshot, compatibile con il formato OpenAI. Ecco un esempio in Python che chiede al modello di correggere una funzione:
from openai import OpenAI
client = OpenAI(
api_key="LA_TUA_API_KEY",
base_url="https://api.moonshot.ai/v1",
)
prompt = """Questa funzione Python va in errore con liste vuote.
Correggila e spiega in una riga la causa.
def media(valori):
return sum(valori) / len(valori)"""
resp = client.chat.completions.create(
model="kimi-k2.7-code",
messages=[{"role": "user", "content": prompt}],
)
print(resp.choices[0].message.content)
Il risultato atteso e' una versione corretta che gestisce la lista vuota (per esempio restituendo 0 o sollevando un errore esplicito) piu' una breve spiegazione della divisione per zero. Lo stesso endpoint si integra con gli assistenti di coding da terminale e con gli editor che accettano un endpoint OpenAI-compatibile, sostituendo base_url e model.
Scaricarlo in locale: la prova dei 340 GB
L'etichetta "open" non deve ingannare sui requisiti. Un modello da mille miliardi di parametri, anche quantizzato, occupa centinaia di gigabyte: le stime parlano di circa 340 GB per le versioni piu' compresse, ben oltre la portata di un PC domestico. Il download dei pesi si fa cosi':
huggingface-cli download moonshotai/Kimi-K2.7-Code --local-dir ./kimi-k2-7-code
Per servirlo servono motori come vLLM o SGLang su hardware multi-GPU. Per chi non ha un piccolo datacenter sotto la scrivania, la via realistica e' l'API ufficiale o un provider che lo ospita. La funzione di dialogo sui contenuti video, segnala Moonshot, e' sperimentale e per ora supportata solo tramite l'API ufficiale.
A chi conviene
Kimi K2.7-Code e' interessante soprattutto per chi costruisce agenti di sviluppo - sistemi che leggono un repository, propongono modifiche, eseguono test e iterano - e vuole un modello aperto specializzato, con un occhio all'efficienza dei token. Per compiti generalisti o multimodali, modelli come MiniMax M3 o GLM-5.2 restano alternative valide. Ma se l'obiettivo e' un assistente di coding instancabile e a basso costo per token, vale la pena metterlo alla prova accanto ai modelli commerciali a cui siete abituati: il confronto, oggi, e' molto piu' serrato di quanto si pensi.




