Xiaomi apre MiMo-V2.5: il modello open MIT da 1.000B

Xiaomi ha reso completamente open la famiglia di modelli linguistici MiMo-V2.5, pubblicando pesi, tokenizer e schede tecniche su Hugging Face con licenza MIT — una delle più permissive: si può scaricare, modificare, ri-addestrare e usare anche commercialmente senza vincoli. Il rilascio è arrivato a fine aprile 2026 e nelle settimane successive i modelli sono comparsi su diversi provider di inferenza, rendendoli più facili da provare senza hardware proprio.

Due modelli: MiMo-V2.5 e MiMo-V2.5-Pro

La famiglia comprende due varianti, entrambe ad architettura «mixture of experts» (solo una parte dei parametri si attiva per token, riducendo il costo di calcolo):

MiMo-V2.5: circa 310 miliardi di parametri totali, ~15 miliardi attivi; modello nativamente omnimodale (testo, immagini, video, audio in un'unica architettura) costruito sul backbone MiMo-V2-Flash, con encoder dedicati per visione e audio e finestra di contesto fino a 1 milione di token. È pensato per essere efficiente e capace anche su compiti «agentici».
MiMo-V2.5-Pro: circa 1.020 miliardi di parametri totali (~42 miliardi attivi), orientato a compiti complessi di ingegneria del software, ragionamento e attività «a lungo orizzonte»; addestrato con una pipeline che include distillazione multi-insegnante on-policy e scaling progressivo del contesto fino a 1 milione di token. Si può servire con stack come vLLM e SGLang.

Nelle valutazioni indipendenti i due modelli si sono fatti notare soprattutto per il rapporto qualità/costo sui compiti agentici, posizionandosi tra le opzioni open più efficienti del momento, in competizione con altri grandi modelli aperti cinesi come Kimi K2.6, GLM-5.1 e DeepSeek V4.

Grattacieli di una città tecnologica cinese, dove si concentra lo sviluppo di modelli open weight — I grandi modelli open cinesi puntano su contesto lungo, capacità agentiche e prezzi bassi.

Come provarlo

Va detto subito: questi modelli non girano su un PC normale. Anche la variante «piccola» da 310B richiede più GPU di fascia data center; la Pro da oltre mille miliardi di parametri ancora di più. Per chi ha l'infrastruttura, i pesi sono su Hugging Face sotto l'organizzazione XiaomiMiMo (XiaomiMiMo/MiMo-V2.5 e XiaomiMiMo/MiMo-V2.5-Pro) e si servono con vLLM o SGLang. Per scaricarli:

pip install -U "huggingface_hub[cli]"
huggingface-cli download XiaomiMiMo/MiMo-V2.5-Pro --local-dir ./mimo-v2.5-pro

Per la maggior parte delle persone la via pratica è un'altra: usarli tramite API. Le strade principali sono due.

Piattaforma ufficiale Xiaomi MiMo (platform.xiaomimimo.com): API a pagamento, con un piano d'ingresso che mette a disposizione una quota gratuita di token per provare.
Provider terzi di inferenza (ad esempio quelli che listano MiMo-V2.5): prezzi indicativi nell'ordine di pochi decimi di dollaro per milione di token in input e qualche dollaro in output per la variante base, leggermente di più per la Pro — ma i listini cambiano spesso, conviene verificarli al momento.

Esempio di chiamata tramite un endpoint compatibile con l'API OpenAI (sostituire URL, chiave e nome del modello con quelli del provider scelto):

from openai import OpenAI
client = OpenAI(base_url="https://API-DEL-PROVIDER/v1", api_key="LA_TUA_CHIAVE")
r = client.chat.completions.create(
    model="MiMo-V2.5-Pro",
    messages=[{"role":"user","content":"Spiega in 5 punti come funziona un'architettura mixture-of-experts."}]
)
print(r.choices[0].message.content)

Risultato atteso: una risposta in italiano, ordinata in cinque punti, che descrive il routing verso un sottoinsieme di «esperti», il vantaggio in termini di costo di calcolo a parità di parametri, i limiti (sbilanciamento del carico, complessità di addestramento).

A chi conviene e a chi no

MiMo-V2.5 interessa soprattutto chi costruisce prodotti e cerca un modello aperto, con contesto lungo e licenza pulita, da auto-ospitare per ragioni di costo, controllo dei dati o personalizzazione — o da usare via provider quando i conti tornano meglio di OpenAI, Anthropic e Google. Non è pensato per l'uso in locale dell'utente comune: per quello restano i modelli più piccoli (7-14 miliardi di parametri) con Ollama o LM Studio. Da valutare, come per gli altri modelli cinesi, i temi di filtro dei contenuti e di conformità a seconda del contesto in cui lo si impiega.