MiniMax M3: open-weight con contesto da 1 milione token

Il 1° giugno 2026 la cinese MiniMax ha rilasciato MiniMax M3, presentandolo come il primo modello a pesi aperti a mettere insieme tre capacità di frontiera nello stesso sistema: programmazione di alto livello, contesto da un milione di token e multimodalità nativa (testo, immagini e video in ingresso). È una combinazione che finora si trovava solo nei modelli chiusi più costosi. Il modello è già utilizzabile via API, e l'azienda ha promesso di pubblicare pesi e relazione tecnica su Hugging Face e GitHub entro pochi giorni dal lancio.

Cosa rende speciale MiniMax M3

Il senso di M3 è togliere i compromessi. Di solito un modello aperto eccelle in una cosa — il codice, oppure il contesto lungo, oppure le immagini — ma non in tutte e tre. M3 punta a coprirle insieme: può ragionare su documenti enormi senza perdere il filo, scrivere e correggere codice, analizzare immagini e video e perfino, secondo MiniMax, pilotare un computer desktop come un agente. Per chi sviluppa applicazioni, significa poter usare un unico modello aperto là dove prima ne servivano diversi, con il vantaggio di poterlo, a breve, scaricare ed eseguire sulla propria infrastruttura.

M3 unisce coding, contesto lungo e multimodalita' in un solo modello aperto.

L'architettura Sparse Attention e la velocità sul contesto lungo

Il cuore tecnico è la MiniMax Sparse Attention (MSA), innestata su una base ad attenzione a gruppi (GQA). Tradotto: invece di far "guardare" il modello a tutto il testo a ogni passaggio — operazione costosissima quando il contesto è enorme — MSA seleziona a blocchi solo le parti rilevanti. Il risultato dichiarato è impressionante: a un milione di token, M3 sarebbe circa 15 volte più veloce nella decodifica e quasi 10 volte più veloce nella fase iniziale rispetto al modello precedente, M2. L'API garantisce un contesto minimo di 512.000 token, fino a un milione.

I benchmark dichiarati (e perché vanno presi con cautela)

Sui test, MiniMax rivendica risultati di vertice: 59% su SWE-bench Pro (un banco di prova sul codice del mondo reale), sopra il 58,6% attribuito a GPT-5.5; 83,5 su BrowseComp, davanti a Claude Opus 4.7; 63,7 su SVG-Bench. Sono numeri notevoli, ma vanno letti con prudenza: provengono dall'azienda stessa e, come ha notato TechTimes, non sono ancora stati verificati in modo indipendente. La pubblicazione imminente dei pesi aperti permetterà alla comunità di controllarli sul campo.

Come provarlo oggi: API, OpenRouter e i pesi in arrivo

Si può usare M3 in due modi. Subito, tramite l'API di MiniMax o aggregatori come OpenRouter e SiliconFlow. Più avanti — entro pochi giorni dal lancio — scaricando i pesi da Hugging Face per eseguirlo in locale o sul proprio cloud. Ecco un esempio di chiamata via OpenRouter in Python, che riusa il formato compatibile con le librerie OpenAI:

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="LA_TUA_API_KEY",
)

resp = client.chat.completions.create(
    model="minimax/minimax-m3",
    messages=[
        {"role": "user", "content": "Scrivi una funzione Python che legge un CSV e restituisce la media per colonna. Aggiungi gestione degli errori."}
    ],
)
print(resp.choices[0].message.content)

Il risultato atteso è una funzione commentata, con controllo dei file mancanti e delle colonne non numeriche. Con un costo dichiarato intorno a 0,60 dollari per milione di token in ingresso, M3 si colloca tra le opzioni più economiche per i carichi di lavoro intensi.

M3 si usa subito via API e OpenRouter; i pesi aperti arrivano su Hugging Face.

Costi e confronto con DeepSeek, Qwen e Kimi

M3 entra in un mercato dell'open source ormai affollatissimo, dominato proprio dai laboratori cinesi: DeepSeek con la serie V4, Alibaba con Qwen, Moonshot con Kimi, Zhipu con GLM. Il suo elemento distintivo è la combinazione di contesto lungo, multimodalità e coding in un solo pacchetto aperto, unita a un prezzo aggressivo. Per le aziende italiane ed europee che vogliono evitare i listini in crescita dei modelli chiusi americani — e magari tenere i dati su server propri — un modello come M3 è un'opzione concreta, a patto di disporre dell'hardware per eseguirlo. Il giudizio definitivo, però, arriverà solo quando i pesi saranno pubblici e i benchmark verificati da terzi. Fino ad allora, conviene provarlo via API e misurarlo sui propri casi d'uso reali, senza fermarsi ai numeri dei comunicati.