Il 20 maggio 2026 Cohere ha rilasciato Command A+, il suo modello piu' avanzato e, soprattutto, il primo distribuito interamente con licenza aperta Apache 2.0. E' una mossa significativa per un'azienda finora concentrata sul mercato enterprise: i pesi del modello sono scaricabili e utilizzabili liberamente, anche in produzione, senza i vincoli tipici delle licenze "open ma non troppo" adottate da altri concorrenti.

Command A+ e' pensato per le aziende che vogliono eseguire l'IA sui propri server, per ragioni di privacy, sovranita' dei dati o conformita': non a caso Cohere lo presenta come modello per le "infrastrutture critiche sovrane", e lo accompagna con accordi di collaborazione in Europa.

Le caratteristiche tecniche

  • Architettura: mixture-of-experts (MoE) da 218 miliardi di parametri totali, di cui circa 25 miliardi attivi per ogni richiesta. Questo permette qualita' elevata con un costo di calcolo contenuto.
  • Hardware: puo' girare su appena due GPU NVIDIA H100, oppure su una singola GPU Blackwell, grazie a una quantizzazione (a 16, 8 e 4 bit) descritta come priva di perdite di qualita' significative.
  • Lingue: supporto nativo a 48 lingue, l'italiano incluso, con un tokenizer ottimizzato per l'uso aziendale globale.
  • Citazioni native: quando recupera informazioni da una fonte esterna, il modello genera "grounding span" espliciti, collegando ogni affermazione al documento o alla riga di database da cui proviene. E' una caratteristica preziosa per ridurre le allucinazioni in contesti professionali.

Sui benchmark dichiarati, Command A+ raggiunge l'85% su tau2-Bench Telecom, il 75,1% su MMMU e l'80,6% su MathVista, e si presenta come circa due volte piu' rapido e con il 30% di latenza in meno rispetto al precedente Command A Reasoning.

Command A+ punta sull'esecuzione interna: gira su due H100 o una singola GPU Blackwell.

Come provarlo subito (senza scaricare nulla)

Il modo piu' rapido per testarlo e' l'API di Cohere. Dopo esserti registrato su cohere.com ottieni una chiave (e' disponibile una chiave di prova gratuita, con limiti di velocita' pensati per lo sviluppo). Poi, in Python:

pip install cohere

import cohere
co = cohere.ClientV2("LA_TUA_API_KEY")

risposta = co.chat(
    model="command-a-plus",  # verifica l'id esatto nella documentazione
    messages=[{"role": "user", "content": "Riassumi in 3 punti i vantaggi di un modello MoE."}],
)
print(risposta.message.content[0].text)

Il risultato atteso e' un riassunto in italiano in tre punti. La stessa chiamata, aggiungendo documenti come fonti, restituisce risposte con le citazioni agganciate ai testi forniti.

Come scaricarlo ed eseguirlo in locale

Se vuoi farlo girare sulla tua infrastruttura, i pesi sono pubblicati su Hugging Face nell'organizzazione CohereLabs. Servono GPU adeguate (l'azienda indica due H100 come configurazione minima per la versione quantizzata). Un percorso tipico:

# 1. scarica i pesi (controlla il nome esatto del repository sulla pagina HF)
pip install -U "huggingface_hub[cli]"
hf download CohereLabs/command-a-plus --local-dir ./command-a-plus

# 2. servi il modello con vLLM, compatibile con l'API OpenAI
pip install vllm
vllm serve ./command-a-plus --tensor-parallel-size 2

Una volta avviato, vLLM espone un endpoint locale compatibile con il formato OpenAI, che puoi interrogare con qualsiasi client.

Gratis o a pagamento? Quando ha senso

I pesi sono gratuiti e liberi grazie alla licenza Apache 2.0; quello che paghi e' l'hardware (acquistato o noleggiato sul cloud) oppure il consumo a token se usi l'API gestita di Cohere o piattaforme come Amazon Bedrock. Ha senso scegliere Command A+ quando i dati non possono uscire dall'azienda, quando servono molte lingue e citazioni verificabili, o quando si vuole evitare la dipendenza da un singolo fornitore proprietario. Per un uso personale e leggero, invece, restano piu' pratici i modelli accessibili via chat come ChatGPT, Claude o Gemini.