Nemotron 3 Ultra di Nvidia: come scaricarlo e usarlo

Nella settimana in cui i modelli aperti cinesi conquistano i titoli, Nvidia ricorda al mondo che anche gli Stati Uniti sanno giocare la partita dell'open-weight. Il 4 giugno 2026 l'azienda ha pubblicato su Hugging Face Nemotron 3 Ultra, il modello di punta di una nuova famiglia aperta annunciata da Jensen Huang dal palco del Computex di Taipei. Il claim e' netto: e' il modello aperto americano con il punteggio piu' alto mai registrato sull'indice di intelligenza di Artificial Analysis.

Un'architettura diversa dal solito

Nemotron 3 Ultra ha 550 miliardi di parametri con 55 miliardi attivi per passaggio ed e' stato addestrato su 20.000 miliardi di token (15.000 miliardi in una prima fase per l'ampiezza, 5.000 miliardi in una seconda per la qualita'). La novita' vera e' sotto il cofano: invece del classico Transformer, adotta un'architettura ibrida chiamata Latent Mixture-of-Experts (LatentMoE), che alterna livelli Mamba-2 (efficientissimi sui contesti lunghi) a livelli MoE e ad alcuni livelli di attenzione selettiva. Il risultato pratico e' la velocita': Nvidia dichiara oltre 300 token al secondo in precisione BF16 e una rapidita' da 3 a 6 volte superiore rispetto ai rivali cinesi. Sull'Artificial Analysis Intelligence Index il modello segna 48, il valore piu' alto mai ottenuto da un modello aperto statunitense.

L'architettura ibrida Mamba-MoE punta tutto sulla velocita' di generazione. Foto: Pexels.

Non un solo modello, ma una famiglia

Ultra e' il modello di punta, ma Nemotron 3 e' una famiglia pensata per coprire scenari diversi: accanto alla versione da 550 miliardi di parametri, Nvidia ha presentato taglie piu' piccole e gestibili, pensate per chi ha bisogno di far girare il modello su hardware piu' contenuto o di affinarlo (fine-tuning) sui propri dati. La logica e' la stessa di altre famiglie aperte: si sceglie la taglia in base al compito e al budget di calcolo, partendo dal modello piccolo per i casi semplici e salendo a Ultra solo quando serve davvero la massima capacita'. Per le aziende, questo significa poter standardizzare su un'unica famiglia, con la garanzia di un supporto strumentale completo nell'ecosistema Nvidia.

Dove scaricarlo e in quali formati

Nvidia ha distribuito Nemotron 3 in modo capillare: i pesi sono su Hugging Face, ma il modello e' disponibile anche tramite NVIDIA NIM (i microservizi di inferenza), Ollama, LM Studio, vLLM, SGLang e OpenRouter. Sul Hub trovate due versioni utili: quella base in BF16 e quella quantizzata in NVFP4, il formato a 4 bit di Nvidia che riduce drasticamente l'occupazione di memoria. Per scaricare la variante quantizzata:

huggingface-cli download nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4 \
    --local-dir ./nemotron3-ultra-nvfp4

Anche in NVFP4 resta un modello enorme: parliamo comunque di GPU di fascia datacenter (H100/H200 o Blackwell) in configurazione multipla. Per provare le capacita' senza scaricare nulla, la strada piu' comoda e' un endpoint gestito (NIM o un provider come OpenRouter), che espone un'API compatibile OpenAI.

Provarlo con Ollama o via API

Se disponete dell'hardware adeguato, Ollama semplifica l'avvio. Il comando segue lo schema consueto (il nome esatto del tag e' indicato nella libreria ufficiale):

ollama pull nemotron3-ultra
ollama run nemotron3-ultra "Spiega in 4 righe la differenza tra Mamba e attenzione."

In alternativa, via API con la libreria openai puntata a un endpoint NIM o a OpenRouter:

from openai import OpenAI
client = OpenAI(api_key="LA_TUA_KEY", base_url="https://openrouter.ai/api/v1")
resp = client.chat.completions.create(
    model="nvidia/nemotron-3-ultra",
    messages=[{"role":"user","content":"Genera una funzione Python che valida un IBAN italiano."}],
)
print(resp.choices[0].message.content)

Il risultato atteso e' una funzione con controllo di lunghezza, prefisso "IT" e validazione del check digit.

Quando ha senso sceglierlo

Per la maggior parte degli utenti il senso di Nemotron 3 Ultra e' chiaro: un modello aperto e velocissimo, da usare via API per prototipare e, quando i volumi lo giustificano, da portare sul proprio hardware - magari con GPU Nvidia, in un cerchio che si chiude perfettamente per chi quei chip li produce. La sua forza e' la combinazione tra qualita' di vertice tra gli aperti e throughput elevato grazie all'architettura ibrida: e' una scelta sensata per chi deve servire molte richieste con bassa latenza e preferisce un modello statunitense per ragioni di governance o di fiducia sui dati. Se invece il vincolo e' il budget hardware o l'esecuzione su un singolo PC, le taglie piu' piccole della famiglia o i modelli aperti compatti restano la via giusta. In ogni caso, l'uscita di Nemotron 3 conferma che la competizione sull'open-weight non e' piu' un affare a senso unico: anche Nvidia, oltre a vendere i chip, vuole un posto al tavolo dei modelli.