NVIDIA non vende solo le GPU su cui gira l'intelligenza artificiale: produce anche i modelli. Al GTC Taipei, durante il Computex 2026 (1-5 giugno), l'azienda ha presentato Nemotron 3 Ultra, un modello linguistico a pesi aperti progettato per un compito molto specifico e oggi molto richiesto: far funzionare gli agenti autonomi che lavorano a lungo, in modo affidabile e a costi contenuti.

Cos'e e a cosa serve

Nemotron 3 Ultra e un modello mixture-of-experts (MoE) da circa 550 miliardi di parametri totali, di cui solo una frazione viene attivata a ogni passaggio: e questa la chiave dell'efficienza, perche permette di avere la capacita di un modello enorme con i costi di calcolo di uno molto piu piccolo. NVIDIA dichiara fino a 5 volte di velocita in piu in inferenza e una riduzione di circa il 30% del costo dei compiti agentici complessi rispetto alle generazioni precedenti.

Il modello e pensato per l'orchestrazione e il ragionamento nei flussi autonomi: decisioni architetturali in sessioni di programmazione lunghe, sintesi tra molte fonti di ricerca, verifica di vincoli interdipendenti. In altre parole, e il "cervello" che coordina un agente mentre svolge un compito articolato in molti passaggi, invece di limitarsi a rispondere a una singola domanda.

L'architettura mixture-of-experts attiva solo una parte dei 550 miliardi di parametri.

Pesi aperti e licenza

L'aspetto piu importante per chi sviluppa e che il modello esce con pesi aperti sotto la licenza OpenMDW-1.1 della Linux Foundation, che consente di personalizzare e distribuire versioni derivate. Tra i primi a integrarlo figurano Perplexity, Palantir, ServiceNow, CrowdStrike e Harvey, con supporto in diversi framework per agenti.

Dove trovarlo e quanto costa provarlo

Nemotron 3 Ultra e disponibile su piu piattaforme, ciascuna adatta a un'esigenza diversa:

  • Hugging Face e ModelScope: per scaricare i pesi e ospitare il modello sulla propria infrastruttura (serve hardware molto potente, parliamo di server con piu GPU di fascia data center: non e un modello da portatile).
  • build.nvidia.com: per provarlo subito dal browser e chiamarlo come microservizio NIM tramite un'API compatibile con lo standard OpenAI, senza installare nulla. NVIDIA mette a disposizione un piano gratuito con crediti iniziali per i test.
  • OpenRouter: per accedervi a consumo insieme a decine di altri modelli, utile per confronti rapidi.

Come chiamarlo via API, passo passo

Il modo piu veloce per metterlo alla prova e l'endpoint compatibile OpenAI di NVIDIA. Dopo esserti registrato su build.nvidia.com e aver generato una chiave (NVIDIA_API_KEY), bastano poche righe di Python:

from openai import OpenAI

client = OpenAI(
    base_url="https://integrate.api.nvidia.com/v1",
    api_key="LA_TUA_NVIDIA_API_KEY"
)

resp = client.chat.completions.create(
    model="nvidia/nemotron-3-ultra",
    messages=[
        {"role": "system", "content": "Sei un assistente che pianifica compiti in piu passaggi."},
        {"role": "user", "content": "Progetta un piano in 5 passi per migrare un sito da WordPress a un CMS headless."}
    ],
    temperature=0.4
)
print(resp.choices[0].message.content)

Risultato atteso: un piano numerato e dettagliato, con le dipendenze tra i passaggi (esportazione contenuti, scelta del CMS, migrazione media, redirect SEO, test) e le verifiche da fare prima di andare in produzione. E proprio sui compiti "lunghi" e strutturati che il modello da il meglio. Verifica il nome esatto del modello nel catalogo di build.nvidia.com, perche le sigle possono cambiare con gli aggiornamenti.

Un esempio di prompt per agenti

"Agisci come orchestratore. Hai a disposizione tre strumenti: ricerca_web, leggi_file, scrivi_file. Obiettivo: produrre un report di 800 parole sullo stato dei modelli open cinesi. Pianifica i passaggi, indica quale strumento usare a ogni passo e come verificherai la correttezza prima di consegnare."

Con un modello orientato agli agenti come Nemotron 3 Ultra ti aspetti una risposta che prima espone il piano e la logica di verifica, e solo dopo procede: e il comportamento che distingue un modello da agente da un semplice chatbot.

Quando ha senso e quando no

Nemotron 3 Ultra e una scelta interessante se costruisci agenti complessi e vuoi un'alternativa aperta ai modelli proprietari, magari da personalizzare o da ospitare in casa per ragioni di controllo dei dati. Non e invece il modello giusto se ti serve solo un assistente conversazionale leggero: in quel caso conviene un modello piu piccolo, gratuito ed eseguibile in locale. La forza di questo rilascio sta nel posizionamento: NVIDIA offre un modello di frontiera, aperto e ottimizzato per la propria infrastruttura, abbassando ancora la barriera per chi vuole sperimentare con gli agenti senza dipendere da un unico fornitore chiuso.