NVIDIA Nemotron 3 Nano Omni: come usarlo e dove scaricarlo

NVIDIA ha rilasciato il 28 aprile 2026 (con aggiornamento a maggio per le integrazioni cloud) il Nemotron 3 Nano Omni, il primo modello aperto della famiglia Nemotron capace di gestire video, audio, immagini, documenti, grafici e interfacce con un'unica rete. Pesa 30 miliardi di parametri totali (architettura MoE 30B-A3B), ha una finestra di contesto da 256.000 token, ed è pubblicato con pesi aperti, dataset di addestramento e ricetta di training in chiaro su Hugging Face. Per chi costruisce agenti che devono guardare uno schermo, ascoltare l'utente e leggere documenti tutti insieme, è uno dei modelli più interessanti del 2026.

Cosa fa, davvero, Nemotron 3 Nano Omni

La differenza con i modelli di linguaggio puro è tutta nel multimodale «onnivoro». Nemotron 3 Nano Omni accetta in input:

Testo (anche documenti lunghi grazie al contesto 256K).
Immagini con OCR integrato.
Video con frame estratti automaticamente.
Audio (voce, suoni ambientali) con trascrizione e ragionamento simultanei.
Grafici, tabelle e schermate di GUI.

L'output è testo strutturato, comprese chiamate a tool e azioni su interfaccia (click, riempimento form). La caratteristica di efficienza che NVIDIA mette in vetrina è un throughput 9 volte superiore rispetto ad altri modelli aperti multimodali a parità di interattività: serve meno calcolo per la stessa risposta, quindi gli agenti girano più veloci e costano meno in produzione.

Come scaricarlo e provarlo

Il modo più rapido per provarlo è tramite il playground build.nvidia.com, dove le prime chiamate API sono gratuite. Per portarselo a casa serve un account Hugging Face e qualche giga di disco:

pip install huggingface-hub
huggingface-cli login
huggingface-cli download nvidia/Nemotron-3-Nano-Omni-30B-A3B --local-dir ./nemotron-nano-omni

Per inferenza locale veloce si può usare vLLM (consigliato dalla stessa NVIDIA):

pip install vllm
vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B \
  --max-model-len 131072 \
  --tensor-parallel-size 2

Requisiti hardware indicativi: una GPU A100 80GB o 2×RTX 6000 Ada per la versione full precision, una H100 da 80GB per bf16. Per chi ha hardware desktop, le versioni quantizzate AWQ a 4 bit girano su una RTX 4090 da 24GB con throughput accettabile su singolo utente.

Esempio: un agente che legge una GUI e clicca

Uno degli usi tipici di Nano Omni è pilotare interfacce. Il prompt seguente, con un'immagine di una pagina di e-commerce in input, fa esempio:

Sei un agente UI. Guarda lo screenshot allegato e indica le coordinate (x,y) del bottone «Aggiungi al carrello». Restituisci JSON: {"x":..., "y":..., "reason":"breve motivazione"}.

Il modello legge la GUI, individua il pulsante e restituisce le coordinate; combinato con un client di automazione (come Playwright o pyautogui) costruisce un agente che esegue task su browser senza bisogno di parsing HTML. La struttura JSON può essere imposta con i structured outputs che Nemotron supporta nativamente.

Nano Omni gira anche su singola GPU con quantizzazione 4-bit. Foto Pexels.

Perché NVIDIA punta sull'open

La strategia di NVIDIA è trasparente. Vendere GPU richiede che la community di sviluppatori abbia modelli buoni con cui sperimentare; affidarsi solo a OpenAI o Anthropic significa lasciare il mercato in mano a chi controlla l'API. Pubblicare un modello aperto, con i dataset di pretraining (3 trilioni di token nuovi) e la guida tecnica per riprodurlo, fissa Nemotron come default nei nuovi progetti agentici. La famiglia comprende anche Nemotron 3 Super (~100B parametri totali) e Nemotron 3 Ultra (~500B), in arrivo nei prossimi mesi. NVIDIA li ha già resi disponibili tramite Amazon Bedrock, Google Cloud, Microsoft Foundry, OpenRouter, Together AI, Fireworks e altri 25 partner: nessuno sviluppatore deve fare scelte hardware per provarli.

Per gli sviluppatori italiani il messaggio è pratico: Nemotron 3 Nano Omni copre molte cose che servivano due o tre modelli separati (un LLM, un OCR/vision e un ASR audio) e lo fa con licenza aperta che permette anche uso commerciale. Per chi sta costruendo agenti che vedono lo schermo o assistenti vocali da deployare on-prem, è oggi il punto di partenza più sensato — soprattutto considerando i 9× di throughput in più e l'assenza di costi per token.