NVIDIA ha rilasciato il 28 aprile 2026 (con aggiornamento a maggio per le integrazioni cloud) il Nemotron 3 Nano Omni, il primo modello aperto della famiglia Nemotron capace di gestire video, audio, immagini, documenti, grafici e interfacce con un'unica rete. Pesa 30 miliardi di parametri totali (architettura MoE 30B-A3B), ha una finestra di contesto da 256.000 token, ed è pubblicato con pesi aperti, dataset di addestramento e ricetta di training in chiaro su Hugging Face. Per chi costruisce agenti che devono guardare uno schermo, ascoltare l'utente e leggere documenti tutti insieme, è uno dei modelli più interessanti del 2026.
Cosa fa, davvero, Nemotron 3 Nano Omni
La differenza con i modelli di linguaggio puro è tutta nel multimodale «onnivoro». Nemotron 3 Nano Omni accetta in input:
- Testo (anche documenti lunghi grazie al contesto 256K).
- Immagini con OCR integrato.
- Video con frame estratti automaticamente.
- Audio (voce, suoni ambientali) con trascrizione e ragionamento simultanei.
- Grafici, tabelle e schermate di GUI.
L'output è testo strutturato, comprese chiamate a tool e azioni su interfaccia (click, riempimento form). La caratteristica di efficienza che NVIDIA mette in vetrina è un throughput 9 volte superiore rispetto ad altri modelli aperti multimodali a parità di interattività: serve meno calcolo per la stessa risposta, quindi gli agenti girano più veloci e costano meno in produzione.
Come scaricarlo e provarlo
Il modo più rapido per provarlo è tramite il playground build.nvidia.com, dove le prime chiamate API sono gratuite. Per portarselo a casa serve un account Hugging Face e qualche giga di disco:
pip install huggingface-hub
huggingface-cli login
huggingface-cli download nvidia/Nemotron-3-Nano-Omni-30B-A3B --local-dir ./nemotron-nano-omni
Per inferenza locale veloce si può usare vLLM (consigliato dalla stessa NVIDIA):
pip install vllm
vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B \
--max-model-len 131072 \
--tensor-parallel-size 2
Requisiti hardware indicativi: una GPU A100 80GB o 2×RTX 6000 Ada per la versione full precision, una H100 da 80GB per bf16. Per chi ha hardware desktop, le versioni quantizzate AWQ a 4 bit girano su una RTX 4090 da 24GB con throughput accettabile su singolo utente.
Esempio: un agente che legge una GUI e clicca
Uno degli usi tipici di Nano Omni è pilotare interfacce. Il prompt seguente, con un'immagine di una pagina di e-commerce in input, fa esempio:
Sei un agente UI. Guarda lo screenshot allegato e indica le coordinate (x,y) del bottone «Aggiungi al carrello». Restituisci JSON: {"x":..., "y":..., "reason":"breve motivazione"}.
Il modello legge la GUI, individua il pulsante e restituisce le coordinate; combinato con un client di automazione (come Playwright o pyautogui) costruisce un agente che esegue task su browser senza bisogno di parsing HTML. La struttura JSON può essere imposta con i structured outputs che Nemotron supporta nativamente.
Perché NVIDIA punta sull'open
La strategia di NVIDIA è trasparente. Vendere GPU richiede che la community di sviluppatori abbia modelli buoni con cui sperimentare; affidarsi solo a OpenAI o Anthropic significa lasciare il mercato in mano a chi controlla l'API. Pubblicare un modello aperto, con i dataset di pretraining (3 trilioni di token nuovi) e la guida tecnica per riprodurlo, fissa Nemotron come default nei nuovi progetti agentici. La famiglia comprende anche Nemotron 3 Super (~100B parametri totali) e Nemotron 3 Ultra (~500B), in arrivo nei prossimi mesi. NVIDIA li ha già resi disponibili tramite Amazon Bedrock, Google Cloud, Microsoft Foundry, OpenRouter, Together AI, Fireworks e altri 25 partner: nessuno sviluppatore deve fare scelte hardware per provarli.
Per gli sviluppatori italiani il messaggio è pratico: Nemotron 3 Nano Omni copre molte cose che servivano due o tre modelli separati (un LLM, un OCR/vision e un ASR audio) e lo fa con licenza aperta che permette anche uso commerciale. Per chi sta costruendo agenti che vedono lo schermo o assistenti vocali da deployare on-prem, è oggi il punto di partenza più sensato — soprattutto considerando i 9× di throughput in più e l'assenza di costi per token.




