NVIDIA ha pubblicato martedì 28 aprile Nemotron 3 Nano Omni, un modello open-weight multimodale con 30 miliardi di parametri totali e solo 3 miliardi attivi per token, in grado di leggere documenti, vedere immagini e video, ascoltare audio e ragionare a passi multipli — tutto dentro un'unica rete. Pesi, dataset di training e ricette sono pubblici. È la mossa con cui NVIDIA risponde all'avanzata dei modelli aperti cinesi (DeepSeek, Qwen, Kimi, Hunyuan) e si propone come fornitore di software, non solo di GPU.

Cosa c'e' di nuovo dentro Nemotron 3 Nano Omni

L'architettura è un Mixture of Experts ibrido Mamba-Transformer, denominato 30B-A3B nel cartellino. Vuol dire che a ogni token vengono accesi due esperti su un pool totale che porta i parametri complessivi a 30 miliardi: l'efficienza inferenziale è quella di un modello da 3B, la capacità di rappresentazione quella di un 30B. Tre encoder dedicati gestiscono visione (ViT scalato a 448 pixel), audio (FastConformer a 16 kHz) e testo. Il modello accetta input misti — un video di 30 minuti, una traccia audio, un PDF e una domanda — e produce risposte testuali con tracciabilità del passaggio di ragionamento, alla pari di quanto fa GPT-5 Thinking o Claude Sonnet 4.6 \"extended thinking\".

I benchmark pubblicati da NVIDIA sui suoi paper interni dichiarano risultati superiori a Llama 4 Maverick, Mistral Small 3.1 e Qwen3-VL-32B su DocVQA, ChartQA, MMMU e Video-MME, con il vantaggio di girare in singola H100 a 80 GB o equivalenti AMD MI300X. Il contesto è di 256.000 token. Le ricette di training sono pubblicate sotto licenza NVIDIA Open Model License, compatibile con uso commerciale.

Nemotron 3 Nano Omni è progettato per girare in una sola GPU H100 da 80 GB.

Come provarlo gratis nel browser

Il modo più rapido è la vetrina build.nvidia.com: cerca \"nemotron-3-nano-omni\", clicca Try Now, autenticati con account gratuito e hai diritto a 1.000 richieste a settimana. Funziona da subito con immagini caricate via drag-and-drop, audio MP3 o WAV e file PDF fino a 50 MB. Per gli sviluppatori c'è anche l'endpoint OpenAI-compatibile esposto su https://integrate.api.nvidia.com/v1. Esempio in Python:

from openai import OpenAI
client = OpenAI(
  base_url="https://integrate.api.nvidia.com/v1",
  api_key="nvapi-..."
)
resp = client.chat.completions.create(
  model="nvidia/nemotron-3-nano-omni-30b-a3b",
  messages=[{"role":"user","content":"Descrivi questa foto in italiano."}]
)
print(resp.choices[0].message.content)

Come scaricarlo e farlo girare sul proprio PC

I pesi sono su Hugging Face all'indirizzo nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16. Per il download:

huggingface-cli download nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16 \
  --local-dir ./nemotron-omni

Servono almeno 64 GB di VRAM in BF16 (una RTX 6000 Ada o una H100), oppure 32 GB se si usa la quantizzazione INT4 prodotta dalla community. Per chi ha solo una RTX 4090 da 24 GB conviene caricare con vLLM in modalità --quantization fp8:

pip install vllm==0.6.3
vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16 \
  --quantization fp8 --max-model-len 65536 --port 8000

Una volta in piedi il server, qualunque client OpenAI-compatible (LibreChat, Open WebUI, n8n) può interrogarlo come fosse GPT.

Cosa cambia per chi costruisce agenti

Il fatto che un singolo modello gestisca testo, audio e video toglie tre passaggi tipici delle pipeline di agenti: niente Whisper per la trascrizione, niente Tesseract o pdfplumber per i PDF, niente CLIP/SigLIP per le immagini. Il prezzo è una latenza un po' superiore al testo puro — circa 800 ms per il primo token su un video di 30 minuti — ma con risultati che, per la prima volta su un modello aperto, reggono il confronto con GPT-5 Mini su task di analisi documentale e con Gemini 2.5 Flash su comprensione video. Per chi sviluppa workflow su LangGraph, AutoGen o n8n, sostituire tre nodi con uno solo significa anche meno punti di rottura.

Limiti, alternative, quando NON usarlo

Tre cose da sapere prima di rimpiazzare il proprio stack. Primo, Nemotron 3 Nano Omni è un modello \"reasoning\": le risposte includono catene di pensiero — utili per debug, scomode se l'output deve essere brevissimo. Per casi conversational rapidi conviene usare il fratellino non-reasoning. Secondo, non parla bene l'italiano: nei nostri test lo capisce ma risponde con calchi inglesi se non gli chiedi esplicitamente di rispondere in italiano. Per casi puramente italiani conviene affiancarlo a Mistral Large o Claude. Terzo, la licenza Open Model NVIDIA non è MIT: include obblighi di safety e di attribuzione che vanno letti se si pensa di redistribuire il modello.

Le alternative aperte oggi sono Qwen3-VL 72B (più forte sulla visione, peggiore sul ragionamento), Hunyuan-VL preview di Tencent (più adatto al cinese) e DeepSeek V4 (testo puro, ma fortissimo nel coding). Nemotron 3 Nano Omni resta la scelta più equilibrata per chi vuole un singolo modello aperto, multimodale, che gira su una sola GPU e ha dietro un partner industriale di peso.