NVIDIA ha rilasciato il 5 giugno 2026 Nemotron 3.5 ASR, un modello di riconoscimento vocale che trascrive il parlato in tempo reale in circa 40 varietà linguistiche, con appena 600 milioni di parametri e pesi liberamente scaricabili. Non è il classico modello che riceve un file audio e dopo qualche secondo restituisce il testo: è pensato per lo streaming, cioè per trascrivere mentre la persona parla, con una latenza che si può abbassare fino a 80 millisecondi. È lo strumento ideale per costruire assistenti vocali, sottotitoli dal vivo e agenti che ascoltano e rispondono.

La cosa più interessante per chi sviluppa è che il modello è aperto e gratuito: pesi disponibili su Hugging Face e sul catalogo NVIDIA NGC, con una licenza permissiva. Vediamo cosa fa, quanto costa (nulla) e come usarlo concretamente.

Cosa fa Nemotron 3.5 ASR e perché lo streaming conta

ASR sta per Automatic Speech Recognition, riconoscimento automatico del parlato. La differenza tra un modello "a blocchi" e uno in streaming è sostanziale: il primo aspetta che l'audio finisca (o lo spezza in segmenti) prima di trascrivere; il secondo elabora il flusso audio man mano che arriva, restituendo il testo quasi istantaneamente. Per un assistente vocale o per i sottotitoli in diretta, questa reattività è tutto.

Nemotron 3.5 ASR usa un'architettura chiamata FastConformer cache-aware: in pratica elabora ogni frammento di audio una volta sola, senza ricalcolare ciò che ha già "sentito". Questo lo rende molto efficiente: NVIDIA dichiara che, su una GPU H100, regge un numero di flussi simultanei molto superiore agli approcci tradizionali a buffer. Per un servizio che deve trascrivere centinaia di conversazioni in parallelo, significa meno hardware e meno costi.

Quaranta lingue, punteggiatura inclusa e latenza regolabile

Con un solo "checkpoint" il modello copre circa 40 varietà linguistiche (lingua più area geografica), molte delle quali europee, con punteggiatura e maiuscole gestite in modo nativo — un dettaglio che fa risparmiare un passaggio di post-elaborazione. La lingua può essere indicata manualmente oppure rilevata in automatico.

La latenza è configurabile al momento dell'uso, scegliendo la dimensione del "blocco" di audio: 80, 160, 320, 560 o 1.120 millisecondi. È un compromesso classico: blocchi più piccoli danno risposte più immediate, blocchi più grandi migliorano l'accuratezza. La cosa comoda è che si cambia senza riaddestrare nulla, adattando lo stesso modello a un assistente reattivo o a una trascrizione più precisa.

Nemotron 3.5 ASR è pensato per la trascrizione in tempo reale, con latenza configurabile fino a 80 ms.

Quanto costa e con quale licenza

Il modello è open-weight e distribuito con licenza OpenMDW-1.1, pensata per consentirne un uso ampio. I pesi si scaricano gratuitamente da Hugging Face e da NVIDIA NGC; è inoltre disponibile tramite alcuni provider di inferenza per chi non vuole gestire l'hardware. In altre parole, puoi farlo girare sui tuoi server senza canoni di licenza, pagando solo l'eventuale costo della GPU.

Come installarlo e trascrivere un file, passo per passo

Nemotron 3.5 ASR si usa attraverso il toolkit open source NeMo di NVIDIA. Su una macchina Linux con GPU NVIDIA e Python, l'installazione è questa:

# Dipendenze di sistema per l'audio
apt-get update && apt-get install -y libsndfile1 ffmpeg

# Pacchetti Python
pip install Cython packaging
pip install "git+https://github.com/NVIDIA/NeMo.git@main#egg=nemo_toolkit[asr]"

A questo punto bastano poche righe di Python per scaricare il modello e trascrivere un file audio (in formato WAV, mono, 16 kHz):

import nemo.collections.asr as nemo_asr

# Scarica il modello dai pesi ufficiali NVIDIA su Hugging Face
asr_model = nemo_asr.models.ASRModel.from_pretrained(
    model_name="nvidia/nemotron-3.5-asr-streaming-0.6b"
)

# Trascrive uno o più file
risultati = asr_model.transcribe(["registrazione.wav"])
print(risultati[0])

La prima esecuzione scarica i pesi (alcune centinaia di megabyte) e poi stampa la trascrizione con punteggiatura. Per scegliere la lingua o l'auto-rilevamento si usano gli appositi parametri degli script di streaming di NeMo (ad esempio impostando la lingua di destinazione o la modalità automatica). Per lo streaming vero e proprio — microfono in tempo reale — NeMo include script di esempio dedicati, da cui partire per la propria applicazione.

A chi serve e quando preferire Whisper

Nemotron 3.5 ASR è la scelta giusta quando ti serve la trascrizione dal vivo e a bassa latenza: call center, sottotitoli in diretta, assistenti vocali, agenti conversazionali, trascrizione di riunioni in tempo reale. La leggerezza (600 milioni di parametri) lo rende anche relativamente economico da far girare su larga scala.

L'alternativa più nota resta Whisper di OpenAI, anch'esso open e gratuito, ottimo per trascrivere file già registrati con altissima qualità e con un supporto linguistico vastissimo. La regola pratica: per la trascrizione "a posteriori" di un file (un'intervista, un podcast) Whisper è comodissimo e diffuso; per il tempo reale e per servizi che devono reggere molti flussi insieme, un modello cache-aware come Nemotron 3.5 ASR è progettato apposta. Da qui puoi proseguire collegandolo a un modello linguistico per costruire un assistente che ascolta, capisce e risponde — il cuore degli agenti vocali di nuova generazione.