Whisper in locale: trascrivere audio gratis, guida 2026

Trascrivere audio e video con l'IA, gratis, sul proprio computer e senza mandare niente al cloud: nel 2026 e' una cosa che chiunque puo' fare anche su un portatile da quattro anni fa. Lo strumento si chiama Whisper, e' un modello open source di OpenAI rilasciato nel 2022, e ha generato una galassia di porting e ottimizzazioni che lo rendono praticabile in locale per chiunque. Questa guida e' una mappa: scegli la versione giusta per la tua macchina, installa, lancia, fai sottotitoli SRT, diarizzazione (chi-parla-quando) e batch su tante registrazioni. Esempi reali, niente fumo.

A chi serve e cosa otterrai

La guida e' per giornalisti che intervistano, podcaster che vogliono trascrivere puntate, studenti che registrano lezioni, ricercatori con riunioni da rivedere, professionisti che gestiscono call sensibili e non vogliono mandare audio a servizi cloud. Otterrai:

Trascrizioni in italiano (e in 99 lingue) con un'accuratezza vicina a quella umana sui parlati chiari.
Sottotitoli pronti per YouTube e DaVinci Resolve in formato SRT.
Distinzione fra speaker diversi (diarizzazione).
Tutto in locale: niente dati che escono dal tuo computer.

Cosa ti serve davvero

Un computer recente. La versione «leggera» gira anche su CPU - basta un Mac M1, un PC con 8 GB di RAM, un laptop Linux. La versione «veloce e accurata» richiede una GPU NVIDIA (RTX 3060 in su) o un Mac con chip Apple Silicon.
Python 3.10 o superiore installato (oppure no, se scegli whisper.cpp).
Un programma per registrare o file audio/video gia' pronti (mp3, m4a, wav, mp4 vanno bene).

Quale variante scegliere

Le tre implementazioni utili oggi.

faster-whisper: la piu' veloce e accurata su GPU NVIDIA e su CPU moderne. Mantenuta da SYSTRAN. Prima scelta per uso da terminale con Python.
whisper.cpp: porting C++ con dipendenze quasi zero, gira benissimo su Mac M1/M2/M3/M4 grazie a Metal, ottimo anche su Windows e Linux con CPU. Niente Python. Prima scelta per Mac.
WhisperX: estende faster-whisper con allineamento parola-per-parola (timestamp precisissimi) e diarizzazione (chi-parla). Da scegliere se hai bisogno di sottotitoli professionali o di distinguere voci.

Installare faster-whisper (Windows, Linux, Mac con o senza GPU)

1) Prepara un ambiente Python pulito:

python -m venv whisper-env
source whisper-env/bin/activate  # su Windows: whisper-env\Scripts\activate
pip install --upgrade pip

2) Installa faster-whisper:

pip install faster-whisper

3) Scarica e usa un modello con uno script di tre righe (file transcribe.py):

from faster_whisper import WhisperModel

model = WhisperModel("large-v3", device="auto", compute_type="int8_float16")
segments, info = model.transcribe("intervista.m4a", language="it", vad_filter=True)
for s in segments:
    print(f"[{s.start:.2f}-{s.end:.2f}] {s.text}")

4) Lancia:

python transcribe.py > trascrizione.txt

I modelli vengono scaricati la prima volta in ~/.cache/huggingface. large-v3 e' il piu' accurato (1,5 GB su disco), medium e' un buon compromesso (~770 MB), small e' rapidissimo ma meno accurato sui dialetti. Per l'italiano, si nota molto di piu' la differenza fra small e medium che fra medium e large.

Installare whisper.cpp su Mac (consigliato per Apple Silicon)

Su un MacBook M1/M2/M3/M4 e' la via piu' liscia. Apri il Terminale:

brew install whisper-cpp ffmpeg

Scarica un modello (in italiano regge benissimo gia' il medium):

cd ~/.cache && mkdir -p whisper && cd whisper
curl -L -o ggml-medium.bin https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-medium.bin

Converti la registrazione in 16 kHz mono (Whisper preferisce):

ffmpeg -i intervista.m4a -ar 16000 -ac 1 intervista.wav

Trascrivi con sottotitoli SRT pronti:

whisper-cpp -m ~/.cache/whisper/ggml-medium.bin -f intervista.wav \
  -l it -osrt -of intervista

Il risultato e' un file intervista.srt che puoi caricare direttamente su YouTube, importare in DaVinci Resolve o usare con il tuo editor video preferito. Su un Mac M2 con 8 GB, una registrazione da 60 minuti di parlato pulito viene trascritta in circa 12-15 minuti.

Whisper trasforma una registrazione tipica di un podcast in trascrizione e SRT in pochi minuti.

Diarizzazione: distinguere chi parla con WhisperX

Per separare i diversi speaker (utile per interviste o riunioni), WhisperX combina Whisper con pyannote. Setup:

pip install whisperx
export HF_TOKEN=il_tuo_token_huggingface  # serve per scaricare il modello pyannote

Su Hugging Face occorre accettare le condizioni dei modelli pyannote/segmentation-3.0 e pyannote/speaker-diarization-3.1 dal proprio account.

Esempio:

whisperx intervista.m4a --model large-v3 --language it \
  --diarize --hf_token $HF_TOKEN --output_format srt

L'output e' un SRT con annotazioni tipo [SPEAKER_00]: testo, [SPEAKER_01]: testo. Per podcast a due o tre voci la qualita' e' molto buona.

Prompt e accorgimenti per migliorare la qualita'

Whisper accetta un prompt iniziale che condiziona la trascrizione. Esempi utili:

Termini tecnici, sigle, nomi propri: passare un prompt con i termini da non sbagliare migliora molto le percentuali di OCR su nomi di aziende, sigle (es. «NVIDIA, Anthropic, Mistral, Hugging Face»).
Linguaggio formale o colloquiale: indicarlo nel prompt aiuta la punteggiatura (es. «trascrizione formale di un'intervista giornalistica con punteggiatura»).

Esempio con faster-whisper: model.transcribe("audio.wav", initial_prompt="Intervista a Demis Hassabis, CEO di Isomorphic Labs, su AlphaFold 3 e Novartis.")

Errori comuni e come risolverli

«CUDA out of memory»: scendi a un modello piu' piccolo (medium invece di large-v3), oppure usa compute_type="int8".
«FFmpeg not found»: installa ffmpeg (brew install ffmpeg su Mac, winget install ffmpeg su Windows, sudo apt install ffmpeg su Ubuntu).
Trascrizione che «inventa» (hallucinazione): aggiungi vad_filter=True (Voice Activity Detection) per saltare il silenzio - e' una causa frequente del problema.
Numeri sbagliati o italiano traducato»: specifica esplicitamente language="it" e usa un initial_prompt con un esempio del registro che ti aspetti.

Quanto e' accurato, davvero

Sul parlato pulito in italiano standard, large-v3 ha un Word Error Rate intorno al 5-7%, comparabile o migliore di servizi cloud come le API di OpenAI Whisper e Google Speech-to-Text. Su accenti regionali forti, ambienti rumorosi o piu' speaker sovrapposti il tasso di errore sale rapidamente (anche al 15-20%). Per quei casi conviene un secondo passaggio: una rilettura assistita con un modello LLM (Claude, GPT-5, Mistral) che riceve la trascrizione grezza, l'audio in token e ripulisce il testo.

Alternative e quando non usare Whisper in locale

Se hai necessita' di trascrizione in tempo reale (sottotitoli live), Whisper in locale non e' la scelta giusta: meglio servizi cloud come Speechmatics, AssemblyAI o l'API Realtime di OpenAI.
Se devi trascrivere migliaia di ore al mese, calcolare costi vs cloud: per volumi molto alti, una GPU dedicata si ripaga; per volumi medi (10-100 ore al mese) i servizi cloud a pagamento restano competitivi.
Se servono modelli ottimizzati per terminologie molto specifiche (medico, legale), oggi i modelli verticali commerciali superano Whisper standard.

Come proseguire

Una volta che hai una trascrizione affidabile, il vero valore arriva nel passaggio successivo: passare il testo a un modello LLM (locale, con Ollama, oppure una API) che riassume, estrae i punti chiave, genera un articolo, mette in tabella le citazioni. Una pipeline tipica per un'intervista da 60 minuti: registra, trascrivi con Whisper (15 min), passa la trascrizione a Claude o Mistral per il riassunto e la bozza (1 minuto). E' il workflow che usano oggi molte redazioni italiane, all'AI Notizie incluso.

Trascrivere audio e video gratis con Whisper in locale: guida completa

A chi serve e cosa otterrai

Cosa ti serve davvero

Quale variante scegliere

Installare faster-whisper (Windows, Linux, Mac con o senza GPU)

Installare whisper.cpp su Mac (consigliato per Apple Silicon)

Diarizzazione: distinguere chi parla con WhisperX

Prompt e accorgimenti per migliorare la qualita'

Errori comuni e come risolverli

Quanto e' accurato, davvero

Alternative e quando non usare Whisper in locale

Come proseguire

Fonti

Andrea Bertolotti

📬 Newsletter di AI Notizie

Continua a leggere

Topaz Video AI: guida passo passo per video cinematografici

Fine-tuning di un LLM gratis su Google Colab con Unsloth e LoRA

Generare video con l'IA nel 2026: guida a Runway, Kling, Luma e Veo

Chiamare le API di OpenAI, Anthropic e Gemini con Python