Trascrivere audio e video con l'IA, gratis, sul proprio computer e senza mandare niente al cloud: nel 2026 e' una cosa che chiunque puo' fare anche su un portatile da quattro anni fa. Lo strumento si chiama Whisper, e' un modello open source di OpenAI rilasciato nel 2022, e ha generato una galassia di porting e ottimizzazioni che lo rendono praticabile in locale per chiunque. Questa guida e' una mappa: scegli la versione giusta per la tua macchina, installa, lancia, fai sottotitoli SRT, diarizzazione (chi-parla-quando) e batch su tante registrazioni. Esempi reali, niente fumo.
A chi serve e cosa otterrai
La guida e' per giornalisti che intervistano, podcaster che vogliono trascrivere puntate, studenti che registrano lezioni, ricercatori con riunioni da rivedere, professionisti che gestiscono call sensibili e non vogliono mandare audio a servizi cloud. Otterrai:
- Trascrizioni in italiano (e in 99 lingue) con un'accuratezza vicina a quella umana sui parlati chiari.
- Sottotitoli pronti per YouTube e DaVinci Resolve in formato SRT.
- Distinzione fra speaker diversi (diarizzazione).
- Tutto in locale: niente dati che escono dal tuo computer.
Cosa ti serve davvero
- Un computer recente. La versione «leggera» gira anche su CPU - basta un Mac M1, un PC con 8 GB di RAM, un laptop Linux. La versione «veloce e accurata» richiede una GPU NVIDIA (RTX 3060 in su) o un Mac con chip Apple Silicon.
- Python 3.10 o superiore installato (oppure no, se scegli whisper.cpp).
- Un programma per registrare o file audio/video gia' pronti (mp3, m4a, wav, mp4 vanno bene).
Quale variante scegliere
Le tre implementazioni utili oggi.
- faster-whisper: la piu' veloce e accurata su GPU NVIDIA e su CPU moderne. Mantenuta da SYSTRAN. Prima scelta per uso da terminale con Python.
- whisper.cpp: porting C++ con dipendenze quasi zero, gira benissimo su Mac M1/M2/M3/M4 grazie a Metal, ottimo anche su Windows e Linux con CPU. Niente Python. Prima scelta per Mac.
- WhisperX: estende faster-whisper con allineamento parola-per-parola (timestamp precisissimi) e diarizzazione (chi-parla). Da scegliere se hai bisogno di sottotitoli professionali o di distinguere voci.
Installare faster-whisper (Windows, Linux, Mac con o senza GPU)
1) Prepara un ambiente Python pulito:
python -m venv whisper-env
source whisper-env/bin/activate # su Windows: whisper-env\Scripts\activate
pip install --upgrade pip2) Installa faster-whisper:
pip install faster-whisper3) Scarica e usa un modello con uno script di tre righe (file transcribe.py):
from faster_whisper import WhisperModel
model = WhisperModel("large-v3", device="auto", compute_type="int8_float16")
segments, info = model.transcribe("intervista.m4a", language="it", vad_filter=True)
for s in segments:
print(f"[{s.start:.2f}-{s.end:.2f}] {s.text}")4) Lancia:
python transcribe.py > trascrizione.txtI modelli vengono scaricati la prima volta in ~/.cache/huggingface. large-v3 e' il piu' accurato (1,5 GB su disco), medium e' un buon compromesso (~770 MB), small e' rapidissimo ma meno accurato sui dialetti. Per l'italiano, si nota molto di piu' la differenza fra small e medium che fra medium e large.
Installare whisper.cpp su Mac (consigliato per Apple Silicon)
Su un MacBook M1/M2/M3/M4 e' la via piu' liscia. Apri il Terminale:
brew install whisper-cpp ffmpegScarica un modello (in italiano regge benissimo gia' il medium):
cd ~/.cache && mkdir -p whisper && cd whisper
curl -L -o ggml-medium.bin https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-medium.binConverti la registrazione in 16 kHz mono (Whisper preferisce):
ffmpeg -i intervista.m4a -ar 16000 -ac 1 intervista.wavTrascrivi con sottotitoli SRT pronti:
whisper-cpp -m ~/.cache/whisper/ggml-medium.bin -f intervista.wav \
-l it -osrt -of intervistaIl risultato e' un file intervista.srt che puoi caricare direttamente su YouTube, importare in DaVinci Resolve o usare con il tuo editor video preferito. Su un Mac M2 con 8 GB, una registrazione da 60 minuti di parlato pulito viene trascritta in circa 12-15 minuti.
Diarizzazione: distinguere chi parla con WhisperX
Per separare i diversi speaker (utile per interviste o riunioni), WhisperX combina Whisper con pyannote. Setup:
pip install whisperx
export HF_TOKEN=il_tuo_token_huggingface # serve per scaricare il modello pyannoteSu Hugging Face occorre accettare le condizioni dei modelli pyannote/segmentation-3.0 e pyannote/speaker-diarization-3.1 dal proprio account.
Esempio:
whisperx intervista.m4a --model large-v3 --language it \
--diarize --hf_token $HF_TOKEN --output_format srtL'output e' un SRT con annotazioni tipo [SPEAKER_00]: testo, [SPEAKER_01]: testo. Per podcast a due o tre voci la qualita' e' molto buona.
Prompt e accorgimenti per migliorare la qualita'
Whisper accetta un prompt iniziale che condiziona la trascrizione. Esempi utili:
- Termini tecnici, sigle, nomi propri: passare un prompt con i termini da non sbagliare migliora molto le percentuali di OCR su nomi di aziende, sigle (es. «NVIDIA, Anthropic, Mistral, Hugging Face»).
- Linguaggio formale o colloquiale: indicarlo nel prompt aiuta la punteggiatura (es. «trascrizione formale di un'intervista giornalistica con punteggiatura»).
Esempio con faster-whisper: model.transcribe("audio.wav", initial_prompt="Intervista a Demis Hassabis, CEO di Isomorphic Labs, su AlphaFold 3 e Novartis.")Errori comuni e come risolverli
- «CUDA out of memory»: scendi a un modello piu' piccolo (medium invece di large-v3), oppure usa
compute_type="int8". - «FFmpeg not found»: installa ffmpeg (
brew install ffmpegsu Mac,winget install ffmpegsu Windows,sudo apt install ffmpegsu Ubuntu). - Trascrizione che «inventa» (hallucinazione): aggiungi
vad_filter=True(Voice Activity Detection) per saltare il silenzio - e' una causa frequente del problema. - Numeri sbagliati o italiano traducato»: specifica esplicitamente
language="it"e usa uninitial_promptcon un esempio del registro che ti aspetti.
Quanto e' accurato, davvero
Sul parlato pulito in italiano standard, large-v3 ha un Word Error Rate intorno al 5-7%, comparabile o migliore di servizi cloud come le API di OpenAI Whisper e Google Speech-to-Text. Su accenti regionali forti, ambienti rumorosi o piu' speaker sovrapposti il tasso di errore sale rapidamente (anche al 15-20%). Per quei casi conviene un secondo passaggio: una rilettura assistita con un modello LLM (Claude, GPT-5, Mistral) che riceve la trascrizione grezza, l'audio in token e ripulisce il testo.
Alternative e quando non usare Whisper in locale
- Se hai necessita' di trascrizione in tempo reale (sottotitoli live), Whisper in locale non e' la scelta giusta: meglio servizi cloud come Speechmatics, AssemblyAI o l'API Realtime di OpenAI.
- Se devi trascrivere migliaia di ore al mese, calcolare costi vs cloud: per volumi molto alti, una GPU dedicata si ripaga; per volumi medi (10-100 ore al mese) i servizi cloud a pagamento restano competitivi.
- Se servono modelli ottimizzati per terminologie molto specifiche (medico, legale), oggi i modelli verticali commerciali superano Whisper standard.
Come proseguire
Una volta che hai una trascrizione affidabile, il vero valore arriva nel passaggio successivo: passare il testo a un modello LLM (locale, con Ollama, oppure una API) che riassume, estrae i punti chiave, genera un articolo, mette in tabella le citazioni. Una pipeline tipica per un'intervista da 60 minuti: registra, trascrivi con Whisper (15 min), passa la trascrizione a Claude o Mistral per il riassunto e la bozza (1 minuto). E' il workflow che usano oggi molte redazioni italiane, all'AI Notizie incluso.




