ChatGPT Voice gira ancora su GPT-4o: 13 mesi indietro al 2026

La modalita' vocale di ChatGPT - quella che gli utenti dei piani Plus e Pro usano per parlare a voce con l'assistente - gira ancora oggi, fine maggio 2026, su un modello di generazione GPT-4o, con knowledge cutoff ad aprile 2024. L'interfaccia testuale invece si appoggia a GPT-5.5 e a GPT-5.5 Instant. Sono tredici mesi di scarto tra le due esperienze: una distanza che spiega perche', come hanno scritto in questi giorni Andrej Karpathy e Simon Willison, ChatGPT "al telefono" sbaglia spesso domande che con la tastiera risolve in un istante.

Il caso e' diventato pubblico in modo strutturato proprio in queste ore. Willison, sviluppatore tra i piu' seguiti del settore, ha pubblicato un test in cui Advanced Voice Mode allucina nomi di programmi installati sul Mac, sbaglia date di nascita di personaggi pubblici e cita libri inesistenti. Karpathy, ex-direttore della AI di Tesla, ora in Anthropic per il pre-training, ha rilanciato: "se usate ChatGPT in modo professionale, su una domanda importante o difficile o3 e GPT-5.5 sono molto piu' forti di 4o; la voce in molti casi e' il peggior compromesso che potete fare".

Cosa significa knowledge cutoff aprile 2024 nel maggio 2026

Concretamente, vuol dire che la voce di ChatGPT non sa nulla del Google I/O 2026, di Vera Rubin, di GPT-5.5, di Claude Opus 4.7, dell'elezione del nuovo presidente di Microsoft, del round di Cognition a 26 miliardi annunciato due giorni fa. Per ogni domanda fattuale recente, il modello reagisce in due modi: o si rifiuta dicendo che non ha informazioni aggiornate, o - ed e' la modalita' pericolosa - inventa una risposta plausibile.

OpenAI non avverte chiaramente l'utente di questa differenza dentro l'interfaccia. Sull'app mobile non c'e' nessuna scritta in evidenza che spieghi che il modello attivato dal microfono e' differente da quello attivo nella stessa schermata in modalita' testo. Il risultato e' che molti utenti pensano di parlare con "il" ChatGPT che hanno usato un minuto prima e si trovano con un assistente di 18 mesi fa.

La Advanced Voice Mode introdotta nel 2024 e' ancora basata sull'architettura nativa GPT-4o. Foto: AI25.Studio / Pexels.

Standard Voice Mode, il modello tecnico e perche' non basta aggiornare

Per capire serve un passo indietro. Quando OpenAI introdusse la Voice Mode "avanzata" nel 2024, scelse di non scalarla su Whisper + GPT-X + text-to-speech (cioe' tre modelli in fila), ma su un unico modello nativamente multimodale, GPT-4o, che riceve l'audio in ingresso e produce audio in uscita. Risultato: latenza bassissima e voce naturalistica, ma legame stretto col modello-base. Per aggiornare la voce a GPT-5.5 servirebbe un GPT-5.5 nativamente audio - cosa che OpenAI non ha ancora rilasciato. Da meta' 2025 OpenAI ha cercato di evitare l'imbarazzo lasciando attiva anche la Standard Voice Mode, che internamente usa il vecchio stack a tre modelli con modelli aggiornati. Ma il prodotto in primo piano per il pubblico resta la Advanced.

La spiegazione tecnica non ha convinto i critici. Il punto sollevato da Willison, Karpathy e dalla community OpenAI Developers e' un altro: il prodotto venduto al consumatore non e' allineato in trasparenza con le sue limitazioni. E' lo stesso problema gia' emerso a febbraio quando OpenAI aveva ritirato GPT-4o dal listino e poi - dopo la mobilitazione #Keep4o - lo aveva rimesso a disposizione degli utenti Pro.

Cosa puo' fare l'utente, oggi

Per chi usa ChatGPT come strumento di lavoro, oggi conviene scegliere consapevolmente. La voce "avanzata" funziona ancora benissimo per dialogo informale, esercizi di lingua, supporto emotivo o brainstorming creativo. Per ricerche fattuali o per task che richiedono dati posteriori ad aprile 2024 e' meglio passare in modalita' testo e selezionare manualmente GPT-5.5 o, dove disponibile, o3. Sui piani Team e Plus la voce di default e' la "avanzata", ma nelle impostazioni si puo' attivare anche la Standard - opzione che molti utenti non sanno di avere.

Per chi sviluppa con la voce su API c'e' un'alternativa concreta: i nuovi Realtime API di OpenAI permettono di costruire applicazioni vocali appoggiate a modelli piu' recenti, anche se a un costo per minuto piu' alto. In alternativa, ElevenLabs - tra i player vocali dominanti del 2026 - offre una pipeline a tre modelli (ASR + LLM a scelta + TTS) molto piu' aggiornabile.

Lo sfondo: l'IA si misura sulla fiducia, non solo sui benchmark

La querelle vocale e' un esempio del problema piu' largo che il settore comincia a fronteggiare: gli utenti non sanno piu' con quale modello stanno parlando. Tra ChatGPT, Claude, Gemini, Mistral Le Chat e Copilot, ogni app vende "l'IA" senza dichiarare in modo evidente quale versione e' attiva in ogni momento. La conseguenza e' che i benchmark contano sempre di meno - vincono i prodotti che spiegano onestamente quello che possono e non possono fare. Su questo terreno OpenAI, dopo cinque anni di leadership di mercato, comincia a perdere terreno nei test indipendenti rispetto ad Anthropic, che da febbraio ha fatto della trasparenza una bandiera. La voce di ChatGPT, oggi, e' il caso piu' visibile di un debito di prodotto che la societa' di San Francisco dovra' pagare entro l'estate.