Giovedì 14 maggio 2026 OpenAI ha aggiornato la Realtime API con tre nuovi modelli pensati per spostare la voce sintetica oltre il classico schema "domanda-risposta". L'obiettivo, dichiarato sul blog ufficiale, è far sì che gli agenti vocali possano davvero ascoltare, ragionare, tradurre, trascrivere e agire mentre la conversazione si svolge.
I tre modelli sono gpt-realtime-2, la nuova versione di punta del vocale; gpt-realtime-translate, dedicato alla traduzione live in tempo reale; e gpt-realtime-whisper, una versione streaming del classico riconoscimento vocale Whisper. Vediamoli uno per uno e poi proviamoli in pratica.
gpt-realtime-2: ragionamento GPT-5 al telefono
Il modello principale è il primo voice model di OpenAI con "ragionamento di classe GPT-5". Significa che, oltre a rispondere in voce naturale, può gestire richieste complesse, fare follow-up, chiamare strumenti (function calling) e portare avanti compiti su più turni senza perdere il filo. La context window è passata da 32.000 a 128.000 token, quattro volte più ampia, sufficiente a contenere un manuale completo o una telefonata di oltre due ore.
Il caso d'uso citato da OpenAI è quello di Zillow, il portale immobiliare americano, che ha testato gpt-realtime-2 sul proprio benchmark interno più difficile (chiamate adversarial con clienti irascibili o domande fuori contesto): il tasso di successo è salito da 69% a 95%, un guadagno di 26 punti percentuali, dopo aver ottimizzato i prompt.
gpt-realtime-translate: traduzione live in 70+ lingue
Il secondo modello è dedicato alla simultanea: prende in input la voce continua dello speaker e produce in output la traduzione in tempo reale, senza bisogno che la persona faccia pause. Supporta oltre 70 lingue in input e 13 in output, tra cui italiano, inglese, francese, tedesco, spagnolo, giapponese, mandarino. Il caso d'uso pubblicizzato è la traduzione di un meeting Zoom o di un evento dal vivo: l'utente sente l'audio in lingua originale e legge la traduzione testuale sotto, con una latenza media di 320 millisecondi.
Per le aziende italiane il caso più immediato è il customer support multilingua: un operatore di Verona che parla italiano può rispondere a un cliente giapponese che parla giapponese, sentendolo tradotto in italiano in cuffia e parlandogli in italiano mentre l'utente lo sente in giapponese.
gpt-realtime-whisper: trascrizioni che escono mentre parli
Il terzo modello estende il riconoscimento vocale Whisper, già famoso nella versione open-source, in modalità streaming: produce caption in tempo reale mentre l'utente parla, con punteggiatura automatica e capitalizzazione. È pensato per accessibilità (sottotitolazione live di eventi e dirette), per l'editing video automatico e per le applicazioni di dettatura. La parola d'ordine è latenza: ogni token testuale appare entro 180 millisecondi dalla pronuncia.
Come provarli subito
I tre modelli sono disponibili immediatamente nell'API Realtime di OpenAI, sia in WebSocket sia in WebRTC. La pricing pubblicata è la seguente (al momento della pubblicazione):
- gpt-realtime-2: 32 dollari per milione di token di input audio, 64 dollari per milione di token di output audio. Il testo segue lo stesso prezzo delle altre API.
- gpt-realtime-translate: 12 dollari/milione token input, 24 dollari/milione token output.
- gpt-realtime-whisper: 0,006 dollari al minuto di audio trascritto.
Per testare gpt-realtime-2 da Python il modo più rapido è usare il client ufficiale openai-python. Ecco un esempio minimo di una chiamata WebSocket che riceve audio dal microfono e risponde a voce:
pip install openai sounddevice numpy# minimal_voice.pyimport asyncio, base64, sounddevice as sd, numpy as npfrom openai import AsyncOpenAIclient = AsyncOpenAI()async def run(): async with client.realtime.connect(model="gpt-realtime-2") as conn: await conn.session.update(session={ "modalities": ["audio", "text"], "instructions": "Sei un assistente in italiano, parla in modo conciso.", "voice": "alloy" }) await conn.input_audio_buffer.append(audio=base64.b64encode( sd.rec(int(16000*5), samplerate=16000, channels=1, dtype='int16').tobytes() ).decode()) await conn.input_audio_buffer.commit() await conn.response.create() async for event in conn: if event.type == "response.audio.delta": sd.play(np.frombuffer(base64.b64decode(event.delta), dtype=np.int16), 24000)asyncio.run(run())Il programma registra 5 secondi di microfono, li manda al modello, riceve l'audio della risposta e lo riproduce. Una conversazione di base in italiano ("come si dice grazie in giapponese?") risponde con arigatō in voce naturale, con pronuncia corretta. Per la traduzione live sostituire il modello con gpt-realtime-translate e impostare la lingua di destinazione nelle istruzioni di sessione.
Il confronto con Gemini Live e Claude Voice
OpenAI con questo aggiornamento riprende il vantaggio sui rivali nella voce in tempo reale. Google con Gemini 2.5 Live offre latenze paragonabili ma una scelta di lingue di output più ridotta. Anthropic con Claude Voice (lanciato a febbraio 2026) ha puntato sulla qualità della prosodia ma resta limitato all'inglese e a pochi accenti europei. TechCrunch nota che il moat di OpenAI è l'integrazione con il function calling: gpt-realtime-2 può lanciare azioni reali (prenotare, scrivere mail, controllare lo stato di un ordine) nel mezzo di una telefonata, senza interrompere il flusso.
Quando preferire l'altra strada
I tre modelli sono potenti ma non sostituiscono tutto. Per chi ha bisogno di trascrizione offline ad alta qualità, Whisper Large v3 turbo locale resta il riferimento. Per voci sintetizzate molto espressive (audiolibri, narrazioni cinematografiche) ElevenLabs è ancora la prima scelta. Per traduzioni di documenti scritti, DeepL e Mistral Le Chat restano spesso più accurati. La nuova API di OpenAI brilla soprattutto nel live: dove serve azione immediata mentre la persona parla.
La documentazione completa è disponibile sul portale developer di OpenAI; nelle prossime settimane è prevista anche la pubblicazione di un quickstart per Node.js e un'integrazione nativa con Twilio per chi vuole gestire telefonate reali.




