Thinking Machines: TML-Interaction-Small, AI che parla e ascolta

Il primo blogpost tecnico di Thinking Machines Lab — la società che Mira Murati ha fondato dopo aver lasciato la guida di OpenAI — è uscito l'11 maggio 2026 e ha cambiato in mezza giornata il discorso sulle real-time voice AI. Tema: come trasformare i modelli generativi in qualcosa che più assomiglia a una conversazione umana che a uno scambio di battute. Il post si chiama Interaction Models e introduce un'architettura nativa che ascolta e parla simultaneamente, anziché alternare turni come fanno GPT Realtime di OpenAI e Gemini Live di Google.

Come funziona davvero: 200 millisecondi alla volta

L'intuizione tecnica è semplice da raccontare. I sistemi voce attuali aspettano che l'utente finisca di parlare, trascrivono, generano la risposta e la sintetizzano: in mezzo c'è sempre una pausa percepibile, perché il modello consuma un turno completo prima di rispondere. L'Interaction Model di Thinking Machines lavora in chunks da 200 millisecondi: in ogni intervallo riceve un blocco di input (audio, video, testo) e contemporaneamente genera un blocco di output, intervallando le due cose. Risultato: il modello può interrompere, fare back-channeling (l'equivalente verbale di un "mh-mh"), reagire ai cambi di tono e perfino tacere quando capisce di non avere niente di utile da dire.

La capacità nasce da una doppia architettura. C'è un Interaction Model «leggero» che resta sempre in linea, ed è quello che ascolta e parla. Dietro c'è un Background Model molto più pesante, che fa ragionamento profondo, chiamate a tool, ricerche web. Il primo passa al secondo i task complessi in modo asincrono, riceve indietro i risultati e li infila nella conversazione al momento giusto. È lo stesso schema della «mente che vaga» di un essere umano: parli di una cosa, ma intanto stai pensando alle prossime due.

Il modello «piccolo»: 276 miliardi di parametri (e 12 attivi)

TML-Interaction-Small è un Mixture-of-Experts da 276 miliardi di parametri totali e 12 miliardi attivi per token. L'encoding multimodale è senza encoder esterni: l'audio entra come dMel embeddings, il video viene tagliato in patch 40×40 con un hMLP, tutto il resto è gestito direttamente dal transformer in fusione precoce. La latenza dichiarata per turno è di 0,40 secondi, contro lo 0,57 di Gemini 3.1 Flash Live. Sui benchmark interni — FD-bench v1.5 per la qualità dell'interazione e Audio MultiChallenge per il ragionamento audio — Thinking Machines rivendica 77,8 punti contro i 54,3 di Gemini Flash Live e 37,6 di GPT Realtime-2 versione minimal.

Come provarlo e quando uscirà davvero

Al momento i modelli sono disponibili in research preview chiusa: solo un piccolo gruppo di partner accademici e aziendali ha accesso. Per gli sviluppatori è aperta una waitlist sul sito di Thinking Machines Lab. Il rilascio pubblico via API — che secondo l'azienda includerà il modello small ed eventualmente un «medium» non ancora annunciato — è atteso entro fine 2026. La fascia di prezzo non è stata indicata, ma gli analisti si aspettano qualcosa di più aggressivo di GPT Realtime ($0,06 al minuto di audio in input), data la prima necessità di Thinking Machines di farsi notare nei deployments enterprise.

Le voice AI in tempo reale: la sfida è ridurre il gap fra ascolto e risposta. Foto Pexels.

Perché conta: i casi d'uso che si sbloccano

Quattro mercati guardano con interesse questa svolta. Il primo è il customer service: gli agent vocali attuali (Vapi, Bland, Retell) chiudono milioni di chiamate al giorno ma non riescono a interrompere o reagire alle pause; un interaction model lo fa di natura. Il secondo è l'education: i tutor AI possono finalmente avere conversazioni piene di domande e correzioni in tempo reale, non scambi rigidi. Il terzo è la traduzione simultanea: il chunking a 200ms consente latenze inferiori a quelle di una buona traduzione umana. Il quarto, più speculativo, è la robotica: un robot domestico che ascolta mentre opera, e non aspetta turni, è più affidabile.

Per il mercato Thinking Machines Lab segna il primo affondo prodotto dopo il round-record da 2 miliardi raccolto a inizio 2025. Mira Murati ha promesso che il blogpost sarà seguito da un paper tecnico completo e da un'eventuale apertura della pipeline di addestramento ai team accademici. L'impatto, sul breve, sarà soprattutto narrativo: OpenAI e Google avranno bisogno di rispondere, e probabilmente lo faranno entro fine anno con versioni full-duplex dei loro Realtime e Live.