ElevenLabs Speech Engine: voce in tempo reale agli agenti

ElevenLabs, la società nota per le voci sintetiche più realistiche sul mercato, ha lanciato Speech Engine, uno strumento che permette di aggiungere la voce a qualsiasi chatbot o agente testuale. L'idea è semplice ma potente: tu mantieni il controllo del cervello dell'agente — l'LLM e la logica della conversazione — mentre ElevenLabs si occupa di tutto ciò che riguarda l'audio.

Come funziona: la divisione dei compiti

Speech Engine riunisce in un'unica pipeline i modelli di ElevenLabs per il riconoscimento del parlato, la trascrizione e l'orchestrazione vocale, ottimizzati per lavorare insieme con bassa latenza. Nel flusso tipico:

l'utente parla e Speech Engine trascrive l'audio (con una latenza dichiarata di circa 80 millisecondi);
il testo arriva al tuo server, che lo passa all'LLM che preferisci (GPT, Claude, un modello locale...);
la risposta testuale torna a Speech Engine, che la trasforma in voce e la riproduce nel browser.

L'SDK gestisce automaticamente i dettagli più fastidiosi di una conversazione vocale: la gestione della connessione, l'alternanza dei turni e il rilevamento delle interruzioni, cioè quando l'utente parla sopra l'assistente. Sono proprio i problemi che, fino a ieri, richiedevano settimane di lavoro su misura.

Speech Engine gestisce ascolto, turni e voce; lo sviluppatore mantiene la logica dell'agente.

Le caratteristiche che contano

Il modello di trascrizione è ottimizzato per l'accuratezza nelle conversazioni reali, comprese le sovrapposizioni di voce e i cambi di frase a metà discorso. Sul fronte della sintesi, ElevenLabs mette a disposizione voci espressive in oltre 70 lingue, italiano compreso, con una libreria di più di 11.000 voci e la possibilità di clonarne una propria. È questa naturalezza, più della pura velocità, il vero punto di forza dell'azienda.

Come provarlo passo passo

Speech Engine è pensato per gli sviluppatori che vogliono usare il proprio LLM e controllare la conversazione sul proprio server. I passaggi essenziali:

creare un account su ElevenLabs e generare una chiave API dal pannello;
installare l'SDK nel proprio progetto Node.js;
collegare Speech Engine a un server HTTP esistente (Express, Fastify o il modulo http nativo) oppure avviare un server WebSocket dedicato;
ricevere le trascrizioni, passarle all'LLM e rimandare indietro la risposta.

L'installazione di base, seguendo la documentazione ufficiale, parte così:

npm install @elevenlabs/elevenlabs-js

Lo scheletro logico, in pseudo-codice fedele al pattern del quickstart, è il seguente:

// 1. l'utente parla  -> Speech Engine produce un transcript
// 2. passo il transcript al mio LLM
const risposta = await mioLLM(transcript);
// 3. invio il testo a Speech Engine, che lo pronuncia
session.send(risposta);

Bastano poche righe perché tutta la parte audio sia gestita dal servizio. Un prompt di prova da dare al proprio agente potrebbe essere: "Sei l'assistente vocale di una pizzeria: prendi l'ordine, chiedi indirizzo e orario, conferma il totale". Il risultato atteso è una conversazione fluida in cui l'utente parla, viene interrotto e corretto in modo naturale, e l'assistente risponde con una voce realistica.

Costi e a chi conviene

ElevenLabs offre un piano gratuito per sperimentare, con un monte di crediti mensile pensato per i test, e piani a pagamento a consumo per chi va in produzione: conviene verificare le soglie aggiornate direttamente sul sito prima di stimare i costi di un servizio reale. Lo strumento è ideale per chi ha già costruito un chatbot testuale e vuole renderlo vocale senza riscrivere la logica, oppure per call center, assistenti per la prenotazione e applicazioni di accessibilità. Chi invece cerca una soluzione "chiavi in mano" senza scrivere codice troverà più adatti i prodotti per agenti conversazionali completi, dove l'LLM è già integrato.