Martedì 12 maggio 2026, mentre i venture capital chiudevano la giornata su un'altra raffica di operazioni AI, Vapi ha confermato di aver chiuso una Series B da 50 milioni di dollari a una valutazione post-money di circa 500 milioni. Il round, guidato da Peak XV (l'ex Sequoia India e Sud-est asiatico), porta a 72 milioni il capitale raccolto dalla startup di San Francisco da quando è uscita dall'Y Combinator. Hanno partecipato M12 (il fondo venture di Microsoft), Kleiner Perkins, Bessemer Venture Partners e gli investitori della prima ora.

Un miliardo di chiamate gestite in dodici mesi

I numeri operativi giustificano il prezzo: in un anno Vapi ha superato la soglia di 1 miliardo di chiamate processate sulla sua infrastruttura, oltre 1 milione di sviluppatori registrati e più di 2,7 milioni di agenti vocali creati sulla piattaforma. L'azienda dichiara una crescita del 10x sull'ARR enterprise rispetto al precedente round. La latenza dichiarata per la chiamata end-to-end resta inferiore ai 500 millisecondi, soglia che i CTO considerano lo spartiacque fra una telefonata che "sembra umana" e una che si percepisce come automatica.

Il caso d'uso più citato dall'azienda è Amazon Ring, il servizio di videocitofoni e telecamere domestiche che ha scelto Vapi sopra 40 concorrenti per gestire le interazioni vocali con i clienti. Fra gli altri clienti enterprise figurano New York Life, Intuit (TurboTax), Kavak, Instawork, UnityAI e Cherry.

I voice agent di Vapi sostituiscono o affiancano i call center tradizionali. Foto: Mikhail Nilov / Pexels

Cosa fa davvero la piattaforma

Vapi non costruisce un modello vocale proprio: orchestra una pipeline modulare in cui lo sviluppatore sceglie il motore di trascrizione (Deepgram, OpenAI Whisper o altro), il modello di ragionamento (GPT-5.5, Claude Opus 4.7, Gemini 3.1, modelli open) e il sintetizzatore vocale (ElevenLabs, Cartesia, Rime). La piattaforma si occupa di gestire interruzioni, silenzi, passaggi di turno, integrazioni telefoniche con Twilio o operatori SIP, e di registrare il transcript per analisi. È, di fatto, il "router" che gli sviluppatori cercavano per non dover ricostruire da zero la parte real-time dei voice agent.

L'API si chiama direttamente da Python o Node.js. Una chiamata d'esempio per creare un agente è un payload JSON con model, voice e firstMessage; in poche righe l'agente è pronto a rispondere su un numero verde acquistato tramite la dashboard.

Perché la voce è il prossimo terreno di battaglia

Il round di Vapi arriva nello stesso giorno in cui hanno chiuso altre operazioni AI rilevanti: Exaforce con 125 milioni per la cybersicurezza AI-native, Havoc con 100 milioni nel defense, Isomorphic Labs con 2,1 miliardi per la farmaceutica. Ma la voce è la categoria in cui ci si aspetta il rendimento più veloce, perché va a sostituire una funzione (il call center) che le aziende hanno già nel budget e con metriche chiare di ROI. Gartner stima che entro il 2027 il 30% delle chiamate inbound aziendali sarà gestito da agenti vocali AI senza passaggi umani.

Le sfide restano sulla qualità conversazionale (interruzioni, accenti, fallback graziosi) e sulle guardrail: dopo il caso italiano di dipendenza da chatbot riportato a inizio settimana, gli enterprise vogliono garanzie su quando l'agente deve passare a un umano. Vapi userà parte del fondo per estendere il framework di policy, migliorare la prevedibilità ("meno allucinazioni in linea") e aggiungere connettori verso CRM e ticketing. L'azienda ha già un team di 130 persone e dichiara di voler aprire uffici in Europa entro fine anno: per le software house italiane che già fanno integrazione voce è un terreno fertile, perché Vapi non vende direttamente alle PMI ma cresce tramite partner di implementazione.

Il quadro competitivo

Gli avversari diretti sono Retell AI, Bland AI, Synthflow, ElevenLabs Conversational (la suite del leader della sintesi) e gli stack proprietari di OpenAI (Realtime API) e di Google (Vertex AI Conversational). La differenza è che Vapi resta agnostica al modello sottostante, scelta che piace agli enterprise che non vogliono dipendere da un singolo fornitore. Con il round odierno e Microsoft in cap table tramite M12, è chiaro che il prossimo passo è il salto verso la fascia regolamentata (finanza, sanità, energia) dove la qualità della voce conta meno della certificazione del flusso.