NVIDIA Vera CPU: 200 miliardi sugli agenti IA

Il 28 maggio, mentre Anthropic chiudeva la propria storica Series H, Wall Street si concentrava su un'altra mossa altrettanto strategica: l'apertura ufficiale da parte di NVIDIA del fronte CPU sulla piattaforma Vera Rubin. La Vera, la nuova CPU custom dell'azienda di Jensen Huang, viene proposta non più solo come complemento delle GPU ma come prodotto stand-alone per i carichi di IA agentica, in un mercato che NVIDIA stessa stima da 200 miliardi di dollari.

Cosa è cambiato

Fino al 2025, NVIDIA aveva venduto le proprie CPU solo abbinate alle GPU sui sistemi Grace Blackwell e Vera Rubin. Il messaggio comunicato a metà maggio agli investitori, e ripreso il 28 maggio in una analisi di Motley Fool, è che la Vera CPU diventa una linea di prodotto autonoma. Il motivo è semplice: gli agenti IA - cioè sistemi che pianificano, ragionano e usano strumenti per portare a termine compiti - non richiedono lo stesso tipo di compute degli LLM tradizionali.

Gli agenti chiamano modelli linguistici in modo intermittente, eseguono molto codice classico, gestiscono molti dati strutturati e fanno chiamate a database, API, sistemi legacy. Le GPU sono ferramenta troppo costosa per questa parte. Una CPU progettata per il throughput agentico - tanti thread, banda di memoria altissima, latenza bassa verso le GPU vicine - può fare molto meglio a un costo che NVIDIA giudica due volte più efficiente e il 50% più veloce delle CPU tradizionali.

I numeri dichiarati

La piattaforma Vera Rubin presentata da NVIDIA nel marzo 2026 mette assieme:

Vera CPU: la prima CPU progettata da NVIDIA per agenti IA. Combinata con due Rubin GPU forma il modulo di base.
Rubin GPU: la nuova generazione di acceleratori, sostituta del Blackwell.
NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU, Spectrum-6 Ethernet: il tessuto di rete che tiene insieme migliaia di nodi.
NVIDIA Groq 3 LPU: il chip per inferenza a bassa latenza acquisito da NVIDIA, ora integrato sulla piattaforma.

Il blocco di riferimento, il Vera Rubin NVL72, integra 72 GPU Rubin e 36 CPU Vera. Le metriche dichiarate sono notevoli: addestramento di modelli mixture-of-experts con un quarto delle GPU rispetto a Blackwell; fino a 10 volte più throughput di inferenza per watt, a un decimo del costo per token. Per i clienti hyperscale - Microsoft Azure, Google Cloud, AWS, Oracle - significa poter ridurre il numero di rack a parità di capacità.

Il blocco Vera Rubin NVL72 combina 72 GPU Rubin e 36 CPU Vera. Foto: panumas nikhomkhai / Pexels.

Da dove arriverà la pressione

Il timing della mossa non è casuale. Il 26 maggio TechTimes ha pubblicato una proiezione che ha fatto rumore: nel 2026 gli ASIC custom (chip pensati per un cliente specifico - le TPU di Google, i Trainium di AWS, i Maia di Microsoft) cresceranno in volume del 44,6%, contro il 16,1% delle GPU general purpose. Per la prima volta da quando esiste il boom dell'IA, il custom silicon sta crescendo molto più velocemente del general purpose.

Per NVIDIA il rischio è strutturale. Le quote di mercato non sono ancora minacciate - parliamo di crescite di settori diversi, non di erosione - ma la traiettoria conta. Se gli hyperscaler riescono a far funzionare bene i propri chip custom per i carichi più ripetitivi (l'inferenza dei modelli di base), NVIDIA può ritrovarsi a difendere solo la fascia alta dell'addestramento e dei carichi sperimentali.

La risposta strategica di Huang è doppia. Sul fronte alto, accelerare l'innovazione: Rubin e Vera sono il sesto e settimo nodo lanciati in 18 mesi, un ritmo che nessun produttore di ASIC può tenere. Sul fronte largo, occupare anche i segmenti dove non c'era prima - la CPU per gli agenti, l'inferenza low-latency con Groq, le DPU per la rete - per non lasciare a Broadcom (oggi partner principale degli ASIC di Google e Meta) intero spazio scoperto.

Cosa significa per i clienti

I clienti diretti sono i grandi cloud provider. Per loro la promessa è semplice: più capacità di calcolo per agenti IA a un costo per task più basso. È esattamente quello che gli stessi cloud rivendono come servizio agli sviluppatori - OpenAI, Anthropic, Mistral, le startup - e che alimenta la domanda dei modelli frontier.

Per chi sviluppa o usa agenti IA in produzione, il vantaggio si vede in un anno o due, quando i nuovi rack saranno deployati e i prezzi per token caleranno di nuovo. Nel frattempo, gli annunci di Vera CPU servono soprattutto a NVIDIA per giustificare il proprio multiplo di valutazione: la società è ormai vicina ai 5 trilioni di dollari di capitalizzazione e ogni rallentamento nelle prospettive di crescita basterebbe a innescare una correzione brusca.

NVIDIA punta a 200 miliardi di dollari di mercato indirizzabile sul fronte CPU per agenti. Foto: panumas nikhomkhai / Pexels.

Il quadro finanziario

Il contesto economico è il più solido possibile. NVIDIA ha chiuso il primo trimestre dell'anno fiscale 2027 (chiuso il 26 aprile 2026) con un fatturato record di 81,6 miliardi di dollari, in crescita del 20% sul trimestre precedente e dell'85% sull'anno. Il margine lordo resta sopra il 73%, una cifra che nessuno nei semiconduttori riesce ad avvicinare. È da questa cassa che si finanziano in parallelo il roadmap Rubin/Vera e gli investimenti su software, modelli e supercomputer come il Constellation Campus inaugurato la settimana scorsa a Taipei.

Tre cose da osservare nei prossimi mesi: il roll-out reale dei sistemi Vera Rubin negli hyperscaler (atteso entro la fine del 2026); l'accoglienza degli sviluppatori al pacchetto software che accompagna la nuova CPU; e la velocità con cui Broadcom, Marvell e i produttori di ASIC riusciranno a portare i propri chip ai volumi promessi. Sul tavolo, una torta da 200 miliardi che NVIDIA vuole prendersi interamente.