Le piu' importanti societa' di analisi industriale dell'AI - da Omdia a Dell'Oro - confermano in questi giorni un dato che chi compra GPU conosce gia': le Blackwell B200 e GB200 di NVIDIA sono di fatto esaurite fino alla seconda meta' del 2026, con un backlog di 3,6 milioni di unita' suddivise tra Microsoft, Google, Meta, Amazon e una decina di cloud emergenti. Il dato singolare e' che il collo di bottiglia non e' piu' la fonderia di TSMC - che ha aumentato la capacita' di silicio avanzato del 40% in un anno - ma due ingredienti meno scintillanti: la memoria HBM3e e i trasformatori dell'alta tensione.

HBM3e: la domanda cresce dell'80-100% l'anno, l'offerta del 55%

Ogni GPU Blackwell B200 monta da otto a dodici stack di memoria HBM3e da 36 GB ciascuno. Senza memoria non si addestra niente: i carichi di lavoro di LLM moderni sono limitati dalla banda di memoria piu' che dalla potenza di calcolo. I produttori della HBM nel mondo sono tre - SK Hynix, Samsung e Micron - e tutti e tre vendono prima a NVIDIA, poi ad AMD e Intel, lasciando agli ASIC come TPU di Google quel poco che resta.

Secondo le stime sulla domanda 2026 raccolte da Counterpoint, il fabbisogno globale di HBM crescera' tra l'80% e il 100% rispetto al 2025. L'offerta, vincolata dalle nuove fab che entrano in produzione a Pyeongtaek e a Hsinchu, salira' tra il 50% e il 60%. La forbice spiega perche' i contratti pluriennali firmati negli ultimi sei mesi tra cloud provider e NVIDIA includono clausole di "memory pass-through": il prezzo finale della GPU oscilla con il costo della HBM, scaricando sull'acquirente la volatilita'.

Energia e trasformatori: il secondo collo di bottiglia

Il problema piu' difficile da risolvere e' la rete elettrica. Una sala B200 da 64 GPU GB200 NVL72 richiede da 130 a 145 kW di potenza per rack, contro i 30-35 kW dei rack H100 di tre anni fa. Per servire un cluster di addestramento da 100.000 GPU si parla di 150-200 megawatt di potenza continua, l'equivalente del consumo di una citta' di 200.000 abitanti.

Un cluster Blackwell GB200 consuma 4-5 volte piu' energia per rack rispetto alla generazione H100. Foto: Brett Sayles / Pexels.

Negli Stati Uniti la conseguenza e' visibile: secondo l'Energy Information Administration, dei 12 GW di nuova capacita' data center annunciati per il 2026, quasi 7 GW - oltre la meta' - sono stati cancellati o rinviati per impossibilita' di ottenere allacci elettrici nei tempi promessi. Solo 5 GW sono effettivamente in costruzione. I tempi di consegna dei trasformatori di alta tensione sono passati da 12-18 mesi a 36-48 mesi.

Cosa significa per chi vuole comprare GPU oggi

Una startup che ha bisogno di un cluster da mille GPU H200 oggi si sente rispondere con tempi di consegna tra i 9 e i 18 mesi. Le alternative reali sono tre: passare a GPU AMD MI300X o MI325X, dove i tempi sono di 4-6 mesi ma il software stack richiede porting da CUDA a ROCm; affittare capacita' nei cloud spot di CoreWeave, Lambda o Crusoe, con prezzi orari ancora elevati (3,5-4 dollari per ora di H100); accettare di addestrare su capacita' indiana, malese o degli Emirati, dove l'energia e' piu' abbondante ma la latenza puo' essere un problema.

Per i grandi laboratori - OpenAI, Anthropic, xAI, Meta - la conseguenza e' stata diversa: hanno ridotto la frequenza di rilascio dei modelli di frontiera. Lo si vede nella roadmap di Anthropic, dove Claude Mythos non e' stato rilasciato pubblicamente proprio per evitare di consumare capacita' di inferenza necessaria a tenere in piedi Claude Sonnet e Opus 4.7 in produzione.

Le mosse di NVIDIA: Rubin, finanziamenti e vendor lock-in

NVIDIA risponde con tre leve. La prima e' tecnica: la nuova generazione Rubin, attesa per il primo trimestre 2027, raddoppiera' la banda di memoria HBM4 e dovrebbe permettere lo stesso lavoro con il 40% in meno di unita'. La seconda e' finanziaria: NVIDIA sta investendo in equity direttamente in cloud provider e startup AI - 40 miliardi di dollari nel solo 2026, secondo Bloomberg - garantendo loro forniture in cambio di partecipazioni. La terza e' commerciale: il programma "NVIDIA NIM" trasforma ogni cliente in un consumatore di software in abbonamento (CUDA-X, Omniverse, NeMo), creando vendor lock-in che rendera' la migrazione ad AMD ancora piu' difficile.

La conseguenza per il mercato e' la concentrazione. Chi puo' permettersi prepagare la fornitura - cioe' Big Tech, alcuni stati e una manciata di laboratori AI - garantisce a NVIDIA un margine lordo del 75% che nessun produttore di hardware aveva mai sperimentato in modo continuativo. Per gli altri, il 2026 sara' un anno di scelte difficili sulla scala dei progetti.