Groq sfida NVIDIA: la battaglia silenziosa dell'AI

Quando si parla di intelligenza artificiale generativa, la mente corre subito a supercomputer, data center imponenti e, inevitabilmente, a NVIDIA. Eppure, in questo universo in continua espansione, spesso si trascura una distinzione fondamentale: il ciclo di vita dell'AI si divide in due fasi cruciali: l'addestramento e l'inferenza. Ed è proprio nella seconda, meno appariscente ma più capillare, che si sta consumando la prossima grande rivoluzione del silicio.

L'addestramento dei modelli, quel processo mastodontico in cui l'AI impara a prevedere la continuazione di un testo, richiede una potenza di calcolo smisurata. Questo è il regno incontrastato delle GPU, in particolare quelle di NVIDIA, che ha saputo costruire un ecosistema hardware e software (CUDA) quasi insuperabile. Ma la storia cambia radicalmente quando si passa all'inferenza, ossia all'utilizzo quotidiano del modello addestrato per rispondere alle domande degli utenti. Qui, la potenza bruta cede il passo all'efficienza: bassa latenza, stabilità e un consumo energetico ridotto diventano le priorità assolute.

L'ascesa di Groq e delle LPU: efficienza prima di tutto

In questo scenario emergono nuovi attori con proposte altamente specializzate. Tra i più promettenti c'è Groq, una startup americana che ha progettato da zero un chip orientato specificamente all'inferenza dei modelli di linguaggio. Invece di competere frontalmente nel costoso mercato dell'addestramento, Groq si concentra sull'ottimizzazione dell'uso quotidiano dell'AI: generare risposte rapide ed efficienti senza la necessità di infrastrutture ciclopiche.

Groq non sta costruendo i propri data center, ma sta implementando i suoi chip in strutture di terzi. L'apertura del suo primo centro di dati in Europa, in Finlandia, in collaborazione con Equinix, segna un momento chiave. Questa mossa strategica arriva proprio mentre i grandi fornitori di AI stanno ripensando la loro strategia hardware, riconoscendo l'importanza crescente dell'inferenza.

Un cambio di paradigma nel mercato dei chip

I numeri parlano chiaro e supportano questa transizione. Uno studio di McKinsey & Company stima che, a breve termine, il mercato dell'hardware per l'inferenza sarà il doppio di quello per l'addestramento nei data center, e addirittura tre volte superiore nei dispositivi periferici come smartphone o edge devices. Analogamente, Barclays prevede che, entro due anni, i colossi tecnologici spenderanno più in chip di inferenza che in quelli di addestramento. Se queste previsioni si avverassero, NVIDIA potrebbe perdere il 50% della sua quota di mercato, circa 200 miliardi di dollari che aziende come Groq sono pronte a contendersi.

Con la diffusione esponenziale di strumenti come ChatGPT, Gemini o Claude, l'inferenza non è più un'attività marginale: è il cuore pulsante dell'uso quotidiano dell'intelligenza artificiale. Gli utenti non vogliono attendere minuti per una risposta né pagare somme esorbitanti per ogni query generata. Ciò che cercano è immediatezza, efficienza e scalabilità. Ed è qui che le LPU (Language Processing Units) potrebbero affermarsi come il nuovo standard.

La fine di un monopolio?

La scelta di Groq di aprire il suo primo centro dati in Europa non è casuale. È un messaggio diretto a un mercato che brama sovranità digitale, sostenibilità energetica e alternative tecnologiche che non dipendano esclusivamente da giganti consolidati come NVIDIA. Se l'inferenza è davvero il futuro – e tutti gli indizi puntano in questa direzione – allora il presente ha appena preso una svolta inaspettata.

La torta non è più solo nell'addestramento di modelli colossali, ma nel farli funzionare con velocità, affidabilità e costi contenuti. In questo terreno, il dominio di NVIDIA mostra le prime crepe. E Groq, in silenzio, si sta preparando a diventare il grande sfidante dei prossimi anni. La battaglia per l'AI quotidiana è appena iniziata, e l'efficienza sarà la sua arma più potente.