Un gigante affamato a corto di cibo L'intelligenza artificiale sta crescendo a un ritmo vertiginoso, ma potrebbe aver urtato un muro invisibile: la fine dei dati. L'allarme, tanto perentorio quanto preoccupante, arriva da una fonte insospettabile: Goldman Sachs. Non si tratta di un'analisi di mercato, ma di una constatazione tecnica che potrebbe ridefinire la corsa all'oro dell'AI. Secondo Neema Raphael, responsabile dell’ingegneria dei dati della celebre banca d'affari, il problema è semplice e brutale. Durante un intervento nel podcast “Exchanges”, Raphael ha dichiarato che i modelli di intelligenza artificiale sono diventati così grandi e voraci da aver già consumato la quasi totalità dei dati "liberamente accessibili" disponibili sul pianeta. Parliamo di tutto ciò che è reperibile online: testi, immagini, articoli, l'intero scibile umano digitalizzato e pubblico. Questa "saturazione" dei dati, come riportato da AI News Italia, non è un problema futuro, ma attuale. L'impatto più immediato? Un rallentamento nello sviluppo e nel miglioramento dei modelli AI. Se l'addestramento è il motore della loro evoluzione, la mancanza di nuovo carburante rischia di bloccare la marcia, o almeno di renderla molto più complessa. Le nuove miniere di dati: aziendali e sintetici Se il banchetto pubblico è finito, dove troverà nutrimento l'AI? Raphael individua due percorsi principali, entrambi pieni di opportunità e di incognite. Il primo è una vera e propria frontiera ancora inesplorata: i dati proprietari delle aziende. Si tratta di enormi patrimoni informativi, specifici e di altissima qualità, che finora sono rimasti chiusi nei server di banche, ospedali, industrie manifatturiere e società di logistica. Immaginate un'AI medica addestrata non solo su paper scientifici pubblici, ma su milioni di cartelle cliniche anonimizzate, o un'AI finanziaria che impara da decenni di transazioni reali. Il potenziale per creare modelli ultra-specializzati e incredibilmente precisi è enorme. Questa strada, però, solleva questioni delicate su privacy, sicurezza e sulla possibile creazione di monopoli basati sul possesso esclusivo di dati di valore. Dati sintetici: una scorciatoia rischiosa? La seconda via, già ampiamente battuta dagli sviluppatori, è quella dei dati sintetici. In pratica, si usano modelli di AI già esistenti per generare nuovo testo, immagini e codice con cui addestrare i modelli futuri. È una soluzione apparentemente geniale per aggirare la scarsità di dati reali, ma che nasconde un rischio che Raphael definisce concreto. Il pericolo è quello che in gergo viene chiamato "collasso del modello". Addestrare un'AI sui prodotti di un'altra AI è come fare una fotocopia di una fotocopia: a ogni passaggio, la qualità si degrada, si perdono dettagli e si amplificano i difetti. Si rischia di creare un'intelligenza artificiale che impara da se stessa, allontanandosi progressivamente dal mondo reale e dalla logica umana, finendo per produrre risultati distorti o insensati. Cosa ci riserva il futuro? L'analisi di Goldman Sachs non è una condanna, ma una fotografia realistica di un punto di svolta. L'era della crescita "bruta", basata sull'ingestione di quantità sconfinate di dati pubblici, sembra volgere al termine. La fame delle Big Tech per i dati è stata tale da spingerle, come emerso da recenti inchieste, a raschiare il fondo del barile, utilizzando persino contenuti protetti da copyright in modo non sempre trasparente. Ora la sfida cambia. Il futuro dell'AI potrebbe non dipendere più solo dalla potenza di calcolo o dal numero di parametri di un modello, ma dalla capacità di accedere a dati di alta qualità o di generarli in modo intelligente e sicuro. Potremmo assistere a una biforcazione: da un lato, modelli generalisti che faticano a migliorare; dall'altro, sistemi specializzati e potentissimi, ma nelle mani di poche aziende che possiedono i dati giusti. La fine del "pranzo gratis" dei dati ci costringe a porci domande fondamentali. Questa scarsità spingerà verso un'innovazione più efficiente e responsabile o creerà un nuovo divario digitale, quello tra chi possiede i dati e chi no? Una cosa è certa: la corsa all'intelligenza artificiale è appena diventata molto più interessante.