L'AI a corto di carburante: finiti i dati per addestrarla? Una doccia fredda per il mondo dell'intelligenza artificiale, proprio nel mezzo della sua età dell'oro. Secondo un'analisi di Goldman Sachs, potremmo essere arrivati a un punto di svolta critico: i dati liberamente accessibili per addestrare i modelli linguistici di grandi dimensioni (LLM) sono, in sostanza, esauriti. Il serbatoio è vuoto. L'allarme arriva da Neema Raphael, responsabile dell'ingegneria dei dati della celebre banca d'affari. Durante un intervento al podcast “Exchanges”, Raphael ha usato parole nette, affermando che la montagna di testi, immagini e informazioni disponibili online, su cui modelli come GPT-4 sono cresciuti, è stata ormai divorata. Come riportato da AI News Italia, questo esaurimento potrebbe frenare bruscamente l'evoluzione dell'AI nel breve-medio periodo. Un motore che rischia di grippare Perché questa notizia è così importante? Immaginiamo i modelli di intelligenza artificiale come studenti incredibilmente veloci. Finora, hanno avuto a disposizione l'intera biblioteca di internet per imparare. Ma se non ci sono più libri nuovi da leggere, come possono diventare più intelligenti e precisi? L'innovazione rischia di rallentare, non per mancanza di capacità computazionale, ma per assenza di nuova conoscenza da assorbire. Questa scarsità di "cibo" per le AI costringe le aziende a guardare altrove, aprendo scenari tanto interessanti quanto complessi. La corsa all'oro non è più per chi ha l'algoritmo più potente, ma per chi riesce a scovare nuove, preziose fonti di dati. La nuova frontiera: i dati proprietari e sintetici Se il web pubblico è stato prosciugato, dove si trovano le nuove oasi di dati? Raphael ne indica due, molto diverse tra loro. La prima è rappresentata dai dati proprietari: enormi archivi di informazioni che le aziende custodiscono gelosamente. Parliamo di dati finanziari, cartelle cliniche anonimizzate, logistica, processi industriali. Dati di altissima qualità e specificità che potrebbero insegnare alle AI a compiere task molto verticali con una precisione mai vista prima. La seconda via, già ampiamente percorsa, è quella dei dati sintetici. In pratica, si usano modelli di AI già addestrati per generare nuovi testi, immagini e codici con cui nutrire i modelli di nuova generazione. Una soluzione apparentemente geniale, ma che nasconde un rischio enorme, definito da alcuni esperti "collasso del modello". Il paradosso dei dati sintetici: una soluzione o un veleno? Neema Raphael è molto chiaro su questo punto. Addestrare continuamente un'AI con dati prodotti da un'altra AI è come fare una fotocopia di una fotocopia. A ogni passaggio, si perde un po' di qualità, un po' di aderenza alla realtà. Le imperfezioni e i bias del modello "genitore" vengono amplificati nel modello "figlio", che a sua volta li trasmetterà ai successivi. Il risultato? Modelli che nel tempo potrebbero diventare sempre meno connessi al mondo umano, producendo risultati bizzarri, ripetitivi o semplicemente sbagliati. Si rischia di creare una sorta di eco-chamber digitale in cui le AI imparano le une dalle altre, allontanandosi sempre di più dalla realtà fattuale e dalla ricchezza del linguaggio umano. Considerazioni finali La fame di dati delle Big Tech è ormai evidente, tanto da spingerle talvolta oltre i limiti della legalità, come dimostrano le recenti indagini sull'uso non autorizzato di contenuti per l'addestramento. L'allarme di Goldman Sachs non è solo un avvertimento tecnico, ma delinea il prossimo campo di battaglia strategico. La capacità di accedere a dati di alta qualità, siano essi proprietari o sintetici ma ben gestiti, determinerà i vincitori e i vinti della prossima fase dell'intelligenza artificiale. La domanda ora non è più solo "quanto potente può diventare un'AI?", ma "con cosa la nutriremo per farla crescere in modo sano e affidabile?". La risposta a questa domanda definirà il futuro non solo della tecnologia, ma anche del nostro rapporto con essa.