La corsa all'oro digitale è finita? L'intelligenza artificiale, così come la conosciamo, potrebbe aver sbattuto contro un muro invisibile ma invalicabile: la fine dei dati. Non è la trama di un film di fantascienza, ma l'allarme lanciato da una delle più influenti banche d'affari al mondo. Secondo Neema Raphael, responsabile dell'ingegneria dei dati di Goldman Sachs, il pozzo dei dati "liberamente accessibili" da cui i modelli AI hanno attinto finora è praticamente vuoto. Parliamo di tutto ciò che è pubblico su internet: testi, immagini, conversazioni sui forum, articoli. Un oceano di informazioni che ha alimentato la crescita esponenziale di modelli come GPT-4 e soci. Ma quell'oceano, a quanto pare, ha un fondale. In un'intervista rilasciata durante il podcast "Exchanges" della banca, Raphael ha messo in chiaro che questa scarsità avrà un impatto diretto sullo sviluppo futuro dell'AI, rendendo più difficile e lento il miglioramento dei modelli nel breve periodo. Pensateci come a un esploratore che ha mappato ogni centimetro del continente conosciuto. Per scoprire nuove terre, ora deve costruire navi più potenti e avventurarsi in mari inesplorati e, soprattutto, privati. Dati Sintetici: La Scorciatoia Piena di Rischi Di fronte a questa carenza, gli sviluppatori non sono rimasti a guardare. La soluzione che sta prendendo piede si chiama "dati sintetici". In parole povere, si tratta di usare un'intelligenza artificiale per creare nuovi dati (testi, immagini, codice) con cui addestrare un'altra intelligenza artificiale. È come chiedere a uno studente di studiare su appunti scritti da un suo compagno, invece che sul libro di testo originale. Raphael, però, mette in guardia: questa è una scorciatoia estremamente rischiosa. Il pericolo, noto agli esperti come "collasso del modello" o "demenza artificiale", è che i modelli inizino a imparare da contenuti artificiali che contengono già errori o stranezze impercettibili. Ripetendo questo processo, le nuove generazioni di AI potrebbero diventare sempre più distaccate dalla realtà, producendo risultati bizzarri e inaffidabili. Immaginate di fare una fotocopia di una fotocopia, più e più volte. L'immagine finale sarà sgranata, deformata, una pallida imitazione dell'originale. Lo stesso potrebbe accadere all'AI, che finirebbe per vivere in una "echo chamber" di dati artificiali, perdendo il contatto con la complessità e le sfumature del mondo umano. La Nuova Frontiera: I Tesori Nascosti nelle Aziende Se i dati pubblici sono esauriti e quelli sintetici sono un campo minato, dove troverà l'AI il carburante per continuare a evolversi? La risposta, secondo Goldman Sachs, si trova all'interno delle aziende. Esistono vasti archivi di dati proprietari, specifici e di altissima qualità, che non sono mai stati toccati. Pensiamo ai dati clinici anonimizzati di un ospedale, alle transazioni finanziarie di una banca, ai dati di telemetria di una casa automobilistica o ai log di produzione di una fabbrica. Questi set di dati sono veri e propri tesori, perché descrivono contesti molto specifici con una precisione che i dati generici di internet non potranno mai avere. Addestrare un'AI su questi dati potrebbe portare alla creazione di modelli ultra-specializzati e incredibilmente potenti. Questa è la nuova corsa all'oro. Le aziende che possiedono questi dati hanno in mano una risorsa di valore inestimabile. La prossima generazione di AI potrebbe non essere un unico modello onnisciente, ma un ecosistema di tanti modelli più piccoli e specializzati, ognuno maestro nel proprio campo, dalla diagnosi medica alla gestione della logistica. Un Futuro Diverso per l'Intelligenza Artificiale L'era del "data scraping" selvaggio sembra dunque al tramonto. Ci troviamo a un bivio cruciale. Da una parte, la necessità di trovare nuovi orizzonti per non fermare il progresso. Dall'altra, i rischi legati a scorciatoie come i dati sintetici e le enormi questioni etiche e di privacy legate all'uso dei dati aziendali. Il futuro dell'intelligenza artificiale sarà probabilmente meno centralizzato e più frammentato. Assisteremo a una biforcazione: da un lato i giganti tecnologici che cercheranno di mantenere i loro modelli generalisti con ogni mezzo, dall'altro una miriade di attori specializzati che costruiranno soluzioni AI mirate su dati proprietari. La vera innovazione, forse, non verrà più da chi ha il modello più grande, ma da chi possiede i dati più preziosi e sa come sfruttarli. La partita è appena ricominciata, ma le regole del gioco sono cambiate per sempre.