Perplexity sotto accusa: il lato oscuro dello scraping AI

Il mondo dell'intelligenza artificiale è in fermento, ma non sempre per le ragioni migliori. Questa volta, i riflettori sono puntati su Perplexity, un'azienda AI che si trova al centro di una controversia bollente.

Perplexity sotto accusa: il lato oscuro dello scraping nell'era AI

Il mondo dell'intelligenza artificiale è in fermento, ma non sempre per le ragioni migliori. Questa volta, i riflettori sono puntati su Perplexity, un'azienda AI che si trova al centro di una controversia bollente. L'accusa arriva direttamente da Cloudflare, un gigante delle infrastrutture internet, che sostiene come Perplexity stia aggirando attivamente i blocchi messi in atto dai siti web per impedire lo scraping dei loro contenuti. Una pratica che solleva non pochi interrogativi sull'etica e sulla legalità nell'uso dei dati per addestrare i modelli AI.

Secondo quanto riportato da Cloudflare in una ricerca pubblicata, Perplexity starebbe ignorando le direttive esplicite dei siti web, arrivando persino a mascherare le proprie attività di crawling e scraping. Si parla di un vero e proprio tentativo di aggirare le preferenze dei proprietari dei siti, cambiando l'identità dei bot e le reti autonome utilizzate. Un comportamento che, se confermato, minerebbe alla base la fiducia tra le aziende AI e i fornitori di contenuti, essenziali per l'addestramento di questi modelli.

La guerra dei bot: chi vince tra AI e proprietari di contenuti?

Il problema non è nuovo. Da tempo, le startup AI hanno "ingoiato" enormi quantità di dati dal web – testi, immagini, video – spesso senza un'esplicita autorizzazione. I proprietari dei siti, dal canto loro, hanno tentato di difendersi utilizzando strumenti come il file Robots.txt, uno standard web che indica a motori di ricerca e, teoricamente, anche alle aziende AI, quali pagine possono essere indicizzate e quali no. Tuttavia, come sottolinea anche Reuters, questi sforzi hanno avuto risultati "misti finora", con molte compagnie AI che aggirano lo standard.

Cloudflare ha rilevato che Perplexity non solo usa il suo user-agent dichiarato, ma anche un browser generico che imita Google Chrome su macOS quando il suo crawler ufficiale viene bloccato. Questa tattica, secondo Cloudflare, è stata osservata su decine di migliaia di domini e milioni di richieste al giorno. Una portata che rende la questione particolarmente grave, evidenziando una strategia deliberata per ottenere dati, aggirando le volontà dei legittimi proprietari.

Le reazioni e il futuro del web: tra etica e profitto

La risposta di Perplexity non si è fatta attendere. Un portavoce dell'azienda, Jesse Dwyer, ha liquidato il post di Cloudflare come una "proposta commerciale", sostenendo che gli screenshot non mostrano alcun accesso ai contenuti e che il bot citato non sarebbe nemmeno di Perplexity. Dichiarazioni che, tuttavia, si scontrano con le evidenze presentate da Cloudflare, che ha condotto test specifici dopo le lamentele dei propri clienti, confermando l'aggiramento dei blocchi.

Questa non è la prima volta che Perplexity si trova sotto i riflettori per pratiche di scraping non autorizzate. Già l'anno scorso, testate giornalistiche come Wired avevano accusato l'azienda di plagio, e il CEO di Perplexity, Aravind Srinivas, aveva faticato a definire il concetto di plagio durante un'intervista con TechCrunch. Questi episodi alimentano un dibattito più ampio sulla responsabilità delle aziende AI e sulla necessità di trovare un equilibrio tra l'innovazione tecnologica e il rispetto dei diritti d'autore e della proprietà intellettuale.

Cloudflare, dal canto suo, ha preso una posizione forte contro i crawler AI, arrivando a lanciare un mercato che permette ai proprietari di siti di far pagare i bot AI per accedere ai loro contenuti. Il CEO di Cloudflare, Matthew Prince, ha più volte ribadito che l'AI sta "rompendo il modello di business di internet", in particolare per gli editori. La sfida è complessa: da un lato, l'AI ha bisogno di dati per evolversi; dall'altro, i creatori di contenuti devono essere tutelati e remunerati per il loro lavoro. Il futuro del web e dell'AI dipenderà molto da come si risolverà questo conflitto di interessi, cercando soluzioni che promuovano l'innovazione senza sacrificare l'equità e la trasparenza.