Perplexity sotto accusa: il 'crawling furtivo' che fa infuriare Cloudflare

La startup di ricerca AI Perplexity è sotto accusa da Cloudflare per aver utilizzato tattiche di 'crawling furtivo' per aggirare le restrizioni dei siti web e accedere ai loro contenuti. La vicenda solleva dubbi etici sulla raccolta dei dati nell'intelligenza artificiale.

Perplexity sotto accusa: il 'crawling furtivo' che fa infuriare Cloudflare

Il mondo dell'intelligenza artificiale non smette di far parlare di sé, e non sempre per le ragioni giuste. Questa volta, i riflettori sono puntati su Perplexity, la startup di ricerca AI, accusata da Cloudflare di utilizzare tattiche poco ortodosse per raccogliere dati dal web. La vicenda, che ha dell'incredibile, solleva interrogativi importanti sull'etica e la trasparenza nel panorama dell'AI.

Secondo un rapporto di Cloudflare, uno dei principali fornitori di servizi internet al mondo, Perplexity starebbe aggirando le restrizioni imposte dai siti web per impedire ai suoi bot di accedere ai contenuti. In pratica, quando il bot di Perplexity viene bloccato, cambierebbe la sua identità per fingersi un normale utente o addirittura un browser, ingannando i sistemi di sicurezza. È un po' come se un ladro, dopo aver tentato di entrare dalla porta principale e averla trovata chiusa, si travestisse da postino per provare a intrufolarsi.

La strategia del travestimento digitale

La questione non è nuova. Già lo scorso anno, Perplexity era stata al centro delle polemiche per aver scavalcato paywall e ignorato i file robots.txt, che indicano ai bot quali parti di un sito non devono essere indicizzate. All'epoca, Aravind Srinivas, CEO di Perplexity, aveva attribuito la colpa a crawler di terze parti. Ma ora, le accuse di Cloudflare sono ben più specifiche e dettagliate.

Cloudflare ha condotto dei test creando nuovi domini con restrizioni attive contro i bot di Perplexity. Quello che è emerso è sorprendente: inizialmente, Perplexity si presenta con la sua vera identità, “PerplexityBot” o “Perplexity-User”. Ma se trova un blocco, cambia immediatamente il suo user agent – l'identificativo che dice al sito chi sta navigando – per fingersi “Google Chrome su macOS”. Non solo: utilizzerebbe anche indirizzi IP “a rotazione” non dichiarati ufficialmente e cambierebbe i suoi Autonomous System Networks (ASN) per eludere i blocchi. Cloudflare ha rilevato questa attività su decine di migliaia di domini e milioni di richieste al giorno. Un'operazione su larga scala, insomma.

Un “pubblicità stunt” o una questione di principio?

La reazione di Perplexity non si è fatta attendere. Jesse Dwyer, portavoce dell'azienda, ha liquidato il rapporto di Cloudflare come uno “pubblicità stunt”, sostenendo che ci siano “molti malintesi” nel post del blog. Affermazioni che, al momento, non sembrano placare le acque, soprattutto considerando il tono deciso di Cloudflare. Matthew Prince, CEO di Cloudflare, non è nuovo a posizioni forti riguardo alla minaccia che l'AI rappresenta per gli editori, definendola una “minaccia esistenziale”. Già il mese scorso, Cloudflare aveva iniziato a permettere ai siti web di chiedere alle aziende AI di pagare per indicizzare i loro contenuti e aveva bloccato i crawler AI per impostazione predefinita.

Questa vicenda ci porta a riflettere su un punto cruciale: l'accesso ai dati. L'AI si nutre di informazioni, ma come vengono raccolte queste informazioni? È etico aggirare le regole stabilite dai proprietari dei siti? La trasparenza è fondamentale, soprattutto in un settore in così rapida evoluzione. Se le aziende AI iniziano a operare in una zona grigia, o peggio, in aperta violazione delle norme, il rischio è che si perda la fiducia del pubblico e che si crei un precedente pericoloso per il futuro del web.

Le implicazioni per il futuro del web e dell'AI

Le accuse di Cloudflare non sono solo un battibecco tra aziende tecnologiche; sono un segnale d'allarme per l'intero ecosistema digitale. Se i bot possono aggirare le restrizioni, cosa significa per la protezione dei contenuti, per i diritti d'autore e per la monetizzazione dei siti web? I publisher, che investono tempo e risorse nella creazione di contenuti di qualità, si trovano di fronte a una sfida enorme. Se i loro articoli vengono "aspirati" senza permesso, come potranno continuare a sostenere il loro lavoro?

La risposta di Perplexity, che definisce il tutto uno "stunt pubblicitario", non aiuta a chiarire la situazione. È cruciale che ci sia maggiore trasparenza da parte delle aziende AI riguardo alle loro pratiche di raccolta dati. Non si tratta solo di conformità tecnica, ma di costruire un rapporto di fiducia con gli utenti e con i creatori di contenuti. La tecnologia dovrebbe essere al servizio dell'innovazione, ma sempre nel rispetto delle regole e dell'etica.

Questa storia ci ricorda che, mentre l'AI promette di rivoluzionare il modo in cui cerchiamo e accediamo alle informazioni, dobbiamo essere vigili. Le “guide pratiche AI” non dovrebbero includere guide su come eludere i sistemi di sicurezza. Il dibattito è aperto e sarà interessante vedere come si evolverà, ma una cosa è certa: la trasparenza e il rispetto delle regole saranno sempre più centrali nel futuro dell'intelligenza artificiale.