Perplexity sotto accusa: Pratiche 'furtive' nel web crawling?

Cloudflare ha accusato pubblicamente Perplexity, una startup di intelligenza artificiale in rapida crescita, di impiegare pratiche opache per raccogliere contenuto web. Secondo quanto rivelato, Perplexity avrebbe ignorato direttive esplicite di non tracciamento, usando bot mascherati e IP a rotaz...

Perplexity sotto accusa: Cloudflare denuncia pratiche 'furtive' nel web crawling

Immaginate un mondo digitale dove le regole sono chiare: i bot, gli 'spazzini' del web, dovrebbero dichiarare la loro identità e rispettare i confini imposti dai siti. Ma cosa succede quando un attore importante, come la startup di intelligenza artificiale Perplexity, viene accusato di infrangere queste regole? È esattamente lo scenario che emerge dal recente rapporto di Cloudflare, un colosso della sicurezza e delle prestazioni web.

Secondo quanto rivelato il 4 agosto 2025 da Cloudflare, Perplexity avrebbe utilizzato tattiche opache per raccogliere contenuti online. L'accusa è pesante: ignorare le direttive di non tracciamento (i cosiddetti robots.txt), mascherare i propri bot con identità false e usare indirizzi IP a rotazione per accedere a pagine bloccate. Un comportamento che Cloudflare definisce “rastreo furtivo” e che ha portato l'azienda a rimuovere Perplexity dalla lista dei bot verificati, implementando nuove regole per bloccare automaticamente queste attività. Un segnale forte che scuote il mondo dell'AI e del web.

La rottura di un patto silenzioso: fiducia e trasparenza sul web

Il funzionamento del web si basa da sempre su un principio di fiducia. I robots.txt sono come dei cartelli stradali digitali che dicono ai bot dove possono andare e dove no. Cloudflare sostiene che Perplexity abbia sistematicamente ignorato questi segnali, minando le basi di questa fiducia. “Il comportamento osservato è incompatibile con le norme aperte di rastreo web”, ha dichiarato il team di Cloudflare. “I bot benintenzionati devono essere trasparenti, identificabili e rispettare le preferenze dei siti web.”

Questo non è un dettaglio da poco. In un'era in cui l'AI si nutre di dati, la modalità con cui questi dati vengono raccolti diventa fondamentale. Se le aziende di AI iniziano a bypassare le regole, si apre una porta pericolosa che potrebbe compromettere l'intero ecosistema digitale. La trasparenza è la chiave per un'innovazione etica e sostenibile. Ma come ha fatto Cloudflare a scoprire queste pratiche? La risposta è nel monitoraggio costante e nelle segnalazioni degli utenti.

Identità nascoste e tattiche evasive: come Cloudflare ha smascherato Perplexity

Le prime avvisaglie sono arrivate dai clienti Cloudflare, che continuavano a vedere Perplexity accedere ai loro contenuti nonostante avessero bloccato i bot “PerplexityBot” e “Perplexity-User”. Per verificare, Cloudflare ha allestito domini di prova privati, protetti da robots.txt rigorosi e regole di firewall (WAF). Il risultato è stato sorprendente: Perplexity restituiva risposte dettagliate e precise sui contenuti di questi siti sperimentali, dimostrando di averli in qualche modo scansionati.

L'indagine ha rivelato una sorta di “doppia vita” dei bot di Perplexity. Da un lato, il bot dichiarato, riconoscibile con user-agent come Mozilla/5.0 (compatible; Perplexity-User/1.0), responsabile di circa 20-25 milioni di richieste giornaliere. Dall'altro, un bot “sotto copertura”, mascherato da browser Chrome su macOS (ad esempio, Mozilla/5.0 (Macintosh; Intel Mac OS X…) Chrome/124…), che effettuava 3-6 milioni di richieste al giorno. Questo bot nascosto utilizzava indirizzi IP a rotazione e diversi ASNs per eludere i blocchi. “Quando Perplexity rileva di essere stato bloccato, cambia identità, utilizza nuovi IP e continua a tentare di accedere al contenuto. Questo comportamento è stato osservato su migliaia di domini e milioni di richieste giornaliere”, ha spiegato Cloudflare.

Un confronto con OpenAI: pratiche a confronto

Per contestualizzare le accuse, Cloudflare ha confrontato il comportamento di Perplexity con quello di altri attori del settore, come OpenAI. Quest'ultima, a differenza di Perplexity, sembra seguire buone pratiche: utilizza user-agent chiaramente definiti e pubblici, rispetta il robots.txt e i blocchi a livello di rete, firma le sue richieste HTTP e, soprattutto, non tenta di continuare il crawling da altri agenti se incontra un blocco. Negli stessi esperimenti di Cloudflare, il bot di OpenAI, ChatGPT-User, ha smesso di scansionare una volta disautorizzato, dimostrando un chiaro rispetto delle politiche dei siti web. Questo confronto evidenzia la differenza tra un approccio trasparente e uno che solleva seri interrogativi etici.

Le contromisure di Cloudflare e il futuro del web

Di fronte a queste pratiche, Cloudflare non è rimasta a guardare. L'azienda ha implementato nuove regole nel suo servizio di gestione dei bot, permettendo ai clienti di bloccare completamente questo tipo di crawling non autorizzato, sfidare i bot per distinguere gli umani reali e utilizzare la funzionalità di robots.txt gestito, già adottata da oltre 2,5 milioni di siti. Questa funzionalità blocca automaticamente i bot AI indesiderati. Inoltre, Cloudflare sta collaborando con organizzazioni come IETF per standardizzare nuove estensioni del robots.txt che possano contrastare queste tattiche evasive.

Il caso Perplexity solleva una questione cruciale: come bilanciare l'innovazione nell'intelligenza artificiale con il rispetto dei diritti dei creatori e dei proprietari di contenuti? In un momento in cui milioni di pagine web stanno limitando l'accesso ai loro dati per l'addestramento dell'AI, l'uso di tecniche furtive può avere gravi conseguenze etiche, legali e commerciali. Cloudflare ha tracciato una linea chiara: i bot che non rispettano le regole saranno bloccati. Il messaggio è inequivocabile: senza fiducia e trasparenza, il futuro del web aperto è in serio pericolo. È un monito per tutte le aziende di AI: l'innovazione deve andare di pari passo con la responsabilità.