Perplexity sotto accusa: Cloudflare denuncia pratiche AI scorrette
Il mondo dell'intelligenza artificiale non smette mai di sorprendere, ma a volte le sorprese non sono del tutto positive. Recentemente, un fulmine a ciel sereno ha colpito Perplexity, una startup AI in rapida crescita. Cloudflare, colosso della sicurezza web, ha lanciato un'accusa pesante: Perple...
Perplexity sotto accusa: Pratiche AI “nascoste” e la denuncia di Cloudflare
Il mondo dell'intelligenza artificiale non smette mai di sorprendere, ma a volte le sorprese non sono del tutto positive. Recentemente, un fulmine a ciel sereno ha colpito Perplexity, una startup AI in rapida crescita. Cloudflare, colosso della sicurezza web, ha lanciato un'accusa pesante: Perplexity starebbe aggirando le regole del web, utilizzando bot nascosti per raccogliere dati. Un comportamento che, se confermato, solleverebbe seri interrogativi sull'etica e la trasparenza nel settore AI.
Secondo un dettagliato rapporto pubblicato da Cloudflare il 4 agosto 2025, Perplexity avrebbe ignorato le direttive di non scansione e utilizzato agenti utente falsi e indirizzi IP rotanti per accedere a pagine bloccate. Questa pratica, definita “scansione furtiva” (stealth crawling), ha spinto Cloudflare a rimuovere Perplexity dalla sua lista di bot verificati e ad aggiornare le proprie regole per bloccare automaticamente tali attività. È un segnale forte, che indica come la fiducia, pilastro della rete, sia stata messa a dura prova.
La rottura della fiducia: quando i bot ignorano le regole
Fin dalla sua nascita, il web si basa su un principio fondamentale: la fiducia tra siti e bot. Le regole, come quelle contenute nel file robots.txt
, sono chiare: permettono agli amministratori di definire cosa può e non può essere scansionato. Cloudflare lamenta che Perplexity avrebbe sistematicamente ignorato queste indicazioni. “Il comportamento osservato è incompatibile con le norme aperte di scansione web”, ha dichiarato il team di Cloudflare. “I bot ben intenzionati devono essere trasparenti, identificabili e rispettare le preferenze dei siti web.”
Ma come è stata scoperta questa presunta attività furtiva? Cloudflare ha ricevuto numerose lamentele da clienti che, nonostante avessero bloccato esplicitamente i bot PerplexityBot e Perplexity-User, continuavano a vedere i propri contenuti acceduti dall'azienda. Per verificare, Cloudflare ha creato domini di prova privati, protetti da regole stringenti in robots.txt
e da firewall. Eppure, interrogando la piattaforma Perplexity su questi siti sperimentali, l'AI forniva risposte dettagliate e precise sui loro contenuti, un chiaro segnale che li aveva scansionati o raccolti in qualche modo.
Doppia identità: il bot dichiarato e quello nascosto
L'analisi di Cloudflare ha rivelato due modalità di accesso da parte di Perplexity. Da un lato, il bot “dichiarato”, identificato come Mozilla/5.0 (compatible; Perplexity-User/1.0)
, con circa 20-25 milioni di richieste giornaliere. Dall'altro, un bot “nascosto”, che si spaccia per un browser Chrome su macOS (ad esempio, Mozilla/5.0 (Macintosh; Intel Mac OS X…) Chrome/124…
), con 3-6 milioni di richieste. Questo secondo bot utilizzava indirizzi IP e ASNs (Autonomous System Numbers) rotanti per eludere i blocchi imposti da Cloudflare e le regole di robots.txt
. “Quando Perplexity rileva di essere stato bloccato, cambia identità, usa nuovi IP e continua a tentare di accedere al contenuto. Questo comportamento è stato osservato su migliaia di domini e milioni di richieste giornaliere”, spiega Cloudflare.
Questo approccio contrasta nettamente con quello di altri attori del settore, come OpenAI. Quest'ultima, secondo Cloudflare, segue pratiche corrette: usa user-agent chiaramente definiti, rispetta robots.txt
e i blocchi a livello di rete, e non tenta di continuare la scansione da altri agenti se incontra un blocco. Negli stessi esperimenti di Cloudflare, ChatGPT-User ha smesso di scansionare una volta disautorizzato, dimostrando un chiaro rispetto delle politiche dei siti web. Questo paragone è significativo, perché evidenzia come sia possibile innovare rimanendo all'interno di un quadro etico e trasparente.
Le contromisure di Cloudflare e il futuro della scansione AI
Di fronte a queste presunte violazioni, Cloudflare non è rimasta a guardare. L'azienda ha implementato nuove regole nel suo servizio di gestione dei bot, permettendo ai clienti di bloccare completamente questo tipo di scansione non autorizzata, sfidare i bot per distinguere gli umani reali, e utilizzare la funzionalità di robots.txt
gestito, già adottata da oltre 2,5 milioni di siti, che blocca automaticamente i bot AI indesiderati. Inoltre, Cloudflare sta collaborando con organizzazioni come l'IETF per standardizzare nuove estensioni di robots.txt
, per far fronte a queste tattiche elusive. È una corsa agli armamenti digitale, dove la trasparenza e il rispetto delle regole diventano armi fondamentali.
Il caso Perplexity sottolinea una questione cruciale: l'equilibrio tra l'innovazione nell'intelligenza artificiale e il rispetto dei diritti dei creatori e proprietari di contenuti. In un'epoca in cui milioni di pagine web limitano l'accesso ai loro dati per l'addestramento delle AI, l'uso di tecniche furtive può avere gravi conseguenze etiche, legali e commerciali. Cloudflare ha tracciato una linea netta: i bot che non rispettano le norme verranno bloccati. Il messaggio per l'ecosistema è inequivocabile: senza fiducia e trasparenza, il futuro del web aperto è in pericolo. La speranza è che questo episodio serva da monito, spingendo le aziende AI verso pratiche più etiche e sostenibili, per il bene di tutti.