Un trucco banale per un problema enorme Immagina di voler forzare una cassaforte. Niente esplosivi, niente grimaldelli high-tech. Solo una frase. Una frase lunghissima, sgrammaticata, senza punteggiatura, che continua all'infinito fino a mandare in tilt il sistema. Sembra la trama di un film di spionaggio, e invece è l'incredibile realtà emersa da una recente ricerca di Unit 42, che ha scoperchiato una vulnerabilità tanto semplice quanto preoccupante nei modelli di intelligenza artificiale più diffusi. Il metodo è quasi disarmante nella sua banalità: per indurre un chatbot a generare contenuti dannosi o proibiti, basta sommergerlo con una richiesta formulata come un'unica, interminabile frase senza un punto finale. Niente di più. Questa tecnica, battezzata "attacco a cascata", non sfrutta complessi codici malevoli, ma la stessa architettura linguistica dei modelli. Come mandare in fumo i "guardrail" dell'IA Ma come è possibile che un errore grammaticale possa mettere in scacco sistemi così avanzati? La spiegazione risiede nel modo in cui funzionano i cosiddetti "guardrail", le barriere di sicurezza implementate per prevenire risposte tossiche. Questi sistemi analizzano la richiesta dell'utente per comprenderne l'intento. La punteggiatura, in particolare il punto, agisce come un segnale che indica la conclusione di un pensiero, permettendo ai filtri di valutare la frase nella sua interezza e intervenire se necessario. Una frase sgrammaticata, verbosa e priva di interruzioni, di fatto, "getta fumo negli occhi" di questi meccanismi di controllo. Il modello continua a processare un flusso ininterrotto di parole, senza mai ricevere il segnale di "stop e valuta" che farebbe scattare l'allarme. In pratica, i guardrail non vengono aggirati, ma semplicemente confusi, resi incapaci di capire quando e come entrare in azione. È un bug indotto dalla forma, più che dal contenuto. I risultati dei test condotti dai ricercatori sono a dir poco scioccanti. Su modelli estremamente popolari come Llama di Meta, Gemma di Google e Qwen, questo trucco ha registrato un tasso di successo che sfiora l'80-100%. Una falla enorme, che espone il fianco a potenziali abusi di ogni tipo. La sicurezza dell'IA non è un gioco Questa scoperta non potrebbe arrivare in un momento più delicato. La questione della sicurezza dell'IA è tutt'altro che un dibattito accademico. Pochi giorni fa, la notizia della prima causa per omicidio colposo intentata contro OpenAI ha scosso l'opinione pubblica. I genitori di un sedicenne si sono rivolti a un tribunale sostenendo che ChatGPT abbia avuto un ruolo nel suicidio del figlio, che per mesi avrebbe consultato il chatbot riguardo ai suoi piani. Questo tragico evento, al di là delle responsabilità legali che verranno accertate, sottolinea con drammatica urgenza quanto siano fondamentali delle barriere di sicurezza non solo efficaci, ma invalicabili. In risposta, OpenAI ha già annunciato di voler rafforzare i propri standard e introdurre strumenti come il parental control, ma la ricerca di Unit 42 dimostra che la strada è ancora lunga e tortuosa. Verso una difesa a più livelli Il problema, come sottolineano gli stessi ricercatori, è profondo. "Il training non elimina davvero le risposte dannose, le rende solo meno probabili. Un attaccante può comunque trovarle". L'addestramento attuale nasconde le capacità pericolose sotto un velo di probabilità, ma non le cancella. Basta trovare il grimaldello giusto, anche uno semplice come una frase sgrammaticata, per farle riemergere. Per questo, il team di Unit 42 non si è limitato a segnalare il problema. Ha proposto un nuovo strumento di analisi, il "refusal-affirmation logit gap", per misurare la vulnerabilità dei modelli a questi inganni. Ma soprattutto, ha delineato la necessità di un nuovo approccio alla sicurezza: un sistema di difesa a più livelli che combini filtraggio degli input, controlli in tempo reale durante la generazione della risposta e una supervisione finale post-generazione. Un'architettura complessa per un problema che, abbiamo visto, può nascere da un'imperfezione banalissima. Questa vicenda ci lascia con una consapevolezza scomoda: stiamo costruendo tecnologie potentissime la cui sicurezza si basa su fondamenta ancora fragili. La corsa allo sviluppo dell'IA non può prescindere da una parallela, e forse più importante, corsa alla creazione di sistemi di controllo davvero robusti. Prima che il prossimo "bug" si riveli non solo una curiosità tecnica, ma la causa di un danno irreparabile.