Nel rapporto quotidiano con le intelligenze artificiali generative, molti utenti hanno fatto la stessa esperienza: ci si rivolge al modello, si formula una richiesta precisa e la risposta è un rifiuto. Il sistema si blocca, spiega che non può procedere per motivi di copyright, tutela della privacy, divieti legati all’ambito medico oppure perché la domanda riguarda contenuti violenti o estremisti. Chi tenta di usare l’AI per generare materiale esplicito, malware, propaganda o istruzioni sensibili si scontra con le barriere predisposte dai fornitori dei modelli.
Queste barriere, i cosiddetti guardrail di sicurezza, non sono però impenetrabili. Nel tempo, ricercatori di sicurezza e criminali informatici hanno sviluppato metodi di aggiramento, i famosi jailbreak, capaci di “convincere” il modello a ignorare le regole.
Come funzionano i guardrail di sicurezza
Per ridurre il rischio di abusi, i provider seguono due linee principali. La prima riguarda la fase di addestramento: il modello viene allineato a determinati valori, istruito a rifiutare certe richieste e a seguire regole precise. La seconda consiste nell’uso di filtri esterni o classificatori che analizzano testi in ingresso e in uscita, alla ricerca di schemi associati a contenuti pericolosi o vietati.
Secondo Matteo Prandi, ricercatore e AI safety expert di Dexai, il nodo sta proprio qui: sia l’allineamento sia i filtri sono costruiti su esempi di richieste espresse in modo diretto, in prosa ordinaria e con formulazioni chiare. Finché l’utente si mantiene in questo perimetro, i meccanismi di rifiuto lavorano in modo efficace.
Quando, invece, la domanda viene avvolta in strutture linguistiche più creative, i limiti iniziano a cedere. Negli anni sono nate tecniche che giocano su narrazioni in più fasi, simulazioni di ruolo, richieste indirette o l’aggiunta di adversarial suffix, lunghe sequenze di caratteri e parole apparentemente prive di senso che alterano il comportamento del modello e indeboliscono la sua “cautela”.
I jailbreak in versi messi alla prova
Tra questi approcci, uno in particolare ha attirato di recente l’attenzione: trasformare le richieste in poesia. I ricercatori di Icaro Lab, laboratorio specializzato in AI Safety Evaluation collegato a Dexai, hanno pubblicato uno studio in pre-print in cui mostrano come la stessa domanda, rifiutata se espressa in prosa, venga spesso accettata quando viene riformulata in versi.
Il team ha testato la strategia su diversi sistemi, tra cui ChatGPT, Gemini, DeepSeek, Claude e altri modelli generativi. Il risultato medio è un tasso di successo attorno al 62%, con differenze marcate da un modello all’altro. In alcuni casi, come per Gemini 2.5 Pro, l’approccio poetico è riuscito a superare i guardrail in tutte le prove considerate.
La dinamica descritta dai ricercatori è netta: il modello continua a comprendere perfettamente il contenuto della richiesta, mentre i meccanismi di rifiuto non la riconoscono più come pericolosa. La poesia – con il suo uso di metafore, immagini, rime e una sintassi meno lineare – distorce il “profilo linguistico” del prompt quel tanto che basta per sfuggire ai pattern appresi dai filtri.
In sostanza, emerge una distanza tra la capacità interpretativa dell’AI, molto elevata e flessibile, e la robustezza dei suoi sistemi di protezione, ancora sensibili alle variazioni di stile.
La “maschera” poetica dei modelli linguistici
Lo studio ipotizza anche un effetto legato alla “personalità” che il modello assume. Nella configurazione standard, un large language model si presenta come un assistente digitale, chiamato a essere utile e prudente. Ma basta chiedergli di agire come poeta, narratore o autore teatrale perché cambi registro.
Secondo Prandi, la poesia potrebbe spingere l’AI a indossare una maschera letteraria, una sorta di ruolo implicito in cui la priorità diventa la creatività, non il controllo del rischio. Il modello, impegnato a produrre immagini evocative e rime, sembra meno incline a interpretare la richiesta come una minaccia, abbassando la propria soglia di allerta.
In background, gioca un altro elemento: la cosiddetta temperatura del modello, il parametro che regola quanto l’output sia prevedibile o sorprendente. A valori bassi, il sistema tende a scegliere le parole più probabili; a valori alti, esplora opzioni più originali. Il linguaggio poetico, per sua natura, porta verso soluzioni meno convenzionali, con effetti collaterali sui meccanismi di controllo.
Da qui l’intuizione dei ricercatori: se gli adversarial suffix appaiono al modello come una sorta di poesia “casuale”, allora la poesia umana, strutturata in modo intenzionale, può funzionare come un adversarial naturale, capace di camuffare richieste sensibili in un’apparente esercitazione stilistica.
Perché servono competenze umanistiche per la sicurezza dell’AI
La ricerca di Icaro Lab porta a una riflessione più ampia: è realistico pensare di eliminare completamente questi comportamenti delle AI generative? La risposta, per ora, resta incerta. Il linguaggio consente infinite riformulazioni della stessa idea, e la creatività umana nel nascondere le intenzioni è, di fatto, inesauribile.
Oggi la robustezza dei modelli viene spesso valutata attraverso prompt standardizzati, utili per soddisfare anche i requisiti regolatori dell’AI Act europeo. Ma questo tipo di test tende a fotografare solo un sottoinsieme ristretto delle possibili interazioni: quelle più convenzionali, prive di giochi di stile, stratagemmi retorici o travestimenti poetici.
Lo studio suggerisce che, per rendere più sicuri i sistemi, non bastano raffinati strumenti ingegneristici. Diventa indispensabile affiancare alla competenza tecnica una solida cultura umanistica, capace di leggere il linguaggio nelle sue sfumature: metafore, doppi sensi, cambi di registro, cornici narrative.
Comprendere come funziona il framing di una richiesta, in che modo una storia può contenere istruzioni velate, o come una rima possa attenuare la percezione del rischio, non è un esercizio letterario astratto, ma una parte essenziale del lavoro di sicurezza.
In altre parole, chi progetta i guardrail dell’AI deve imparare a muoversi tanto tra dataset e metriche, quanto tra retorica, poesia e linguistica. Solo così sarà possibile costruire difese meno fragili di fronte alla fantasia con cui gli esseri umani continuano a dialogare – e a mettere alla prova – i modelli generativi.

