Scrivere in versi: una chiave inaspettata per aggirare i filtri etici delle intelligenze artificiali

Scrivere in versi: una chiave inaspettata per aggirare i filtri etici delle intelligenze artificiali

Il rapido sviluppo delle intelligenze artificiali generative ha portato all'adozione di filtri etici progettati per bloccare contenuti inappropriati o pericolosi. Tuttavia, uno studio condotto da DEXAI, Icaro Lab e Sapienza Università di Roma ha evidenziato come la creatività umana, in particolare la scrittura poetica, possa bypassare queste protezioni. Trasformando prompt potenzialmente bloccati in versi con rime, giochi di parole e strutture metrico-poetiche, i ricercatori hanno dimostrato che i modelli IA spesso non riconoscono l'intento malevolo dietro il testo stilizzato, con un tasso di successo del 62% nell'aggirare i filtri. Fra i modelli studiati, Gemini di Google si è distinto per la sua vulnerabilità quasi totale, superata quasi sempre dai prompt poetici, sollevando dubbi sull'efficacia dei suoi meccanismi di moderazione. Sorprendentemente, modelli di maggiori dimensioni sono risultati più suscettibili a tali attacchi rispetto a modelli più piccoli, probabilmente per la loro maggiore flessibilità espressiva e adattabilità a linguaggi non convenzionali. Questa scoperta apre interrogativi etici e di sicurezza rilevanti, soprattutto considerando l’utilizzo crescente delle IA in ambiti delicati come il supporto psicologico o l'educazione. Per fronteggiare questa problematica, si propone di migliorare la sensibilità semantica dei filtri, ampliare i dataset di addestramento con esempi di poesia manipolativa, integrare supervisione umana specializzata e favorire una collaborazione trasversale tra comunità scientifica, industria e istituzioni. In conclusione, la poesia emerge come uno strumento inaspettato e sofisticato di manipolazione dei sistemi IA, e occorre sviluppare soluzioni multidisciplinari per garantire filtri etici più intelligenti e resilienti, che comprendano la complessità del linguaggio poetico e non solo il testo in prosa standard.

Questo sito web utilizza cookies e richiede i dati personali per rendere più agevole la tua esperienza di navigazione.