Poezia mund t’i mashtrojë chatbot-et e IA-së që të injorojnë rregullat e sigurisë

Studiuesit në Itali kanë zbuluar se shkrimi i sugjerimeve të dëmshme në formë poetike, mund të anashkalojë në mënyrë të besueshme mekanizmat e sigurisë të disa prej chatbot-eve më të përparuara të inteligjencës artificiale në botë.

Studimi, i kryer nga Icaro Lab, një iniciativë e kompanisë etike të inteligjencës artificiale DexAI, testoi 20 poezi të shkruara në anglisht dhe italisht.

Secila përfundonte me një kërkesë të qartë për përmbajtje të dëmshme, duke përfshirë gjuhë urrejtjeje, përmbajtje seksuale, udhëzime për vetëvrasje dhe vetëlëndim, si dhe udhëzime për krijimin e materialeve të rrezikshme si armët dhe eksplozivët.

Poezitë, të cilat studiuesit zgjodhën të mos i publikojnë, duke vënë në dukje se ato mund të replikoheshin lehtësisht, u testuan në 25 sisteme IA nga nëntë kompani, duke përfshirë Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI dhe Moonshot AI.

Në të gjitha modelet, 62 përqind e nxitjeve poetike shkaktuan përgjigje të pasigurta, duke anashkaluar trajnimin e sigurisë së sistemeve të inteligjencës artificiale.

Disa modele ishin më rezistente se të tjerat - GPT-5 nano i OpenAI nuk iu përgjigj me përmbajtje të dëmshme asnjë prej poezive, ndërsa Gemini 2.5 pro i Google iu përgjigj të gjithave. Dy modele Meta iu përgjigjën 70 përqind të kërkesave.

Hulumtimi sugjeron që dobësia vjen nga mënyra se si modelet e inteligjencës artificiale gjenerojnë tekst. Modelet e mëdha gjuhësore parashikojnë fjalën më të mundshme tjetër në një përgjigje, një proces që u lejon atyre të filtrojnë përmbajtjen e dëmshme në rrethana normale.

Por poezia, me ritmin, strukturën dhe përdorimin e saj jokonvencional të metaforës, i bën këto parashikime më pak të besueshme dhe e bën më të vështirë për IA-në, të njohë dhe bllokojë udhëzimet e pasigurta.

Ndërsa “jailbreak”-et tradicionale të IA-së (duke përdorur të dhëna hyrëse për të manipuluar një model të madh gjuhësor) janë zakonisht komplekse dhe përdoren vetëm nga studiues, hakera ose aktorë shtetërorë, poezia kundërshtare mund të zbatohet nga kushdo, duke ngritur pyetje në lidhje me qëndrueshmërinë e sistemeve të IA-së në përdorimin e përditshëm.

Përpara publikimit të gjetjeve, studiuesit italianë kontaktuan të gjitha kompanitë e përfshira për t'i njoftuar për dobësinë dhe për t'u ofruar atyre të dhënat e plota - por deri më tani, vetëm Anthropic është përgjigjur. Kompania konfirmoi se po e shqyrton studimin./ Euronews.