Značajna sigurnosna ranjivost otkrivena je u zaštitnim mjerama vještačke inteligencije koje su implementirali tehnološki giganti Microsoft, Nvidia i Meta.
Prema novom istraživanju, AI sigurnosni sistemi ovih kompanija mogu se potpuno zaobići korišćenjem varljivo jednostavne tehnike koja uključuje emoji znakove, omogućavajući hakerima da ubacuju štetne upute i izvršavaju jailbreake sa 100% uspjehom u nekim slučajevima.
Zaštitne rampe za modele velikih jezika (LLM) su specijalizovani sistemi dizajnirani za zaštitu AI modela od promptne injekcije i napada jailbreaka.
Ove sigurnosne mjere provjeravaju korisničke unose i izlaze, filtrirajući ili blokirajući potencijalno štetan sadržaj prije nego što dođe do osnovnog modela vještačke inteligencije.
Kako organizacije sve više primjenjuju AI sisteme u različitim sektorima, ove zaštitne ograde postale su ključna infrastruktura za sprječavanje zloupotrebe.
Istraživači sa Univerziteta Mindgard i Lancaster identifikovali su ovu alarmantnu ranjivost sistematskim testiranjem šest istaknutih LLM sistema zaštite.
Njihovi nalazi, objavljeni u sveobuhvatnom akademskom radu, pokazuju da tehnike ubrizgavanja znakova – posebno krijumčarenje emotikona – mogu potpuno zaobići detekciju, a istovremeno održati funkcionalnost osnovnog prompta.
Uticaj ovog otkrića je dalekosežan i utiče na glavne komercijalne sigurnosne sisteme vještačke inteligencije, uključujući Microsoftov Azure Prompt Shield, Meta Prompt Guard i Nvidia NeMo Guard Jailbreak Detect.
Istraživači su postigli stopu uspješnosti napada od 71,98% protiv Microsofta, 70,44% protiv Mete i 72,54% protiv Nvidije koristeći različite tehnike izbjegavanja.
Najviše zabrinjava to što je tehnika krijumčarenja emojija postigla savršenih 100% uspjeha na više sistema.
Tehnika krijumčarenja emojija
Najefikasnija otkrivena metoda zaobilaženja uključuje ugrađivanje malicioznog teksta unutar selektora varijacija emotikona – tehniku koju istraživači nazivaju “krijumčarenje emotikona”.
Ova metoda iskorištava fundamentalnu slabost u načinu na koji AI guardrails obrađuje Unicode znakove u poređenju s načinom na koji ih osnovni LLM-ovi interpretiraju.
Tehnika funkcioniše umetanjem teksta između posebnih Unicode znakova koji se koriste za modifikovanje emotikona.
Kada ih obrađuju zaštitni sistemi, ovi znakovi i tekst između njih postaju u suštini nevidljivi algoritmima za detekciju, dok sam LLM i dalje može analizirati i izvršavati skrivene instrukcije.
Na primjer, kada se maliciozni prompt ugradi korištenjem ove metode, on se čini bezopasnim za guardrail filter, ali ostaje potpuno funkcionalan za ciljni LLM.
Istraživači napominju: „LLM Guardrails se može trenirati na potpuno drugačijim skupovima podataka od osnovnog LLM-a, što rezultira njihovom nemogućnošću da otkriju određene tehnike ubrizgavanja znakova koje sam LLM može razumjeti.“
.webp)
Izvor: CyberSecurityNews