Site icon Kiber.ba

Nova CCA metoda zaobilaženja zaštite funkcioniše protiv većine AI modela

Nova CCA metoda zaobilaženja zaštite funkcioniše protiv većine AI modela-Kiber.ba

Nova CCA metoda zaobilaženja zaštite funkcioniše protiv većine AI modela-Kiber.ba

Dvojica istraživača iz Microsofta razvili su novu metodu zaobilaženja zaštite AI sistema, koja ne zahtijeva optimizaciju i može efikasno zaobići bezbjednosne mehanizme većine AI modela.

Nazvana Context Compliance Attack (CCA), ova metoda koristi fundamentalnu arhitektonsku ranjivost prisutnu u mnogim generativnim AI rješenjima, čime narušava zaštitne mjere i omogućava funkcionalnosti koje bi inače bile blokirane.

„Suptilnim manipulisanjem istorije razgovora, CCA uvjerava model da se pridržava izmišljenog konteksta dijaloga, što dovodi do pokretanja ograničenog ponašanja“, objašnjavaju istraživači iz Microsofta, Mark Rusinovič i Ahmed Salem, u svom naučnom radu.

„Naša evaluacija različitih otvorenih i vlasničkih modela pokazuje da ovaj jednostavan napad može zaobići najsavremenije bezbjednosne protokole“, navode istraživači.

Dok se druge metode zaobilaženja zaštite AI modela oslanjaju na specifične nizove upita ili optimizacije promptova, CCA funkcioniše tako što u dijalog o osjetljivoj temi ubacuje manipulisan istorijat razgovora i afirmativno odgovara na izmišljeno pitanje.

„Obmanut manipulisanom istorijom razgovora, AI sistem generiše odgovor u skladu sa percipiranim kontekstom razgovora, čime krši svoja bezbjednosna ograničenja“, kažu istraživači.

Rusinovič i Salem testirali su CCA na više vodećih AI sistema, uključujući Claude, DeepSeek, Gemini, različite GPT modele, Llama, Phi i Yi, te pokazali da su gotovo svi modeli ranjivi, osim Llama-2.

Za potrebe evaluacije, istraživači su koristili 11 osjetljivih zadataka koji su pokrivali isto toliko kategorija potencijalno štetnog sadržaja, izvodeći CCA u pet nezavisnih testova. Kako navode, većina zadataka je uspješno izvršena već u prvom pokušaju.

Problem je u tome što mnogi chatbotovi zavise od klijenata koji pri svakom zahtjevu dostavljaju kompletnu istoriju razgovora, vjerujući u integritet dostavljenog konteksta. Otvoreni modeli, gdje korisnik ima potpunu kontrolu nad unosom, posebno su ranjivi.

„Važno je napomenuti da sistemi koji čuvaju istoriju razgovora na svojim serverima—kao što su Copilot i ChatGPT—nisu podložni ovom napadu“, ističu istraživači.

Kao potencijalne mjere zaštite, istraživači predlažu održavanje istorije razgovora na serverskoj strani, čime bi se obezbijedila konzistentnost i integritet podataka, te implementaciju digitalnih potpisa za istoriju razgovora kako bi se spriječile manipulacije kontekstom.

Kako navode, ove mjere su primarno primjenjive na black-box modele, dok je za white-box modele potrebna složenija strategija odbrane, poput integracije kriptografskih potpisa u procesiranje ulaznih podataka, kako bi model prihvatao samo autentičan i nepromijenjen kontekst.

Izvor: SecurityWeek

Exit mobile version