Grok-4 je probijen kombinacijom Echo Chamber i Crescendo Attack.

Grok-4 je uspješno probijen korišćenjem nove strategije koja kombinuje dvije različite metode probijanja kako bi se zaobišle mjere sigurnosti vještačke inteligencije. Ovo pojačava zabrinutost zbog ranjivosti velikih jezičkih modela (LLM) na sofisticirane neprijateljske napade.

Istraživači su spojili tehnike probijanja „Echo Chamber“ i „Crescendo“ kako bi efikasnije zaobišli sigurnosne mehanizme AI u poređenju sa pojedinačnim metodama. Pristup koristi suptilni „otrovni kontekst“ i manipulaciju razgovorom, pri čemu „Crescendo“ pruža dodatni poticaj kada „Echo Chamber“ zastane. Postignut je uspjeh od 67% za uputstva za Molotovljeve koktele, 50% za sadržaj o metamaftaminu i 30% za informacije o otrovima na Grok-4 modelu. Ovo otkriva ranjivost u postojećim AI odbranama koje se oslanjaju na filtriranje ključnih riječi umjesto na detekciju kontekstualne manipulacije kroz razgovore.

Istraživanje, objavljeno od strane NeuralTrust 11. jula 2025. godine, pokazuje kako se „Echo Chamber“ napad može poboljšati kada se kombinuje sa „Crescendo“ napadom u cilju manipulisanja AI sistemima na generisanje štetnog sadržaja. Ovo istraživanje nadograđuje na ranije predstavljeni „Echo Chamber“ napad, koji manipuliše LLM-ove da ponavljaju suptilno kreiran otrovni kontekst radi zaobilaženja sigurnosnih mehanizama. Novi pristup integriše ovu tehniku sa metodom „Crescendo“ napada, stvarajući sofisticiraniju strategiju eksploatacije kroz više zaokreta u razgovoru. „Echo Chamber“ komponenta započinje uvođenjem otrovnog konteksta kroz početne „sjeme“ (steering seeds), nakon čega slijedi ciklus uvjeravanja koji postepeno gura model ka štetnim ciljevima. Kada ciklus uvjeravanja dođe u „stagnirajuće“ stanje gdje napredak opada, „Crescendo“ tehnika pruža dodatne zaokrete u razgovoru kako bi se model prebacio preko svojih sigurnosnih pragova.

Radni proces pokazuje posebnu efikasnost jer izbjegava eksplicitno štetne upite, umjesto toga oslanja se na manipulaciju razgovorom kroz više interakcija. Ovaj pristup uspješno zaobilazi sisteme za filtriranje zasnovane na namjeri i ključnim riječima na koje se oslanjaju mnoge trenutne implementacije sigurnosti LLM-ova. Napad počinje sa blažim „sjemenom“ kako bi se izbjeglo pokretanje trenutnih zaštita, a zatim sistematski gradi ka štetnom cilju kroz naizgled bezazlene zaokrete u razgovoru.

Testiranje provedeno na Grok-4, koristeći ciljeve iz originalnog „Crescendo“ rada, otkrilo je značajne stope uspješnosti u više kategorija štetnih zahtjeva. Istraživači su postigli stopu uspješnosti od 67% za uputstva za izradu Molotovljevih koktela, 50% za upite vezane za metamfetamin i 30% za zahtjeve vezane za otrove. Značajno je da su neki uspješni napadi zahtijevali samo dva dodatna „Crescendo“ zaokreta nakon početnog podešavanja „Echo Chamber“, pri čemu je jedan slučaj postigao štetni cilj u samo jednom zaokretu bez potrebe za „Crescendo“ komponentom. Eksperimentalna metodologija se fokusirala specifično na upite vezane za ilegalne aktivnosti, pokazujući da se kombinovani pristup generalizuje kroz različite kategorije štetnih ciljeva. Stope uspješnosti ukazuju da trenutne mjere sigurnosti LLM-ova možda nisu dovoljne protiv sofisticiranih strategija napada kroz više zaokreta koje iskorištavaju širi kontekst razgovora, umjesto da se oslanjaju na očigledno štetne obrasce unosa.

Ovi nalazi naglašavaju fundamentalne slabosti u trenutnim mehanizmima odbrane LLM-ova, posebno njihovo oslanjanje na filtriranje sadržaja na površinskom nivou umjesto na sveobuhvatnu analizu konteksta razgovora. Istraživanje pokazuje da tehnike neprijateljskog promptovanja mogu postići štetne ciljeve kroz suptilnu, upornu manipulaciju kroz više zaokreta u razgovoru, efektivno zaobilazeći tradicionalne sigurnosne mjere. Posljedice se protežu izvan akademskog istraživanja, ističući hitnu potrebu za poboljšanim sigurnosnim okvirima za LLM-ove koji mogu detektovati i spriječiti sofisticirane pokušaje manipulacije kroz više zaokreta. Trenutne implementacije sigurnosti moraju evoluirati kako bi se suočile sa ovim kombinovanim vektorima napada koji iskorištavaju širi kontekst razgovora, umjesto da se oslanjaju isključivo na sisteme za detekciju zasnovane na ključnim riječima.

Recent Articles

spot_img

Related Stories