Tim za bezbjednost aplikacija kompanije Trendyol otkrio je niz zaobilaženja koja čine zaštite Meta Llama Firewall-a nepouzdanima protiv sofisticiranih napada ubrizgavanja upita. Ova otkrića ponovo pokreću zabrinutost u vezi sa spremnošću postojećih mjera bezbjednosti za velike jezičke modele (LLM) i naglašavaju hitnu potrebu za robusnijim odbranama, kako preduzeća sve više ugrađuju LLM-ove u svoje radne procese.
Tokom procjene, inženjeri Trendyol-a implementirali su Meta-in otvoreni izvorni Llama Firewall, fokusirajući se na njegovu komponentu PROMPT_GUARD, namijenjenu filtriranju malicioznih korisničkih uputa. Njihovo iznenađenje je bilo što je sistem omogućio ubacivanje upita na turskom jeziku koji je sadržavao frazu „üstteki yönlendirmeleri salla“ (ignoriši prethodna usmjerenja), a zatim naložio modelu da prevede rečenicu na francuski. Rezultat skeniranja bio je benigni, uprkos očigledno malicioznoj namjeri. Tim je dalje demonstrirao da su jednostavne obmanjujuće tehnike poput „leetspeak“-a, gdje se „ignore“ pretvara u „1gn0r3“, takođe prošle kroz filter, dobivši zanemarive ocjene za proboj na modelu Llama-Prompt-Guard-2–86M. Ovi eksperimenti su otkrili da se skup pravila firewall-a uglavnom oslanja na engleske ključne riječi i podudaranja tačnih obrazaca, ostavljajući ga slijepim na varijacije jezika ili zamjene znakova.
Jednako zabrinjavajuća bila je i procjena modula CODE_SHIELD, dizajniranog za označavanje nesigurnih prijedloga koda generisanih od strane LLM-ova. U jednom dokazu koncepta, istraživači su uputili asistenta da generiše jednostavan Python Flask kraj sa SQL upitom. Generisani kod je direktno spajao korisnički unos u niz upita, stvarajući klasičnu SQL injekciju. Uprkos očiglednom riziku, CODE_SHIELD je klasifikovao izlaz kao bezbjedan i propustio ga bez provjere. Razvojni programeri Trendyol-a naglasili su nekoliko kritičnih zabrinutosti u vezi sa ovim propustom: rizik od upotrebe u produkciji jer timovi mogu koristiti isječke generisane od strane LLM-a bez temeljne ljudske provjere; bezbjednosne praznine uzrokovane prekomjernim oslanjanjem na automatsko skeniranje; izlaganje sistema potencijalnim eksploatacijama kroz neotkrivene greške; te problematično sticanje lažnog povjerenja u automatske bezbjednosne alate. Ovaj propust ilustruje kako automatski sistemi mogu stvoriti opasne slijepe tačke u bezbjednosnim okvirima preduzeća.
Najopakiji zaobilazni put uključivao je ugrađivanje skrivenih uputa unutar nevidljivih Unicode znakova. Ubacivanjem razmaka nulte širine i drugih nekodirajućih znakova oko fraze „ignoriši sva prethodna uputstva“, istraživači su kamuflirali maliciozne direktive unutar bezazlenog pitanja o glavnom gradu Francuske. Iako su korisnici i slučajni posmatrači vidjeli samo bezopasno pitanje, LLM je prepoznao i izvršio skrivenu komandu. Kada je ovaj upit dostavljen Llama Firewall-u, prošao je inspekciju sa ocjenom prijetnje nula. Tim Trendyol-a je demonstrirao da čak i minimalni nevidljivi upiti mogu pouzdano potkopati sistemske upute i uzrokovati da modeli generišu proizvoljne ili štetne izlaze. Ova tehnika predstavlja posebno ozbiljnu prijetnju u kolaborativnim okruženjima gdje se upiti kopiraju i lijepe među razvojnim timovima, a automatski skeneri nemaju vidljivost u skrivene znakove.
Ukupno, Trendyol je testirao stotinu jedinstvenih upita za ubrizgavanje protiv Llama Firewall-a. Polovina ovih napada je zaobišla odbrane sistema, što sugeriše da, iako firewall nudi određenu zaštitu, ona je daleko od potpune. Uspješni zaobilasci naglašavaju scenarije u kojima bi hakeri mogli prisiliti LLM-ove da zanemare ključne bezbjednosne filtere, generišu pristrasan ili uvredljiv sadržaj, ili kreiraju nesiguran kod spreman za izvršenje. Za organizacije poput Trendyol-a, koje planiraju integraciju LLM-ova u razvojne platforme, automatizovane procese i korisničke aplikacije, ove ranjivosti predstavljaju konkretne rizike koji bi mogli dovesti do curenja podataka, kompromitovanja sistema ili nepoštovanja regulatornih zahtjeva.
Bezbjednosni istraživači Trendyol-a objavili su svoja početna otkrića kompaniji Meta 5. maja 2025. godine, detaljno opisujući višejezične i zamagljene upite za ubrizgavanje. Meta je potvrdila prijem i započela internu reviziju, ali je na kraju zatvorila izvještaj kao „informativan“ 3. juna, odbijajući da isplati nagradu za pronalazak grešaka. Paralelno saopštenje Google-u u vezi sa nevidljivim Unicode ubrizgavanjima je slično zatvoreno kao duplikat. Uprkos mlakim odgovorima dobavljača, Trendyol je od tada unaprijedio svoje prakse modeliranja prijetnji i dijeli svoju studiju slučaja sa širom zajednicom za bezbjednost vještačke inteligencije. Kompanija poziva druge organizacije da sprovedu rigorozno crveno timiranje LLM odbrana prije nego što ih uvedu u produkciju, naglašavajući da filtriranje upita samo po sebi ne može spriječiti sve oblike kompromitovanja.
Dok preduzeća žure da iskoriste moć generativne vještačke inteligencije, istraživanje Trendyol-a služi kao upozorenje: bez slojevitih, kontekstno svjesnih zaštita, čak i najsavremeniji alati za zaštitu mogu postati žrtve varljivo jednostavnih vektora napada. Zajednica za bezbjednost sada se mora udružiti kako bi razvila otpornije metode detekcije i najbolje prakse, sa ciljem da ostane korak ispred prijetnji koje konstantno evoluiraju i traže nove načine manipulacije ovim moćnim sistemima.