Istraživači sa Univerziteta u Torontu ostvarili su značajan prodor u napade na nivou hardvera demonstrirajući GPUHammer, prvi napad tipa Rowhammer koji je ciljano usmjeren na diskretne NVIDIA GPU-ove. Ovo istraživanje, koje se fokusira na popularni NVIDIA A6000 GPU sa GDDR6 memorijom, predstavlja značajno proširenje deceniju stare ranjivosti Rowhammer izvan tradicionalnih CPU memorija. Tim predvođen Chrisom S. Linom, Joyce Qu i Gururajem Saileshwarom prevazišao je značajne tehničke izazove kako bi postigao ono što se ranije smatralo nemogućim. Njihov GPUHammer napad uspješno je izazvao 8-bitne promjene u 4 DRAM banke na A6000 GPU-u, dokazujući da su Graphics-DDR (GDDR) memorije zaista podložne istim napadima smetnji koji godinama muče CPU memorije. “Ovo je prva sistematska Rowhammer kampanja na NVIDIA GPU-ovima”, naveli su istraživači u svom radu. Napad je zahtijevao razvoj novih tehnika, uključujući obrnuti inženjering vlasničkih GDDR DRAM mapiranja redova i kreiranje optimizacija pristupa memoriji specifičnih za GPU kako bi se pojačao intenzitet udaranja.
Posljedice ovog napada daleko nadilaze akademska istraživanja. Tim je demonstrirao da ove bitne promjene mogu uzrokovati razorne degradacije tačnosti u modelima mašinskog učenja, sa padovima do 80% primijećenim kod popularnih neuronskih mreža, uključujući AlexNet, VGG16, ResNet50, DenseNet161 i InceptionV3. Ova ranjivost je posebno zabrinjavajuća s obzirom na to da GPU-ovi pokreću većinu AI radnih opterećenja za inferenciju kako u cloud-u, tako i u korporativnim okruženjima. Napad cilja najznačajniju bit eksponenta u težinama reprezentovanim FP16, eksponencijalno mijenjajući vrijednosti parametara i dramatično smanjujući tačnost modela. U nekim slučajevima, modeli sa 80% osnovne tačnosti svedeni su na manje od 0.5% tačnosti samo jednom strateški postavljenom bitnom promjenom.
Istraživači su se suočili sa jedinstvenim preprekama u prilagođavanju tradicionalnih Rowhammer tehnika GPU arhitekturama. GPU-ovi imaju približno 4 puta veću latenciju memorije u poređenju sa CPU-ovima i brže stope osvježavanja, što čini konvencionalne metode udaranja neefikasnim. Tim je to riješio razvijanjem paralelizovanih kernela za udaranje koji koriste mogućnosti GPU propusnosti, postižući stope aktivacije blizu 500.000 aktivacija po prozoru osvježavanja. Dodatno, vlasnička priroda mapiranja GPU memorije zahtijevala je inovativne pristupe obrnutog inženjeringa. Za razliku od CPU-ova gdje su fizičke adrese dostupne, NVIDIA GPU-ovi čuvaju ova mapiranja privatnim, prisiljavajući istraživače da razviju nove metode za identifikaciju ranjivih lokacija memorije.
Nakon odgovorne objave 15. januara 2025. godine, NVIDIA je izdala sveobuhvatno bezbjednosno savjetovanje u kojem je priznala ranjivost. Kompanija je naglasila da System-Level ECC efikasno ublažava napad kada je omogućen, iako ova zaštita dolazi sa oko 6.5% memorijskog opterećenja i 3–10% uticaja na performanse. NVIDIA-ino savjetovanje pokriva više generacija GPU-ova, uključujući Blackwell, Ada, Hopper, Ampere, Jetson, Turing i Volta arhitekture. Kompanija snažno preporučuje omogućavanje System-Level ECC na profesionalnim proizvodima i proizvodima za centre podataka, napominjući da je on omogućen podrazumijevano na Hopper i Blackwell GPU-ovima za centre podataka. Za novije generacije GPU-ova, On-Die ECC (OD-ECC) pruža dodatnu zaštitu. Ova tehnologija je automatski omogućena na podržanim uređajima, uključujući potrošačke kartice RTX 50 serije i najnovije proizvode za centre podataka, nudeći ugrađenu otpornost na Rowhammer napade.
Istraživanje naglašava kritičnu prazninu u bezbjednosti GPU-ova, jer ovi procesori postaju sve centralniji za AI i računanje visokih performansi. S obzirom da NVIDIA drži oko 90% tržišnog udjela u GPU-ovima, ranjivost potencijalno pogađa milione sistema širom svijeta. Vrijeme je posebno značajno jer provajderi usluga u cloud-u sve više nude usluge dijeljenja GPU vremena, stvarajući okruženja sa više zakupaca gdje bi hakeri mogli potencijalno ciljati AI modele ili osjetljive podatke drugih korisnika koji se nalaze u GPU memoriji. Dok su se istraživači fokusirali na A6000 GPU, slične ranjivosti mogu postojati i kod drugih GPU arhitektura i tipova memorije. Tim je primijetio da A100 GPU-ovi sa HBM2e memorijom i RTX 3080 uređaji nijesu pokazali bitne promjene u njihovom testiranju, iako to može biti zbog različitih nivoa pragova ili poboljšanih ublažavanja, a ne imuniteta. Istraživanje podvlači važnost razmatranja bezbjednosti na nivou hardvera u dizajnu AI sistema i potrebu za robusnim strategijama ublažavanja kako računanje na GPU-ovima nastavlja da se širi ka kritičnim aplikacijama.