Cloudflareov široko korišteni DNS resolver 1.1.1.1 servis doživio je značajan globalni prekid u radu od 62 minute 14. jula 2025. godine, što je uticalo na milione korisnika širom svijeta od 21:52 UTC do 22:54 UTC.
Suprotno početnim spekulacijama, kompanija je potvrdila da je prekid uzrokovan internom greškom u konfiguraciji, a ne BGP napadom, iako je tokom incidenta uočena slučajna otmica BGP-a od strane Tata Communications India (AS4755).
Ključne zaključke
1. Cloudflareov DNS servis je doživio globalni prekid rada u trajanju od 62 minute 14. jula 2025. godine, što je uticalo na milione korisnika.
2. Prekid rada je uzrokovan pogrešno konfiguriranim ažuriranjem sistema od 6. juna, a ne BGP napadom.
3. Usluga je obnovljena vraćanjem konfiguracija; Cloudflare će nadograditi naslijeđene sisteme kako bi se spriječilo ponavljanje.
Nedavni prekid rada Cloudflare-a verzije 1.1.1.1
Osnovni uzrok prekida rada povezan je s promjenom konfiguracije napravljenom 6. juna 2025. godine, tokom priprema za uslugu Data Localization Suite (DLS).
Tokom ovog izdanja, prefiksi povezani sa uslugom Resolver 1.1.1.1 su nenamjerno uključeni pored prefiksa namijenjenih novoj DLS usluzi.
Ova pogrešna konfiguracija ostala je neaktivna u produkcijskoj mreži do 14. jula, kada je napravljena druga promjena konfiguracije kako bi se testna lokacija pridružila neproizvodnoj usluzi, što je pokrenulo globalno osvježavanje mrežne konfiguracije.
Greška je uzrokovala povlačenje prefiksa Resolver 1.1.1.1 iz produkcijskih Cloudflare podatkovnih centara širom svijeta, što je efektivno učinilo uslugu nedostupnom.
Pogođeni IP rasponi uključivali su kritične adrese kao što su 1.1.1.0/24, 1.0.0.0/24, 2606:4700:4700::/48 i nekoliko drugih IPv4 i IPv6 prefiksa.
DNS promet preko UDP-a, TCP-a i DNS-a preko TLS-a (DoT) odmah je opao, dok je DNS-over-HTTPS (DoH) promet ostao relativno stabilan jer koristi domenu cloudflare-dns.com umjesto IP adresa.
Slučajna otmica BGP-a
Tokom istrage prekida, Cloudflare je otkrio da je Tata Communications India (AS4755) počela reklamirati prefiks 1.1.1.0/24, stvarajući ono što je izgledalo kao scenario otmice BGP-a.
Međutim, inženjeri kompanije su naglasili da ova otmica nije uzrok prekida, već nepovezani problem koji je postao vidljiv kada je Cloudflare povukao svoje rute.
Do otmice BGP-a došlo je u 21:54 UTC, dvije minute nakon što je DNS promet počeo globalno opadati.
Ovaj incident je istakao složenost upravljanja anycast rutiranjem, metodom koju Cloudflare koristi za distribuciju prometa na više globalnih lokacija radi poboljšanja performansi i kapaciteta.
Kada se pojave problemi s oglasima adresnog prostora, oni mogu rezultirati globalnim prekidima koji istovremeno utiču na sve korisnike.
Preventivne mjere
Cloudflare je pokrenuo povratak na prethodnu konfiguraciju u 22:20 UTC, što je vratilo nivo prometa na približno 77% normalnog kapaciteta.
Preostalih 23% edge servera zahtijevalo je rekonfiguraciju putem kompanijskog sistema za upravljanje promjenama, što je ubrzano s obzirom na ozbiljnost incidenta. U 22:54 UTC postignuto je potpuno vraćanje usluge u prvobitno stanje.
Kako bi spriječili slične incidente, Cloudflare je najavio planove za ukidanje naslijeđenih sistema kojima nedostaju progresivne metodologije implementacije i implementaciju faznog adresiranja implementacija sa mogućnostima praćenja stanja.
Izvor: CyberSecurityNews