Władze Cloudflare rozwiewają wątpliwości i przepraszają: “Zawiedliśmy naszych klientów i cały internet”

Awaria Cloudflare sparaliżowała wczoraj, 18 listopada, znaczną część internetu. CTO firmy przeprasza: „Zawiedliśmy klientów i cały internet”
Cloudflare potwierdził, że wtorkowa globalna awaria była wynikiem błędu w jednym z kluczowych elementów infrastruktury firmy. Problemy rozpoczęły się 18 listopada około 11:48 UTC i szybko doprowadziły do niedostępności wielu popularnych serwisów, w tym X (Twittera), ChatGPT oraz… samego Downdetectora, czyli narzędzia, w którym możemy sprawdzić częstotliwość występowania problemów z daną usługą internetową.
Jak wyjaśniła firma, przyczyną był błąd w warstwie odpowiedzialnej za ochronę przed botami. Rutynowa zmiana konfiguracji doprowadziła do uaktywnienia ukrytego wcześniej błędu, który spowodował kaskadowe awarie w całej sieci Cloudflare. CTO firmy, Dane Knecht, opublikował publiczne przeprosiny, określając sytuację jako „nieakceptowalną”.
„Zawiedliśmy naszych klientów i cały internet” – napisał Knecht – „Ukryty błąd w usłudze wspierającej naszą technologię zwalczania botów zaczął powodować awarie po rutynowej zmianie konfiguracji. To zapoczątkowało szeroką degradację naszej sieci i innych usług. To nie był atak”.
Około godziny 15 wdrożono poprawkę, a Cloudflare rozpoczął przywracanie usług. Nie wszystkie funkcje wróciły jednak od razu – panel administracyjny, analityka czy logowanie błędów działały z ograniczeniami jeszcze przez kolejne godziny. W ramach działań naprawczych tymczasowo zawieszono także usługę WARP w regionie Londynu.
Warstwa bot mitigation, obejmująca m.in. Turnstile i narzędzia do weryfikacji JavaScript, znajduje się na trasie ruchu do ogromnej liczby stron i API. Oznacza to, że nawet jeśli podstawowe usługi CDN czy DNS działają poprawnie, awaria tej części infrastruktury może prowadzić do masowych niedostępności dla użytkowników.
To już trzecia poważna awaria globalnych usług w ciągu miesiąca. W październiku problemy z konfiguracją DNS doprowadziły do ponad dwugodzinnej przerwy w działaniu części regionu AWS US-East-1, a kilka dni później duża awaria dotknęła Microsoft Azure. Skala tych incydentów ponownie otwiera debatę o odporności największych dostawców na błędy wewnętrzne i o tym, jak wygląda izolowanie zależności w infrastrukturze, od której zależy dziś większość globalnego internetu.






















