Google informuje, że zamknął kluczowe centrum danych, aby uchronić je przed falą upałów w Londynie
Google ujawniło więcej informacji na temat tego, co się stało, kiedy zostało zmuszone do zamknięcia jednego ze swoich londyńskich centrów danych w najgorętszym jak dotąd dniu roku w Wielkiej Brytanii.
Awaria strefy „europe-west2-a” w zeszłym miesiącu była, według Google, spowodowana brakiem utrzymania bezpiecznej temperatury pracy z powodu jednoczesnej awarii wielu rezerwowych systemów chłodzenia w połączeniu z wyjątkowo wysokimi temperaturami zewnętrznymi. Awaria miała wpływ na wiele usług Google, w tym Google Compute Engine, Persistent Disk (PD) i Google Cloud Storage, powodując zamykanie instancji, pogorszenie jakości usług i problemy z siecią.
Inżynierowie Google’a wyłączyli centrum danych, w którym znajdowała się część strefy dotkniętej problemem Europe-west2-a, na czas naprawy systemu chłodzenia, który trwał 18 godzin i 23 minuty.
Jest to dość niepokojąca wiadomość, zwłaszcza biorąc pod uwagę, jak Google twierdzi, że te regionalne usługi są „zaprojektowane, aby przetrwać awarię pojedynczej strefy”. Google przypisał błąd nieumyślnej modyfikacji routingu ruchu dla usług wewnętrznych, aby uniknąć wszystkich trzech stref w regionie „europe-west2”, a nie tylko dotkniętej strefy „europe-west2-a”.
By w przyszłości uniknąć podobnych awarii Google postanowiło jeszcze raz przetestować infrastrukturę e tych centrach danych i wprowadzi nowe bardziej zaawansowane mechanizmy rozładowywania ruchu w HPC. Ponadto Google ma podobno zbadać swoje procedury, narzędzia i zautomatyzowane systemy odzyskiwania danych pod kątem luk, a także przeprowadzi audyt urządzeń i standardów systemu chłodzenia w centrach danych, które mieszczą Google Cloud na całym świecie.