Strona główna Polityka Jak działy IT próbowały uporać się z chaosem CrowdStrike

Jak działy IT próbowały uporać się z chaosem CrowdStrike

48
0


W piątek tuż przed godziną 1:00 czasu lokalnego administrator systemu w firmie z Zachodniego Wybrzeża, która świadczy usługi pogrzebowe i pogrzebowe, obudził się nagle i zauważył, że ekran jego komputera świeci. Kiedy sprawdził swój telefon służbowy, eksplodował wiadomościami o, jak twierdzili jego współpracownicy, problemie z siecią. Cała ich infrastruktura uległa awarii, co groziło wywróceniem do góry nogami pogrzebów i pochówków.

Wkrótce stało się jasne, że przyczyną ogromnych zakłóceń była awaria CrowdStrike. W piątek i w weekend firma ochroniarska przypadkowo wywołała chaos na całym świecie po rozesłaniu wadliwego oprogramowania na platformę monitorującą Falcon, utrudniając pracę liniom lotniczym, szpitalom i innym firmom, zarówno małym, jak i dużym.

Administrator, który prosił o zachowanie anonimowości, gdyż nie jest upoważniony do publicznego wypowiadania się na temat awarii, wkroczył do akcji. Skończyło się na tym, że pracował prawie 20 godzin dziennie, jeżdżąc od kostnicy do kostnicy i osobiście resetując dziesiątki komputerów, aby rozwiązać problem. Sytuacja była pilna, wyjaśnia administrator, ponieważ komputery musiały ponownie działać online, aby nie było zakłóceń w harmonogramie usług pogrzebowych i komunikacji kostnicy ze szpitalami.

„Biorąc pod uwagę tak rozległy problem, jak awaria CrowdStrike, sensownym było upewnienie się, że nasza firma jest w dobrym stanie, abyśmy mogli przyjąć te rodziny, aby mogły skorzystać z usług i być z rodziną członków” – mówi administrator systemu. „Ludzie pogrążają się w żałobie”.

Wadliwa aktualizacja CrowdStrike murowany około 8,5 miliona komputerów z systemem Windows na całym świecie, wprawiając je w przerażającą spiralę niebieskiego ekranu śmierci (BSOD). „Zaufanie, jakie budowaliśmy przez lata w kroplówkach, zostało utracone w ciągu kilku godzin w wiadrach i to był cios w brzuch” – Shawn Henry, dyrektor ds. bezpieczeństwa w CrowdStrike, napisał na LinkedIn wczesny poniedziałek. „Ale to blednie w porównaniu z bólem, jaki sprawiliśmy naszym klientom i partnerom. Zawiedliśmy tych samych ludzi, których zobowiązaliśmy się chronić.”

Awarie platformy chmurowej i inne problemy z oprogramowaniem – w tym złośliwe cyberataki – już wcześniej powodowały poważne awarie IT i zakłócenia na całym świecie. Jednak wydarzenie z zeszłego tygodnia było szczególnie godne uwagi z dwóch powodów. Po pierwsze, wynikało to z błędu w oprogramowaniu, które miało wspomagać i chronić sieci, a nie je szkodzić. Po drugie, rozwiązanie problemu wymagało bezpośredniego dostępu do każdej maszyny, której dotyczył problem; osoba musiała ręcznie uruchomić każdy komputer w trybie awaryjnym systemu Windows i zastosować poprawkę.

IT to często nieestetyczna i niewdzięczna praca, ale porażka CrowdStrike’a okazała się sprawdzianem na wyższym poziomie. Niektórzy specjaliści IT musieli współpracować ze zdalnymi pracownikami lub wieloma lokalizacjami za granicą, przeprowadzając ich przez ręczne resetowanie urządzeń. Młodszy administrator systemu marki modowej z Indonezji musiał w tym celu znaleźć sposób na pokonanie barier językowych. „To było przytłaczające” – mówi.

„Nie zauważamy nas, chyba że dzieje się coś złego” – powiedział WIRED administrator systemu w organizacji opieki zdrowotnej w Maryland.

Osoba ta została obudzona na krótko przed godziną 1:00 czasu wschodniego. Ekrany w fizycznych siedzibach organizacji stały się niebieskie i przestały reagować. Ich zespół spędził kilka wczesnych godzin porannych, przywracając serwery do trybu online, a następnie musiał ręcznie naprawić ponad 5000 innych urządzeń w firmie. Awaria zablokowała połączenia telefoniczne ze szpitalem i wywróciła do góry nogami system wydawania leków – wszystko trzeba było spisywać ręcznie i biegać do apteki na piechotę.



Link źródłowy