Odkrywamy tajemnice proszkowego incydentu z HPE 3PAR!

HPE 3PAR i niespodziewany deszcz proszku gaśniczego!

Zbliża się weekend. W poprzedni bawiliśmy się tak:

Sobota, godzina 17:59 – gorący telefon od dużego klienta z branży wysoko technologicznej.

HPE 3 PAR wciągnęły proszek gaśniczy, po czym się wyłączyły.

Prosimy o natychmiastową pomoc techniczną!

Pracownicy firmy, zaskoczeni niecodzienną sytuacją, szybko przystąpili do działania. Wydawało się to niemożliwe – systemy HPE 3PAR są przecież znane ze swojej niezawodności i odporności na awarie. Jednak tym razem miały stawić czoła zupełnie nowemu wyzwaniu: proszkowi gaśniczemu, który niespodziewanie przedostał się do wnętrza urządzeń.

Wciągnięci przez przypadek – co stało się z HPE 3PAR i proszkiem gaśniczym?

Wszystko zaczęło się od drobnego pożaru w serwerowni. System przeciwpożarowy zadziałał bez zarzutu, uwalniając chmurę środka gaśniczego. Niestety, w ferworze walki z ogniem nikt nie przewidział skutków ubocznych dla delikatnej elektroniki.

HPE 3PAR i niespodziewany deszcz proszku gaśniczego

Jak można sobie wyobrazić, proszek gaśniczy jest daleki od przyjaznego dla komputerów. Jego obecność wewnątrz maszyn mogła potencjalnie spowodować katastrofalne uszkodzenia danych i sprzętu. Technicy musieli działać błyskawicznie; każde opóźnienie mogło oznaczać straty finansowe i operacyjne dla klienta.

Pierwszym krokiem było dokładne oczyszczenie wszystkich komponentów z pozostałości proszku. Specjalistyczne narzędzia i delikatne metody pozwoliły na usunięcie go bez ryzyka dalszych szkód mechanicznych czy elektrycznych.

Kolejnym etapem było szczegółowe sprawdzenie integralności danych oraz testowanie poszczególnych modułów systemu pod kątem ich funkcjonalności po incydencie. Na szczęście architektura HPE 3PAR okazała się być niezwykle elastyczna; dzięki jej modularnej budowie większość elementów dało się przywrócić do pełni sprawności.

Opanowanie tej sytuacji pokazało nie tylko siłę technologii użytej w produktach HPE, ale również znaczenie szybkiej reakcji zespołu wsparcia technicznego – czynników kluczowych dla minimalizacji skutków takich niespodziewanych zdarzeń.

To wydarzenie stało się także lekcją zarówno dla dostawców rozwiązań IT, jak i klientów: nawet najbardziej zaawansowane technologie potrzebują odpowiednich procedur ochronnych oraz planów awaryjnych obejmujących wszelkie możliwe scenariusze zagrożeń – nawet te najmniej prawdopodobne!

Prosimy o szczegółowe dane maszyn, z którymi jest problem. Po otrzymaniu SN-ów (serial numbery) potwierdzamy klientowi, że mamy kompletne maszyny na stanie, inżyniera w stanie gotowości i możemy podjąć się akcji naprawczej. 

Klient, niestety dla niego nie ma podpisanej umowy na wsparcie tego sprzętu. 

Gdyby miał, nasz inżynier był by już w drodze do jego serwerowni, a tak robimy szybką wycenę i czekamy na zatwierdzenie kosztów pilnego przyjazdu. Nie czekamy – klient decyduje się od razu. Jest to dla nas informacja, że zdarzenie dotyczy infrastruktury krytycznej. 

Przewodnik Optymalizacja infrastruktury IT od 4hfix

 

Ale co się w ogóle wydarzyło?
 

Czujniki systemu gaśniczego wykryły dym na wysokości podłogi serwerowni i uruchomiły systemy gaśnicze. Odpaliło się 14 gaśnic! Został uruchomiony proszkowy system gaszenia, który wypełnił serwerownię i najbliższe pomieszczenia proszkiem gaśniczym. Wyglądało to tak jakby Elon Musk ze SpaceX wystrzelił swoja rakietę Falcon Heavy, który niestety w tym przypadku doleciał tylko do sufitu.

Maszyny zaczęły wciągać proszek przez systemy chłodzenia, przez co zapychał swoje wloty powietrzne.  Po dobie proszek zaczął łączyć się z plastikiem tworząc chropowate powierzchnie i zasychać w obudowie maszyn. Niedrożny system chłodzenia spowodował, że urządzenia zaczęły się przegrzewać i dalej padać  jak muchy. 

Do takiego zadania wybieramy Pawła. Paweł jest naszym Asem, agentem od zadań specjalnych i do tego  jeździ szybciej od Hołowczyca. Lubi odwoływać się do klasyki polskiego filmu. Tym razem sytuację podusmował tekstem “Niezły burdlel tu macie siostry”, dodając od siebie, ale przynajmniej jest bezpiecznie. 

Klient w napięciu czeka tak, jakby miała do niego przyjechać młoda Edyta Górniak (z czasu jak wygrywa Eurowizję). Doczekał się Adriana. Po dokładnej weryfikacji adresu Adrian miał bliżej niż Paweł. 

300 km w 3 godziny. 

Wkraczamy do akcji na miejscu w serwerowni u klienta i zaczynamy akcję serwisową, która trwa aż do rana. 

Serwisant zaczyna od oceny sprzętu i otrzymuje dokładny opis co się wydarzyło w serwerowni.

W pierwszej kolejności zaczynamy od ważniejszej dla klienta macierzy 3PAR, serwisant czyści obudowę, kontrolery i dyski. Zasilacze wciągnęły za dużo proszku do swojego wnętrza i nie udaje się ich uratować, wymieniamy na nowe.

Do macierzy podpięta jest półka, do jej wnętrza dostało się zdecydowanie mniej proszku, na obudowie, I/O modułach i dyskach znajduje się minimalna ilość proszku. Do wnętrza zasilaczy dostało się nieco więcej proszku ale po rozkręceniu i wyczyszczeniu mogą wracać do półki.

Następuje wielka chwila, pierwsze uruchomienie macierzy po akcji serwisowej. Macierz startuje, nie pokazuje błędów, dajemy jej czas na pełne uruchomienie się.

W tym czasie przechodzimy do drugiej macierzy 3PAR. Sytuacja jak w macierzy nr 1, obudowa, I/O moduły i dyski udaje się wyczyścić, zasilacze wymagają wymiany, są zapchane przez proszek gaśniczy.

Pierwsza próba uruchomienia macierzy nie udaje się, macierz ciągle się resetuje, na połączeniu szeregowym widzimy, że macierz odcina dopływ prądu i korzysta tylko z baterii.

Z klientem podejmujemy decyzję o wymianie obudowy macierzy 3PAR. Po wymianie i przełożeniu wszystkich komponentów do drugiej obudowy macierz uruchamia się prawidłowo, jest z nią pełna komunikacja, systemy na niej się znajdujące startują. 

Wracamy do macierzy nr 1 z półką rozszerzająca. Macierz dalej się nie uruchomiła prawidłowo, podejmujemy decyzję o zresetowaniu jednego z kontrolerów.

Po zresetowaniu kontrolera, macierz budzi się w pełni do życia i jest z nią komunikacja.

Klient kontynuuje przywracanie usług i systemów, podłącza serwery do macierzy, które po 3 dniowym  odpoczynku potrzebowały chwili aby w pełni się przebudzić i zacząć pracować na wysokich obrotach.

Niedziela 7.00 rano – klient robi testy, potwierdza, że wszystko działa i zwalnia inżyniera do domu. Już wiemy, że proszek gaśniczy nie jest najlepszym pomysłem w serwerowni. Aha, jeszcze jedno- proszek gaśniczy wcale nie jest biały tylko czarny.  

Przewodnik Optymalizacja infrastruktury IT od 4hfix

Wybierz pola, które mają być pokazane. Inne będą ukryte. Przeciągnij i upuść, aby zmienić kolejność.
  • Obraz
  • SKU
  • Ocena
  • Cena
  • Stan magazynowy
  • Dostępność
  • Dodaj do koszyka
  • Opis
  • Treść
  • Waga
  • Wymiary
  • Dodatkowe informacje
Kliknij na zewnątrz, aby ukryć pasek porównania
Porównaj