Dlaczego nie działały serwisy Facebooka?

Facebook twierdzi, że winę za 6-godzinną awarię w poniedziałek 4 października 2021 roku ponosi „nieprawidłowa zmiana konfiguracji”.

Logo Facebook z ikonami serwisów (na szarym tle)

Facebook pod koniec poniedziałku przeprosił za sześciogodzinną awarię, która dotknęła sieć społecznościową firmy, a także usługi pomocnicze, obwiniając za przestój „niewłaściwą zmianę konfiguracji”. Facebook i powiązane z nim usługi, w tym Instagram, WhatsApp, Messenger i Oculus VR, przestały działać około godziny 17:30 czasu polskiego i pozostały niedostępne przez około sześć godzin. Kolejne raporty sugerowały, że przyczyną awarii była zła aktualizacja Border Gateway Protocol (BGP), a nowe oświadczenie Facebooka najwyraźniej potwierdza tę teorię.

W poście na blogu Facebook Engineering wiceprezes ds. inżynierii i infrastruktury na Facebooku Santosh Janardhan przeprosił za „niedogodności” i wyjaśnił, że zmiany w konfiguracji routera spowodowały przerwę między jego centrami danych.

Nasze zespoły inżynierów dowiedziały się, że zmiany w konfiguracji routerów szkieletowych, które koordynują ruch sieciowy między naszymi centrami danych, spowodowały problemy, które przerwały tę komunikację – powiedział Janardhan. To zakłócenie ruchu sieciowego miało kaskadowy wpływ na sposób komunikacji naszych centrów danych, powodując zatrzymanie naszych usług.

Wyjaśnienie kłóci się z informacjami dostarczonymi przez Cloudflare, które wcześniej prześledziło problem z niefortunnym zdarzeniem BGP, które wpłynęło na routing ruchu. Niektórzy spekulowali, że prosty błąd konfiguracji DNS był przyczyną przestoju, chociaż to wyjaśnienie zostało porzucone po tym, jak niektóre usługi DNS okazały się funkcjonalne, ale nie odpowiadały.

Janardhan potwierdził również doniesienia, że ​​awaria wpłynęła na wewnętrzne narzędzia Facebooka, co komplikuje diagnozę i rozwiązanie problemu. Według The New York Times inżynierowie bezpieczeństwa nie byli w stanie uzyskać fizycznego dostępu do zagrożonych serwerów, ponieważ ich cyfrowe identyfikatory przestały działać.

Najwyraźniej obawiając się plotek, że jego system został zhakowany, Facebook w poście na blogu powtarza, że ​​awaria była spowodowana „nieprawidłową zmianą konfiguracji” i zauważa, że ​​żadne dane użytkownika nie zostały naruszone w wyniku przestoju.

Dyrektor generalny serwisu Mark Zuckerberg przeprosił w poniedziałek wieczorem, mówiąc, że platformy wracają do sieci. „Przepraszam za dzisiejsze zakłócenia — wiem, jak bardzo polegasz na naszych usługach, aby pozostać w kontakcie z ludźmi, na których Ci zależy”.

To jak dotąd najdłuższa i największa awaria, która dotknęła największą sieć społecznościową na świecie.

źródło: Facebook