Получи случайную криптовалюту за регистрацию!

В FB каких-то вселенских масштабов даунтайм из-за ошибки в кон | Мобильная Азия

В FB каких-то вселенских масштабов даунтайм из-за ошибки в конфигурации DNS.
Пара инсайтов с реддита от сотрудника фб (оригинльный пост и даже аккаунт (!) удален, но на HN есть копия)

As many of you know, DNS for FB services has been affected and this is likely a symptom of the actual issue, and that's that BGP peering with Facebook peering routers has gone down, very likely due to a configuration change that went into effect shortly before the outages happened (started roughly 1540 UTC). There are people now trying to gain access to the peering routers to implement fixes, but the people with physical access is separate from the people with knowledge of how to actually authenticate to the systems and people who know what to actually do, so there is now a logistical challenge with getting all that knowledge unified. Part of this is also due to lower staffing in data centers due to pandemic measures.

Возможно сейчас в воздухе над Атлантикой уже летят private jet-ы c правильными людьми. Думаю, что это поднимет внутри компании долгую дискуссию по remote-work.

Забавно, что в марте Facebook Research представил статью на конференции NSDI (USENIX Symposium on Networked Systems Design and Implementation), которая называется Running BGP in Data Centers at Scale.
Видео-презентация доступна тут

Рисерчеры рассказывют, про топологию сети управления датацентром, дизайн in-house BGP, и его пайплайны тестирования и развертывания. Также в статье рассказывают про пару критических инцидентов, произошедшие за два года во время эксплуатации ПО.
Кажется новая статья будет к месту =)