2022-05-24 11:38:30
Авария 23 мая 2022
Всем привет,
Команда Geekjob приносит извинения за сбой, произошедший 23 мая 2022 года на ресурсе geekjob.ru.
Сообщаю подробности инцидента с кластером сетевого хранилища в датацентре:
2022-05-23 16:00 MSK – проводились работы по оптимизации производительности кластера, в том числе расширение его ресурсной ёмкости в датацентре;
2022-05-23 18:36 MSK — мониторинг кластера сообщил о состоянии ERROR из-за переполнения одного из OSD и перехода его в состояние full osd при RAW USED 60%, при данном состоянии блокируется запись в кластер, для предотвращения повреждения данных;
2022-05-23 19:04 MSK — кластер выведен из состояния full, кластер позволил производить запись;
2022-05-23 19:06 MSK — начало ремонта;
2022-05-23 19:10 MSK — выяснилось, что кластер не позволяет на полную мощность производить операции IO, начался анализ всех узлов, включая сетевые настройки и физические порты;
2022-05-24 04:00 MSK — окончательное решение проблемы производительности кластера, связанной с зависшими демонами OSD и несколькими PG в состоянии remapped+peering.
Сожалеем о проблемах, которые повлияли на работу сервиса. Мы приложим все возможные усилия и наш опыт, чтобы подобного не повторилось.
Cейчас мы все еще ликвидируем последствия аварии в датацентре.
С уважением,
команда Geekjob
527 views08:38