Получи случайную криптовалюту за регистрацию!

Задачка для ИТ-профессионалов Друзья ИТшники, хочу поделиться | Давайте об IT

Задачка для ИТ-профессионалов

Друзья ИТшники, хочу поделиться кейсом из практики, попробуйте поразминать ИТ-извилины, интуицию и опыт)

Дано: инфраструктура заказчика - виртуализация vmware. Несколько блочных СХД, SAN коммутаторы на FibreChannel в растянутых фабриках, несколько десятков хостов виртуализации и несколько сотен виртуальных серверов.

В какой-то момент начинаются жалобы на производительность дисковой подсистемы. Не везде, не регулярно, не много.
Сперва определенные системы, затем определённые хосты, потом кластер целиком, потом ощутили все остальные системы.

По метрикам увидели серьёзную просадку во времени отклика дисковой подсистемы. Пики доходили до 12000 ms. (При норме до 15ms). Вплоть до отвалов datastore на хостах по таймауту.

Собственно график отклика ниже, в том числе с точкой, в которой была обнаружена и решена проблема.

Как вы думаете, где в итоге оказалась проблема? Откуда вы бы начали искать?

P.S. Призываю всех в комменты!