2021-11-22 18:03:52
Вообщем есть такой исследователь Richard Cook, у него довольно длинный и разнообразный послужной список. Работал и с суперкомпьютерами и в медицине. Одно время он работал над изучением сложных медицинских систем. Именно под влиянием этого периода работы в 1998 году он и написал небольшую работу - "How Complex Systems Fail". Наткнулся на эту работу только сегодня и хочу сказать что каждый абзац просто пропитан опытом и глубокой мыслью. Прям рекомендую читать и перечитывать. Вынес топ важных для меня пунктов и расписал. И да, абсолютно каждый пункт справедлив для ИТ систем. Напомню написано в 1998 году!
3.Catastrophe requires multiple failures – single point failures are not enough.
Катастрофы приходят с серией сбоев. Просто отказал сервис или недоступности сети мало для фатальной катасторфы. Тут речь про системы которые изначально нормально переживают сбой какого=то количества компонентов.
Пример из другой статьи:
In October 2012, AWS suffered a major outage in its US-East region caused in part by a latent memory leak in the EBS server data collection agent. The leak was seemingly minor, but two more minor issues (the routine replacement of a single data collection server, and the failure of an internal DNS update to redirect traffic away from that replaced server) combined to bring the whole region down for several hours.
7.Post-accident attribution to a ‘root cause’ is fundamentally wrong.
Следите за мыслью, раз в п.5. мы согласились с тем, что к катастрофе приводит серия сбоев то и единой причины сбоя быть не может. Т.е. термин/подход ключевая причина сбоя в корне неверен.
14.Change introduces new forms of failure.
Изменения приносят новые формы сбоев. Будьте готовы к этому. Ошибки как и сам продукт эволюционируют.
18. Failure free operations require experience with failure.
Невозможно научиться строить/сопровождать систему без сбоев если у вас небыло этих сбоев. Иначе опыт просто не появится.
p.s. Наберя в интернете "How Complex Systems Fail" вы найдете еще много примеров + автор оригинального текста был на конференции Velocity в 2013.
https://how.complexsystems.fail/
331 viewsedited 15:03