Получи случайную криптовалюту за регистрацию!

​​ Поиск проблемы У меня было понимание что сам я этому про | Хочу в Google

​​ Поиск проблемы

У меня было понимание что сам я этому проблему не решу. Я не шарю в логах, я не шарю в этом продукте. У меня возник план. Попытаться собрать максимально много информации о проблеме в один документ, найти максимальное количество зацепок, убрать все неизвестности между командами и начать дискуссию, привлечь внимание к проблеме, задать некий вектор к ее решению.

Самое первое что я сделал, чтобы понять как это все работает, решил сделать бабушкин тест. Я просто сел и начал пользоваться продуктом со своего рабочего аккаунта и смотрел таблицу с логами все ли туда записывается. Все данные записывались как надо. Потом я решил сделать тоже самое, но только с разных тестовых аккаунтов, и тут я обнаружил что таблица логов пустая, данные не записывались. Тут и была первая зацепка, проблема возникала только для внешних пользователей.

Всю историю проблемы, графики, скриншоты, все свои тесты и результаты я записывал в отдельный документ, чтобы позже можно было этим поделиться.

Почему причину не нашли другие команды

У мня возник вопрос почему команда которая поддерживает этот логер не нашла ошибку раньше. Для этого я обратился к переписке инженеров которые расследовали инцидент. Там прочитал что один из их инженеров упомянул что он не видит никаких аномалий с данными и не может ничем помочь. Я видел что этот инженер, назовём его Вася, шарит в логах, так как он писал много в переписке и прикреплял всякие ссылки на графики. Я смотрел на эти графики и увидел что Вася прав, на этих графиках не видно никаких аномалий.

Когда я рассказал об этому своему коллеге аналитику он сказал мне что разумеется мы не увидим аномалий на графиках так как проблема с метриками возникла уже больше месяца назад, а данные от логов хранятся только 30 дней. Я спросил откуда тогда он взял данные для своих отчетов, где виден спад метрик. Он сказал что есть наша собственная таблица для отчетов где есть все те же самые данные, только они хранятся там дольше. Это была банальная мискоммуникация. Я попросил коллегу аналитика сделать мне график с данными из той таблицы где виден спад и добавил его в свой документ.

Начало обсуждения

На основе документа я сделал пост, прикрепил туда все свои тесты, написал что ошибка возникает только для внешних пользователей, прикрепил графики со спадом и отметил всех кто был прежде задействован в расследовании, включая Васю.

Через некоторое время я увидел комментарии от Васи, я начал отвечать на его вопросы, я дал ему некоторые ссылки на код логера где я думаю может быть ошибка. Он сказал что посмотрит.

Решение проблемы

Через пару дней Вася скидывает мне ссылку на фича-флаг (переключатель который управляет определенной фичей) и говорит что эта фича выкатывалась в то же время когда был спад. Я пробую отключить эту фичу у себя на локальной машине и вижу как логи начинают снова писаться для внешних пользователей. Это оно, это фича вызывала баг который не давал данным логироваться и выбрасывала ошибку.

После того как я подтвердил что в этой фиче есть проблемы. Команда Васи залила фикс и через пару дней метрики поползли обратно вверх, как было и раньше. Успех!

Пожинаю плоды

Нужно теперь продать это все. Я снова пишу пост похожий на этот, в котором пишу какой я молодец, как я понял куда копать, как я сделал документ, нашел и собрал правильных людей, помог найти ошибку и залить фикс. Под этим постом уже отмечаю наших аналитиков, своих коллег, а главное своего начальника.

Коллеги и аналитики пишут слова благодарности, все это видит мой начальник. А в конце года я все это дело еще добавлю в свой отчет по оценке сотрудников. Занавес.