Получи случайную криптовалюту за регистрацию!

Мониторим ИТ

Логотип телеграм канала @monitorim_it — Мониторим ИТ М
Логотип телеграм канала @monitorim_it — Мониторим ИТ
Адрес канала: @monitorim_it
Категории: Технологии
Язык: Русский
Количество подписчиков: 5.72K
Описание канала:

Это канал о мониторинге ИТ-инфраструктуры и приложений (Monitoring & Observability Channel)
Консультации Настройка Вопросы @antoniusfirst
@usr_bin_linux — канал об ИТ-инфраструктуре (Linux, Kubernetes, Docker, Terraform, etc.)

Рейтинги и Отзывы

2.50

2 отзыва

Оценить канал monitorim_it и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

0

4 звезд

0

3 звезд

1

2 звезд

1

1 звезд

0


Последние сообщения 17

2021-11-15 12:00:23 ​Посмотрите на эту картинку. Да, это из известной сказки, в которой лживый мальчик кричал «Волки! Волки!» в то время, когда волки доедали каких-то других козлят. А когда волки пришли за его козлятами — никто не прибежал с вилами на помощь.

Если из мониторинга прилетают алерты без повода через какое-то время на них перестанут реагировать. Очень много таких ситуаций возникает когда нет ответственного за мониторинг и каждая группа администраторов добавляет туда свои метрики и алерты. Ниже несколько рекомендаций, чтобы не выпускать ситуацию из под контроля.

Выгружать отчёты по событиям/алертам. Выявлять повторяющиеся. В идеале каждое событие должно появляться из-за какого-то нового бага в коде или настройках.

События должны быть только по тому, что требует вмешательства. Если можно автоматизировать реакцию на событие — это нужно сделать как можно скорее и никого об этом не оповещать. Это касается повторяющихся событий, причину которых невозможно пофиксить.

В системах мониторинга или алертинга есть (или должен быть) такой Duration. Это позволит не реагировать на разовые всплески. Важно уточнить у администраторов информационных систем насколько долго эти системы могут работать в «красной зоне».

По каждому событию/алерту в системе мониторинга должна фиксироваться реакция ответственного сотрудника. Если на какие-то события реакции нет — нужно выяснить кто заказывал мониторинг. Может это уже никому не нужно.

Этот список не означает, что нужно собирать только минимальный набор ключевых метрик. Нужно собирать их как можно больше и различными технологиями (встривание в код, синтетические транзакции, анализ трафика и т.д.). Важно отключить генерацию событий и оповещения на то, на что некому реагировать.

Создавайте связанные триггеры. В системах Zabbix и Prometheus это можно делать. Не нужно плодить 100500 событий из-за отказавшего коммутатора на удалённой площадке.

Если есть мониторинг приложения, которое разрабатывается парнями через стенку, важно, чтобы они поучаствовали в определении метрик мониторинга, на которые должна реагировать эксплуатация (да они сами что-то могли записать в баг-репорт).

Хотел написать 10, но на 7 мысль дальше не идёт. Если хотите небольшое продолжение — я как-то писал на Медиуме о борьбе с событийной усталостью. Малую толику информации можно посмотреть там.
1.6K views09:00
Открыть/Комментировать
2021-11-15 08:00:21 Comparing Logging Solutions

Сравнивают Loki, ELK и SPLUNK.
2.3K views05:00
Открыть/Комментировать
2021-11-14 19:33:12 ​Обратите внимание на интересные репозитории компании Monitoring Artist на гитхабе. Среди них были обнаружены:

- Контейнер с Grafana со всеми преинсталлированными публичными плагинами

- Инструментарий для стресс-тестов Zabbix-агента и Zabbix-сервера

- Веб-приложение для работы с Zabbix-API

Некоторые репозитории давно не обновлялись и может потребоваться допиливание под современные версии Zabbix.
1.6K views16:33
Открыть/Комментировать
2021-11-11 10:38:33 Поздравляю коллег из Amixr.io с присоединением к команде Grafana! Grafana OnCall доступна в бете для платных и бесплатных пользователей Grafana Cloud.

Подробнее можно узнать на вебинаре Deep dive into the Grafana, Prometheus, and Alertmanager stack for alerting and on-call management
1.6K viewsedited  07:38
Открыть/Комментировать
2021-11-10 13:27:25Мониторинг электросчетчиков за один вечер

Имеется 25 счетчиков электроэнергии Меркурий 236 ART, объединенных сетью RS485 для дистанционного получения данных. Появилась задача - как можно скорее организовать мониторинг состояния приборов учета и в автоматическом режиме сохранять значения накопленной ими энергии. Посмотреть как это сделать в Zabbix.
1.0K views10:27
Открыть/Комментировать
2021-11-06 11:50:49 Zabbix Template SAP Performance

Скачать шаблон по ссылке.
1.6K views08:50
Открыть/Комментировать
2021-11-05 15:01:01
В тренинг-центре EPAM открыт набор на обучение по направлению Cloud & DevOps. Если у вас уже есть опыт работы в области системного/сетевого администрирования, программирования на Bash/Python/Go или других языках и большое желание развиваться в Cloud & DevOps – смело регистрируйтесь на тренинг: https://epa.ms/training-devops-3012-ru-nov2021-tg1

Программа обучения основана на практических задачах из реальных проектов. За 3,5 месяца вы систематизируете и закрепите свои знания в ключевых Cloud & DevOps практиках:

принципы технологии виртуализации и изоляции (Docker, Vagrant, Singularity);
управление конфигурациями (Ansible);
публичные облака (AWS/Azure/GCP);
Infrastructure as Code (Terraform);
контейнерная оркестрация (Kubernetes);
внедрение и настройка CI/CD процессов (Jenkins+GitLab CI).

При успешном завершении обучения у вас будет возможность присоединиться к команде Cloud & DevOps EPAM.
1.6K views12:01
Открыть/Комментировать
2021-11-05 14:00:18
Grafana as code

Около полутора лет назад я публиковал в канале ссылку на репозиторий и запись с Fosdem cо специальной библитекой Grafonnet, которая значительно упрощает работу с кодом дашбордов в Grafana.

Вчера на Медиум вышла интересная статья Георгия Моисеева из Tarantool, в которой он рассказывает о рецептах приготовления этой библиотеки. Прочитайте, если Grafana ваше всё.
1.4K views11:00
Открыть/Комментировать
2021-11-04 12:30:00А твой Exchange в полном порядке? Как бесплатно мониторить здоровье сервера

Основная идея этой статьи – рассказать о решении, которое позволяет быстро и без затрат реализовать мониторинг Exchange сервера, используя популярные open source решения (Telegraf, Influx, Grafana). Читать далее.
2.4K views09:30
Открыть/Комментировать
2021-11-03 20:00:23Мониторинг HANA DB

В этой статье немного о мониторинге СУБД на примере SAP HANA и заодно об инструменте RybaFish Charts который для этого и сделан. Читать далее.
1.3K views17:00
Открыть/Комментировать