Tag: productionissue

О том, как не надо вести себя во время Production Issue на примере Opsgenie

Работаете над SaaS продуктом, которым пользуются другие люди? А бывают ли у вас так называемые Production Issues, когда часть продукта или он весь находятся в нерабочем состоянии? Как вы сообщаете об этом своим клиентам?

Одним из популярных продуктов на сегодня является Statuspage by Atlassian. Многие-многие-многие компании уже давно перешли на Statuspage вместо массовых email- или же SMS- рассылок. К слову, в моей прошлой компании мы пользовались именно email- рассылками.

Все, что от вас требуется – это просто “апдейтить” вашу страницу в случае, если происходит какой-либо инцидент. Ваши клиенты-кастомеры просто подписываются на вашу страницу – и получают уведомления в автоматическом режиме. Никаких писем! К слову, это все дело можно интегрировать в Slack и вообще куда угодно. О Slack читайте мою соседнюю статью.

Так вот, вернемся к Statuspage. Мы, значит, пользуемся одним сервисом под названием Opsgenie. И вот, этот сервис ломается.

Полюбуйтесь, как они рабоают во время этого инцидента:

Друзья, инцидент длился 24 часа!!! За все это время было получено 5 апдейтов: Инвестигируем (16:13 UTC), Обнаружили (19:00 UTC), Апдейт (02:50 UTC следующего дня!!!), Update 2 (13:09 UTC), Resolved (16:37 UTC).

Прошли ровно сутки с начала инцидента. Полюбуйтесь описанием статусов: “несколько систем испытывают трудности”, “мы работаем над улучшением”, а потом такое же сообщение через, внимание, 8 часов!!! “Мы нашли проблему” через почти 12 часов после предыдущего сообщения! Это полное сумасшествие, в особенности для продукта, от которого зависит наша работоспособность!

Здесь не только проблема в огромных пропастях между обновлениями, но и в ничтожной информативности каждого последующего сообщения. Друзья, не делайте так, пожалуйста, НИКОГДА.

Как делаем мы: апдейтим Statuspage каждых 15-20 минут. В Slack канале, где у нас происходит борьба с инцидентом, мы ставим автоматические напоминалки об обновлении Statuspage. Это можно легко сделать так:

Кто-то из команды берет на себя роль периодического апдейта Statuspage.

В добавок, мы используем этот гайд при борьбе с production issues: https://response.pagerduty.com/, а в особенности, этот раздел: https://response.pagerduty.com/#training-guides.

Короче, подписывайтесь, чтобы ничего не пропустить. И будьте честными со своими клиентами. Давайте им знать, чего ожидаить (все, как и в жизни, короче).

Close Bitnami banner