こんにちは。Lorentzcaです。今年はたくさんキャンプに行けたので来年も継続していきたいです。

さて、最近深夜に障害が発生しました。その障害対応後にCTOからこんな問いかけがありました。

リモートからの障害対応、なるべくリアクションつけるとか状況確認しつこいくらいやれとかコツあるけど、それ新人さん共有できてるっけ?

これを受けて、以前早朝に発生した障害でslack通話しながら対応をしたらいい感じだったことを思い出したので共有も兼ねてその話をします。技術的な話というより、心構え的な話となります。

早朝/深夜の障害対応はキツイ

キツイ点は色々ありますが、特にキツイのは、

  • 寝起きで頭が働いていない
  • 障害でサービスが現在進行形で止まっていることに対する 焦り
  • イレギュラーな事態に対する耐性がなく、 どうして良いかわからない (これは経験値にもよりそう…)

と私は思っています。

通話しよう

通話することによって、

  • チャットより細かいやり取りをハンズフリーで出来る(今から◯◯実行します、あーLA上がってきた ああー下がってきたなど)
  • ハンズフリーだと作業スピードが上がる(= 早く復旧できる)
  • ハンズフリーで密なやり取りが出来ることによって ミスが減らせる (特に手動フェイルオーバーさせてから何して何する、のような複雑な作業の場合)
  • 多少緊張が和らぐ

と思います。

何が何でも通話が良いかというとそうではなくて(通話だとテキストで記録残らないし)、クリティカルな作業や、「普段これペア作業でやってるな」みたいな作業のときに通話すると良さげです。あとはチャット打ってる時間すら惜しい状況とか。

通話時、寝起きでテンション低かったり焦りで早口になってるかもしれませんが、もちろん怒っているわけでは決してないので許してちょんまげ! 😇

あと自分より相手の方が焦っているなとか、冷静じゃないなと思った場合は積極的に通話を提案したり実作業を肩代わりするなど、気遣いしていければ良いなと思います。

画像は一見冷静にやりとりしている様に見えますが二人とも焦っているの図です。

:alt

まとめ

様々な工夫をしても、思わぬ要因によって障害が発生することはあります。そんなときはとにかく焦らず素早く確実に復旧するためにもどんどん周りの人を頼り、頼られて行く所存です。 💪

  • このエントリーをはてなブックマークに追加
エンジニア募集中です!

私たちは新しい仲間を募集しています。