インシデント収束後

重大インシデント収束後に何をすべきか。 事後対応とレビューについて紹介します。

各役割ごとの事後対応#

インシデントで直接発生したフォローアップ項目に加えて、それぞれの役割ごとにいくつかのフォローアップタスクがあります。 これらは情報の整理と顧客に対しての補足など、軽微な作業であることが多いです。

インシデントコマンダーのステップ#

  1. PagerDuty内のインシデントを更新します。

    • 関連するインシデントを最初のインシデントに関連付ける。
    • 最終的なインシデントの深刻度を設定する。
    • インシデントを解決する。
  2. インシデントに対するポストモーテムを作成し、オーナーを割り当てる。

  3. 関係するステークホルダーに対して、インシデントが発生したこととポストモーテムへのリンクを送る。

  4. ときどきポストモーテムの進捗をチェックして、目的の時間までに終わるようにする。

補佐のステップ#

インシデント解決後は追加の作業はありません。 しかしインシデントコマンダーが各手順で確認する事があるかもしれません。

記録係のステップ#

  1. チャットの会話を確認して、主要なイベントを関連する項目を抜き出します。

  2. 全ての TODO 項目をポストモーテムに追加します。

内容領域専門家のステップ#

  1. ポストモーテムに重要と思われるメモを追加します。

顧客連絡のステップ#

  1. インシデントについて受け取った問い合わせへの返答をします。

  2. ポストモーテムプロセスをフォローアップして、外部向けのメッセージができればステータスページに更新します。

内部連絡のステップ#

インシデント解決後は追加の作業はありません。 しかしインシデントコマンダーから、ステークホルダーへの回答について確認することがあるかも知れません。

インシデントのレビュー#

インシデントの詳細をレビューして、問題の原因や発生した理由、そして再発防止のために何ができるか確認するのは大切です。 これらは、アフターアクションレビュー、インシデントレビュー、フォローアップレビューなどと呼ばれます。 私たちはポストモーテムと呼びます。

私たちのポストモーテムプロセスで詳しく説明します。

プロセスのレビュー#

インシデントのレビューと同じように、プロセスのレビューも大切です。 インシデントに適切に対応できたか、また改善できる部分はあるか、などです。

このレビューは正式なやり方はまだありません。 普段はインシデントコマンダーが何人か集まり、他の手段が無かったか、インシデント対応プロセスに追加できる改善点はないかを議論します。

この打ち合わせに興味がある場合は、参加したいとインシデントコマンダーの誰かに伝えてください。