ポストモーテムテンプレート

これはPagerDutyで利用している標準的なポストモーテムのテンプレートです。 それぞれのセクションでは、あなたがポストモーテムに書くべき情報について説明します。


ガイドライン

このページはインシデント発生後5営業日以内に設定されるポストモーテムのミーティングで確認することを目的とします。 最初のステップはインシデント発生の5営業日以内に、共有カレンダーにミーティングを設定することです。 情報が埋まるまでミーティングの設定を待ってはいけませんが、ミーティングまでにページができているようにしてください。

** ポストモーテムのオーナー:** ここにはあなたの名前が入ります。

** ミーティングの対象:** インシデント発生後5営業日以内に、「インシデントポストモーテムミーティング」を共有カレンダーにスケジュールします。ここに日付を入力してください

** 通話の記録:** インシデントの通話の記録へのリンクを貼る。

オーバービュー#

短い1、2文で、インシデントの原因や、タイムライン、および影響などを要約します。 たとえば「8月9日の朝、プライマリデータベースマシンの暴走により1分間のSEV-1が発生しました。この遅延により、0.024%のPagerDutyアラートがSLA違反となりました。」

何が起こったか#

何が起こったかを簡潔に書く

根本原因#

問題を引き起こした全ての条件を書く。問題を悪化させるようなアクションをしても、対応中に犯したミスから学ぶために全て書く。

解決#

何によって問題が解決したか書く。一時的な措置を施した場合は、長期的な対策と共に書く。

影響#

具体的な数字で正確に書く

SEV-1の時間 ?分
SEV-2の時間 ?分
SLA違反となった通知 ??% (?? 中 ??)
破棄された/処理されなかったイベント ??% (?? 中 ??) 通常は0であるべきだが確認する
影響を受けたアカウント ??
影響を受けたユーザー数 ??
発生したサポートリクエスト ?? 関連するチケットへのリンク

対応者#

  • インシデントコマンダーはだれか?
  • 補佐は誰か?
  • 他に誰が関わったか?

タイムライン#

重要な時刻を書く。(1) 原因が発生した時刻、 (2) ページされた時刻、 (3) ステータスページが更新された時刻(つまり外部告知された時刻)、(4) 重要なアクションを実行した時刻、(5) SEV2/SEV-1が終わった時刻、(6) タイムスタンプが取得されたツール、ログへのリンク

Time (UTC) Event Data Link

どうだったか?#

うまくいったこと#

  • あなたがうまくいったと思ったことや、書きたいことをリストにします。全てを挙げなくても大丈夫です。

うまくいかなかったこと#

  • あなたがうまくいかなかったと思ったことをリストにします。その目的は、プロセスを改善して全ての点でフォローアップするためです。

アクションアイテム#

各アクションアイテムはJIRAチケットの形式で、それぞれのチケットは "sev1_YYYYMMDD" と "sev1" のタグを持ちます。 アクションアイテムは (1) 再発防止のための修正、(2) 問題が再発しても問題が小さくなるような措置、 (3) 内部メールやステータスページの更新などのポストモーテムの残り作業、 (4) インシデント対応プロセスの改善、などです。

メッセージ#

内部メール#

従業員に対するフォローアップです。ポストモーテムミーティングが終わった後すぐに送るべきです。メールにはインシデントの簡単な説明とwikiへのリンクを貼ります

何が起こったか、ポストモーテムへのページがどこにあるかを、簡単に要約します

外部告知#

インシデントに関してstatus.pagerduty.comに掲載することです。顧客に何を伝えて、どう謝罪しますか?(謝罪は定型文ではなく真摯に書くべきです)

概要

何が起こったか

これに対して私たちは何をしている