ポストモーテムテンプレート
これはPagerDutyで利用している標準的なポストモーテムのテンプレートです。 それぞれのセクションでは、あなたがポストモーテムに書くべき情報について説明します。
ガイドライン
このページはインシデント発生後5営業日以内に設定されるポストモーテムのミーティングで確認することを目的とします。 最初のステップはインシデント発生の5営業日以内に、共有カレンダーにミーティングを設定することです。 情報が埋まるまでミーティングの設定を待ってはいけませんが、ミーティングまでにページができているようにしてください。
** ポストモーテムのオーナー:** ここにはあなたの名前が入ります。
** ミーティングの対象:** インシデント発生後5営業日以内に、「インシデントポストモーテムミーティング」を共有カレンダーにスケジュールします。ここに日付を入力してください
** 通話の記録:** インシデントの通話の記録へのリンクを貼る。
オーバービュー#
短い1、2文で、インシデントの原因や、タイムライン、および影響などを要約します。 たとえば「8月9日の朝、プライマリデータベースマシンの暴走により1分間のSEV-1が発生しました。この遅延により、0.024%のPagerDutyアラートがSLA違反となりました。」
何が起こったか#
何が起こったかを簡潔に書く
根本原因#
問題を引き起こした全ての条件を書く。問題を悪化させるようなアクションをしても、対応中に犯したミスから学ぶために全て書く。
解決#
何によって問題が解決したか書く。一時的な措置を施した場合は、長期的な対策と共に書く。
影響#
具体的な数字で正確に書く
SEV-1の時間 | ?分 |
SEV-2の時間 | ?分 |
SLA違反となった通知 | ??% (?? 中 ??) |
破棄された/処理されなかったイベント | ??% (?? 中 ??) 通常は0であるべきだが確認する |
影響を受けたアカウント | ?? |
影響を受けたユーザー数 | ?? |
発生したサポートリクエスト | ?? 関連するチケットへのリンク |
対応者#
- インシデントコマンダーはだれか?
- 補佐は誰か?
- 他に誰が関わったか?
タイムライン#
重要な時刻を書く。(1) 原因が発生した時刻、 (2) ページされた時刻、 (3) ステータスページが更新された時刻(つまり外部告知された時刻)、(4) 重要なアクションを実行した時刻、(5) SEV2/SEV-1が終わった時刻、(6) タイムスタンプが取得されたツール、ログへのリンク
Time (UTC) | Event | Data Link |
---|---|---|
どうだったか?#
うまくいったこと#
- あなたがうまくいったと思ったことや、書きたいことをリストにします。全てを挙げなくても大丈夫です。
うまくいかなかったこと#
- あなたがうまくいかなかったと思ったことをリストにします。その目的は、プロセスを改善して全ての点でフォローアップするためです。
アクションアイテム#
各アクションアイテムはJIRAチケットの形式で、それぞれのチケットは "sev1_YYYYMMDD" と "sev1" のタグを持ちます。 アクションアイテムは (1) 再発防止のための修正、(2) 問題が再発しても問題が小さくなるような措置、 (3) 内部メールやステータスページの更新などのポストモーテムの残り作業、 (4) インシデント対応プロセスの改善、などです。
メッセージ#
内部メール#
従業員に対するフォローアップです。ポストモーテムミーティングが終わった後すぐに送るべきです。メールにはインシデントの簡単な説明とwikiへのリンクを貼ります
何が起こったか、ポストモーテムへのページがどこにあるかを、簡単に要約します
外部告知#
インシデントに関してstatus.pagerduty.comに掲載することです。顧客に何を伝えて、どう謝罪しますか?(謝罪は定型文ではなく真摯に書くべきです)
概要
何が起こったか
これに対して私たちは何をしている