深刻度レベル
インシデント対応プロセスの最初のステップは、何がインシデントを引き起こしているかを特定することです。 そのあとインシデントは深刻度によって分類され、通常は数字が低いと深刻度が高くなる "SEV" の定義が利用されます。 運用上の問題はこの深刻度レベルによって分類され、一般的には深刻度の高い問題を解決するにはリスクの高い行動を取ることができます。 SEV-3を超える深刻度は機械的に重大インシデント (Major Incident) とみなされ、通常のインシデントよりも優先的に対応されます。
常に最悪の事態を考える
もしインシデントのレベルがわからない場合(SEV-2かSEV-1かわからない場合など)は、より深刻度の高い方に分類します。 インシデント対応中は、深刻度を議論したりそれを決める時間ではありません。 深刻度の高いものとして扱い、後のポストモーテムで振り返りましょう。
SEV-3は重大インシデントか?
全てのSEV-2は重大インシデントですが、全ての重大インシデントがSEV-2に分類される必要はありません。 問題の深刻度が低くても、連携した対応が必要な場合は、インシデント対応プロセスをトリガーします。 インシデントコマンダーが、インシデント対応が必要かどうかを意思決定します。
深刻度 | 解説 | 典型的な対応 |
---|---|---|
SEV-1 |
外部への告知と幹部との連絡が必要な、致命的な問題
|
重大インシデント対応
|
SEV-2 |
顧客が製品を利用するのに影響がある致命的なシステムの問題
|
重大インシデント対応
|
このラインを超えるのは「重大インシデント」と扱います。私たちのインシデント対応プロセスは、あらゆる重大インシデントに対してトリガーされるべきです。 | ||
SEV-3 |
サービスオーナーが直ちに対応する必要がある、安定性や一部の顧客に影響がある軽微な問題。
|
サービスチームへの緊急度の高いページ
|
SEV-4 |
顧客が製品を使うのには影響しない、軽微な問題
|
サービスチームへの緊急度の低いページ
|
SEV-5 |
製品を利用する顧客には影響しない、表面的な問題やバグ
|
JIRAチケット
|
具体的に
これらの深刻度の解説は、PagerDutyの社内で利用している定義から、より一般的な説明に置き換えています。 読者の内部ドキュメントとして利用する場合は、ユーザーやアカウントの何%に影響しているかなどを元にした、具体的な定義を作ることをお勧めします。 通常はメトリクスに基づいて深刻度を定義するのが望ましいです。