異なる役割
PagerDutyのインシデント対応チームには、いくつかの重要な役割があります。 特定の役割は1つのインシデントに対して1人しかいなかったり(例えばインシデントコマンダー(Incident Commander))、複数人で構成される場合があります(例えば内容領域専門家(Subject Matter Expert))。 それらのチームが一丸となり、問題に取り組んで迅速に問題を解決します。
私たちの役割の階層図を示します。 このページの残りで、それぞれの役割について解説します。
大規模で複雑なインシデントでは、サブチームも考慮した役割を構成できます。 詳細については複雑なインシデントを参照してください。
柔軟に構成する
全てのインシデントにおいて、各役割をそれぞれ別の人で構成する必要はありません。 例えばインシデントのスコープが十分に小さい場合は、補佐(Deputy)は記録係(Scribe)と内部連絡(Internal Liaison)をしても良いのです。 インシデントの規模に基づいてスケールできるように、チームの構成は柔軟であるべきです。
インシデントコマンダー(Incident Commander: IC)#
この役割はなにか?#
インシデントコマンダー(Incident Commander)は、重大インシデント発生中で何が起こっているか、何が起ころうとしているかの、唯一の信頼できる情報源です。 この役割がすることは多種多様です。
なぜ必要か?#
ソフトウェアシステムの規模や複雑度が大きくなると、物事が壊れてインシデントが発生します。 インシデントコマンダーは、重大インシデントを解決に導くのに必要な役割です。
この役割の責務は?#
- 重大インシデントの準備を支援
- 重大インシデントのコミュニケーションチャネルの用意。
- 重大インシデント発生中に、人々をコミュニケーションチャネルに集める。
- インシデント発生中のコミュニケーションのとり方をチームメンバーに教えたり、他のインシデントコマンダーを教育する。
- 重大インシデントを解決に導く
- みんなを同じコミュニケーションチャンネルに集める。
- サービスや領域の所有者から、ステータスに関する情報を収集する。
- 問題を修正するアクションの提案を収集して、それを実施するように進める。
- 全てのアクションを委譲する。インシデントコマンダーは解決する人ではない。
- システムの状態に関する唯一の権限を持っている
- ポストモーテム
- インシデント直後にテンプレートを作成し、記憶の新しいうちに関係者が記入できるようにする
- イベントが終わった後に、ポストモーテムを割り当てる。これは後日でもできる。
- リーダーやマネージャーと共に、再発防止のためのスケジュールを準備する。
誰がすべきか?#
オンコールスケジュール上の誰でもできます。 トレーニングを受けるには、インシデントコマンダーをシャドウイングようスケジュールに入ります。
どうすればなれるか?#
インシデントコマンダーのトレーニングガイドを読んでください。
補佐(Deputy)#
この役割はなにか?#
補佐(Deputy)は、インシデントコマンダーを直接サポートします。 この役割はただ一緒に観察するためにいるのではなく、インシデント発生中に重要な役割が期待されます。
なぜ必要か?#
インシデントコマンダーにとって重要なことは、手順の記録やタイマーを測ることではなく、目の前の問題に集中することです。 補佐はインシデントコマンダーをサポートして、インシデントコマンダーがインシデントに集中できるように支援します。
この役割の責務は?#
補佐は以下のことが期待されます
- 他の人が対応できないことを、インシデントコマンダーに提示する(開始したタイマーを監視し、点呼で見逃した項目を後で見返すなど)。
- インシデントコマンダーが内容領域専門家や他の役割になった場合、インシデントコマンダーの「ホットスタンバイ」となる。
- インシデント通話を管理し、インシデントコマンダーから指示されると通話から人を外す。
誰がすべきか?#
インシデントコマンダーは補佐もできます。 補佐はインシデントコマンダーを引き継ぐ可能性があるので、インシデントコマンダーとしてのトレーニングが必要です。
どうすればなれるか?#
補佐のトレーニングガイドを読んでください。 補佐はインシデントコマンダーのトレーニングも必要です。
記録係(Scribe)#
この役割はなにか?#
記録係(Scribe)は、後から見返すときに役立つように、インシデントの経過を時系列に基づき記録します。
なぜ必要か?#
インシデントコマンダーは目の前のインシデントに集中する必要があり、内容領域専門家はインシデントの解決に集中する必要があります。 ポストモーテムで私たちに何ができたかを振り返ったり、そのとき気づけなかった影響を正確に特定するために、何が起こったかを時系列に基づいて記録することは重要です。
この役割の責務は?#
記録係は以下のとこが期待されます。
- インシデント通話が記録されていることを確認する
- Slackの重要なデータ、イベント、行動などが発生したことを記録する。
- 実行した主要なアクション (例えば「stuck lockを解除するために
prod-server-387723
を再起動しました」など) - インシデントコマンダーからの提供された状況報告 (例えば「インシデントはSEV-1で、サービスAは現在stuck lockのため、イベント処理をしていない。Xはアプリを再起動して、次の3分以内に報告する」)
- 通話中や終了後の振り返りでの主要な発言(例えば"Note: (Bob B) stuck lockを特定する良い方法があるはず")
- 実行した主要なアクション (例えば「stuck lockを解除するために
誰がすべきか?#
インシデント対応中は誰でも記録係になることができ、通話の最初でインシデントコマンダーが指名します。 通常は補佐が記録係をしますが、必ずしもその必要はなく、大規模なインシデントの場合はできません。
どうすればなれるか?#
記録係のトレーニングガイドを読んで、次回のインシデントで記録係になりたいとインシデントコマンダーに伝えてください。
内容領域専門家(Subject Matter Expert)#
この役割はなにか?#
内容領域専門家(Subject Matter Expert : SME)は、解決者(Resolver)とも呼ばれ、PagerDutyを構成するコンポーネントやサービスの、ドメインエキスパートまたはオーナーです。
なぜ必要か?#
インシデントコマンダーや補佐は、全てを知っている超人的存在ではありません。 サービスで問題が発生した場合、問題を迅速に特定して解決するために、サービスの専門家が必要になります。
この役割の責務は?#
- サービスの共通的な問題に対する診断をする。
- インシデント発生中に発見した問題を即座に修正する
- 簡潔にコミュニケーションするスキル、特にCANレポートと呼ばれる
- 状態 (Condition): サービスの現在の状態は?正常かどうか?
- 行動 (Actions): サービスが正常じゃない場合、どのような行動が必要か?
- 要請 (Needs): サービスを解決するために何が必要か?
誰がすべきか?#
「ドメインエキスパート」なら誰でもできます。 通常はサービスの最初のオンコールは、内容領域専門家となります。
どうすればなれるか?#
内容領域専門家のトレーニングガイドを読んでください。 また、あなたのチームのオーナーと話し合い、サービス固有の要件が何なのかを判断する必要があります。
顧客連絡(Customer Liaison)#
この役割はなにか?#
顧客と直接または外部公開してるチャネルを経由して、やり取りをする人です。 通常はカスタマーサポートチームのメンバーです。
なぜ必要か?#
他の全ての役割は、問題の原因究明や解決に取り組んでいます。 顧客とのやり取りを適切に処理できるよう、それに焦点を当てた役割が必要になります。
この役割の責務は?#
- インシデントに関するメッセージを公開する(Twitter、StatusPageなど)
- インシデントの影響がある顧客について、インシデントコマンダーに知らせる
- ポストモーテムが完了したら、顧客にメッセージを提供する
誰がすべきか?#
サポートチームのメンバーは誰でも顧客連絡になれます。
どうすればなれるか?#
顧客連絡のトレーニングガイドを読んで、サポートチームで誰が顧客窓口になるか話し合ってください。
内部連絡(Internal Liaison)#
この役割はなにか?#
社内のステークホルダーとのやり取りをする人です。 インシデントの内部チームにお知らせをするか、組織から追加の対応者を動員します。
なぜ必要か?#
大規模インシデントでは、組織をまたいだ複数チームが関係する事があります。 これらのチームを動員して、迅速にインシデントに対応できるように、特定の連絡を設置します。
この役割の責務は?#
- インシデントコマンダーの指示に応じて、内容領域専門家やオンコールのエンジニアを呼び出す
- インシデントコマンダーの指示に応じて、組織内の他のチームに通知する(経理、法務、マーケティングなど)
- ステークホルダーと連絡を取り、必要に応じて状況を伝える
- 社内のステークホルダーからの質問に答え、オンコール対応している人の妨げにならないようにする
誰がすべきか?#
インシデント対応中に、インシデントコマンダーが指名した人。
どうすればなれるか?#
内部連絡トレーニングを読んでください。