異なる役割

PagerDutyのインシデント対応チームには、いくつかの重要な役割があります。 特定の役割は1つのインシデントに対して1人しかいなかったり(例えばインシデントコマンダー(Incident Commander))、複数人で構成される場合があります(例えば内容領域専門家(Subject Matter Expert))。 それらのチームが一丸となり、問題に取り組んで迅速に問題を解決します。

私たちの役割の階層図を示します。 このページの残りで、それぞれの役割について解説します。

Incident Response Structure

大規模で複雑なインシデントでは、サブチームも考慮した役割を構成できます。 詳細については複雑なインシデントを参照してください。

柔軟に構成する

全てのインシデントにおいて、各役割をそれぞれ別の人で構成する必要はありません。 例えばインシデントのスコープが十分に小さい場合は、補佐(Deputy)は記録係(Scribe)と内部連絡(Internal Liaison)をしても良いのです。 インシデントの規模に基づいてスケールできるように、チームの構成は柔軟であるべきです。


インシデントコマンダー(Incident Commander: IC)#

この役割はなにか?#

インシデントコマンダー(Incident Commander)は、重大インシデント発生中で何が起こっているか、何が起ころうとしているかの、唯一の信頼できる情報源です。 この役割がすることは多種多様です。

なぜ必要か?#

ソフトウェアシステムの規模や複雑度が大きくなると、物事が壊れてインシデントが発生します。 インシデントコマンダーは、重大インシデントを解決に導くのに必要な役割です。

この役割の責務は?#

  1. 重大インシデントの準備を支援
    • 重大インシデントのコミュニケーションチャネルの用意。
    • 重大インシデント発生中に、人々をコミュニケーションチャネルに集める。
    • インシデント発生中のコミュニケーションのとり方をチームメンバーに教えたり、他のインシデントコマンダーを教育する。
  2. 重大インシデントを解決に導く
    • みんなを同じコミュニケーションチャンネルに集める。
    • サービスや領域の所有者から、ステータスに関する情報を収集する。
    • 問題を修正するアクションの提案を収集して、それを実施するように進める。
    • 全てのアクションを委譲する。インシデントコマンダーは解決する人ではない。
    • システムの状態に関する唯一の権限を持っている
  3. ポストモーテム
    • インシデント直後にテンプレートを作成し、記憶の新しいうちに関係者が記入できるようにする
    • イベントが終わった後に、ポストモーテムを割り当てる。これは後日でもできる。
    • リーダーやマネージャーと共に、再発防止のためのスケジュールを準備する。

誰がすべきか?#

オンコールスケジュール上の誰でもできます。 トレーニングを受けるには、インシデントコマンダーをシャドウイングようスケジュールに入ります。

どうすればなれるか?#

インシデントコマンダーのトレーニングガイドを読んでください。


補佐(Deputy)#

この役割はなにか?#

補佐(Deputy)は、インシデントコマンダーを直接サポートします。 この役割はただ一緒に観察するためにいるのではなく、インシデント発生中に重要な役割が期待されます。

なぜ必要か?#

インシデントコマンダーにとって重要なことは、手順の記録やタイマーを測ることではなく、目の前の問題に集中することです。 補佐はインシデントコマンダーをサポートして、インシデントコマンダーがインシデントに集中できるように支援します。

この役割の責務は?#

補佐は以下のことが期待されます

  1. 他の人が対応できないことを、インシデントコマンダーに提示する(開始したタイマーを監視し、点呼で見逃した項目を後で見返すなど)。
  2. インシデントコマンダーが内容領域専門家や他の役割になった場合、インシデントコマンダーの「ホットスタンバイ」となる。
  3. インシデント通話を管理し、インシデントコマンダーから指示されると通話から人を外す。

誰がすべきか?#

インシデントコマンダーは補佐もできます。 補佐はインシデントコマンダーを引き継ぐ可能性があるので、インシデントコマンダーとしてのトレーニングが必要です。

どうすればなれるか?#

補佐のトレーニングガイドを読んでください。 補佐はインシデントコマンダーのトレーニングも必要です。


記録係(Scribe)#

この役割はなにか?#

記録係(Scribe)は、後から見返すときに役立つように、インシデントの経過を時系列に基づき記録します。

なぜ必要か?#

インシデントコマンダーは目の前のインシデントに集中する必要があり、内容領域専門家はインシデントの解決に集中する必要があります。 ポストモーテムで私たちに何ができたかを振り返ったり、そのとき気づけなかった影響を正確に特定するために、何が起こったかを時系列に基づいて記録することは重要です。

この役割の責務は?#

記録係は以下のとこが期待されます。

  1. インシデント通話が記録されていることを確認する
  2. Slackの重要なデータ、イベント、行動などが発生したことを記録する。
    • 実行した主要なアクション (例えば「stuck lockを解除するために prod-server-387723 を再起動しました」など)
    • インシデントコマンダーからの提供された状況報告 (例えば「インシデントはSEV-1で、サービスAは現在stuck lockのため、イベント処理をしていない。Xはアプリを再起動して、次の3分以内に報告する」)
    • 通話中や終了後の振り返りでの主要な発言(例えば"Note: (Bob B) stuck lockを特定する良い方法があるはず")

誰がすべきか?#

インシデント対応中は誰でも記録係になることができ、通話の最初でインシデントコマンダーが指名します。 通常は補佐が記録係をしますが、必ずしもその必要はなく、大規模なインシデントの場合はできません。

どうすればなれるか?#

記録係のトレーニングガイドを読んで、次回のインシデントで記録係になりたいとインシデントコマンダーに伝えてください。


内容領域専門家(Subject Matter Expert)#

この役割はなにか?#

内容領域専門家(Subject Matter Expert : SME)は、解決者(Resolver)とも呼ばれ、PagerDutyを構成するコンポーネントやサービスの、ドメインエキスパートまたはオーナーです。

なぜ必要か?#

インシデントコマンダーや補佐は、全てを知っている超人的存在ではありません。 サービスで問題が発生した場合、問題を迅速に特定して解決するために、サービスの専門家が必要になります。

この役割の責務は?#

  1. サービスの共通的な問題に対する診断をする。
  2. インシデント発生中に発見した問題を即座に修正する
  3. 簡潔にコミュニケーションするスキル、特にCANレポートと呼ばれる
    • 状態 (Condition): サービスの現在の状態は?正常かどうか?
    • 行動 (Actions): サービスが正常じゃない場合、どのような行動が必要か?
    • 要請 (Needs): サービスを解決するために何が必要か?

誰がすべきか?#

「ドメインエキスパート」なら誰でもできます。 通常はサービスの最初のオンコールは、内容領域専門家となります。

どうすればなれるか?#

内容領域専門家のトレーニングガイドを読んでください。 また、あなたのチームのオーナーと話し合い、サービス固有の要件が何なのかを判断する必要があります。


顧客連絡(Customer Liaison)#

この役割はなにか?#

顧客と直接または外部公開してるチャネルを経由して、やり取りをする人です。 通常はカスタマーサポートチームのメンバーです。

なぜ必要か?#

他の全ての役割は、問題の原因究明や解決に取り組んでいます。 顧客とのやり取りを適切に処理できるよう、それに焦点を当てた役割が必要になります。

この役割の責務は?#

  1. インシデントに関するメッセージを公開する(Twitter、StatusPageなど)
  2. インシデントの影響がある顧客について、インシデントコマンダーに知らせる
  3. ポストモーテムが完了したら、顧客にメッセージを提供する

誰がすべきか?#

サポートチームのメンバーは誰でも顧客連絡になれます。

どうすればなれるか?#

顧客連絡のトレーニングガイドを読んで、サポートチームで誰が顧客窓口になるか話し合ってください。


内部連絡(Internal Liaison)#

この役割はなにか?#

社内のステークホルダーとのやり取りをする人です。 インシデントの内部チームにお知らせをするか、組織から追加の対応者を動員します。

なぜ必要か?#

大規模インシデントでは、組織をまたいだ複数チームが関係する事があります。 これらのチームを動員して、迅速にインシデントに対応できるように、特定の連絡を設置します。

この役割の責務は?#

  1. インシデントコマンダーの指示に応じて、内容領域専門家やオンコールのエンジニアを呼び出す
  2. インシデントコマンダーの指示に応じて、組織内の他のチームに通知する(経理、法務、マーケティングなど)
  3. ステークホルダーと連絡を取り、必要に応じて状況を伝える
  4. 社内のステークホルダーからの質問に答え、オンコール対応している人の妨げにならないようにする

誰がすべきか?#

インシデント対応中に、インシデントコマンダーが指名した人。

どうすればなれるか?#

内部連絡トレーニングを読んでください。