内容領域専門家

Incident Response Credit: oregondot @ Flickr

もしあなたがPagerDutyのオンコールをするのなら、サービスの内容領域専門家(Subject Matter Expert)として、重大インシデント発生時にページされて対応されることが期待されます。 このページには、その責務のために準備すべきことを紹介します。 インシデントコマンダーに興味がある場合は、インシデントコマンダーのトレーニングを参照ください。

オンコールでの期待#

もしあなたがチームのオンコールなら、オンコールで期待されることがあります。 これはプライマリとセカンダリのオンコール両方に当てはまります。 システムのSEV-5やSEV-4でページされるのと、重大なSEV-2でページされるのでは、期待されることは異なります。

オンコールを始める前に#

  1. インシデント対応ポリシーと手順をよく理解してください。
    1. インシデントの異なる役割 - あなたは「解決者」または「内容領域専門家」として行動します。しかし他の役割についてもよく理解する必要があります。
    2. インシデント通話のエチケット - インシデント通話中にどのように振る舞うか。
    3. インシデント発生中 - インシデント発生中に何をすべきか。あなたは「解決者」ですが、ドキュメント全体をよく理解しておく必要があります。
    4. 用語集 - 通話中に使われる用語集を理解する必要があります。
  2. アラートの手段が設定されてるか確認します。PagerDutyは"Do Not Disturb"を回避できます。
  3. インシデントの通話に参加できるか確認します。ブラウザープラグインが必要になるかも知れません。ページされた瞬間にはやりたくないです。
  4. オンコールの期間に気をつけ、旅行、休暇、予定などのにあわせてシフトを調整します。
  5. もしあなたがインシデントコマンダーなら、同じ時間に通常のオンコールとインシデントコマンダーのオンコールが重複してないことを確認してください。

オンコール中#

  1. オンコール期間中は常に、ラップトップを携帯しインターネットに繋がるようにしてください(オフィス、家庭、MiFi、テザリング可能な電話など)。
  2. もし大事な予定がある場合は、その時間はチームの他の誰かと変わってもらうようお願いする必要があります。
  3. 重大インシデントのアラートをうけとったときは、インシデントの通話とSlackにできるだけ早く(数分以内に)参加する必要があります。
    1. インシデントコマンダーから質問またはアクションが与えられます。質問には簡潔に答え、与えられた全てのアクションに従います(それらに同意しない場合でも)。

対応動員#

インシデントが発生したとき、インシデント対応の一部として動員または割り当てられます。 言い換えれば、ページによってインシデントに動員するか、インシデントで誰かに直接要求されるまでは、通常の役割です。 動員された後は、まず最初に参加処理をして割り当てを受け取ることです。 インシデントの発生が気になって、インシデント対応に乱入してしまうと、インシデントの管理がうまくいかない可能性があります。

エスカレーションをためらわない#

もし何らかについて確信が持てない場合は、チームからシステムをより知っている他の内容領域専門家を頼ることができます。 追加の手助けを求めてはいけないと思ってはいけません。 私たちのモットーは「エスカレーションをためらわない」です。 対応の仕方がわからずにエスカレーションしても、あなたは決して見下されることはありません。

誰も責めない#

インシデントはありえます。 いくつかはあなたによって引き起こされ、いくつかは別の誰かによって引き起こされます。 私たちのインシデント対応プロセスは、全体を通して誰も責めません。 他人を攻めることは逆効果で、目の前の問題から目をそらしてしまいます。 インシデントがどのようにして起こったかに関わらず、可能な限り早くインシデントを解決する必要があります。

戦時と平時#

重大インシデント発生時の振る舞いは、アラートを受け取ったときは異なります。 私たちはこれを、重大インシデントの「戦時」とよび、通常業務の「平時」と明確に区別します。

平時#

組織構造は、通常年功序列に基づきます。 チームのシニアメンバーが議論を主導し、マネージャーやチームリーダーが最終決定権を持ちます。 意思決定は全ての選択肢を慎重に議論したあとで行われ、顧客への潜在的リスクを最小限に抑えます。

戦時#

戦時は異なります。 重大インシデントの通話では、組織構造が異なるということに気付くでしょう。

  • インシデントコマンダーが担当します。平時の階級などには関係なく、通話中は最も地位が高い人です。CEOより高くなります。
  • 一次対応者(チーム/サービスの第一オンコールとして行動する人)は。そのサービスに対する最も地位が高い人です。
  • 考慮事項が挙げられたあと、インシデントコマンダーが意思決定できます。意思決定がなされると、それが最終決定となります。
    • たとえば、インシデントコマンダーは他の顧客のデータを保護するために、特定の顧客のイベントをドロップします。
  • インシデントコマンダーは合意した意思決定事項を覆す事ができます。たとえば投票結果で9/10が賛成して1人が反対した場合でも、インシデントコマンダーは過半数の投票結果に関わらず、反対することができます。
  • インシデントコマンダーは、無礼な言語や振る舞いをすることがあります。今は戦時中で、問題を解決するために時々無礼な行いをします。これは個人的なことではありません。もし今まで戦時の経験をしてないのなら、経験して心構えする必要があります。
  • インシデントコマンダーから通話から出るように言われるか、強制的に退出されることがあります。有益な情報提供がないと感じられたとき、インシデントコマンダーの裁量によって退出させられます。繰り返しになりますが、これは個人的なことではなく、戦時は平時とは異なるということを覚えておく必要があります。