概要
PagerDutyの重大インシデント対応プロセスを学ぶことは、PagerDutyで効率的なオンコールエンジニアになるために重要なことです。 このセクションでは、インシデント対応における様々な役割に対するトレーニング資料と、政府機関からの追加情報とトレーニング資料を紹介します。
トレーニングガイド#
トレーニングガイドはそれぞれの役割ごとに分けられていますが、その役割に属していなくても読むことをお勧めします。 重大インシデントで彼らがどのようなことをしているかを理解できます。
- インシデントコマンダーのトレーニング - インシデントコマンダーは重大インシデントを解決に導きます。彼らは他の人を指示する人です。
- 補佐のトレーニング - 補佐はインシデントコマンダーをサポートしたり、必要に応じて作業を引き継ぎます。
- 記録係のトレーニング - インシデント発生中に、記録係として担当する人を対象とします。
- 内容領域専門家/解決者のトレーニング - これはチームでオンコールを担当するPagerDutyの全ての人が対象となります。
- 顧客連絡のトレーニング - 外部に告知して顧客とやり取りする人を対象とします。
- 内部連絡のトレーニング - これはインシデント発生中に、社内のチームと協力する可能性がある全ての人に関係します。
トレーニングコース#
私たちは一部のトレーニングコースのスライドやビデオも公開しています。 もともとはPagerDuty内部で使っていたものですが、より広く使えるようにしたので、あなたの組織にも利用できます。
- インシデント対応トレーニングコース - インシデント対応とインシデントコマンダーの役割に関する入門コース。
インシデントの例#
この通話記録は、2017年1月にPagerDutyで発生した重大インシデントを再現したものです。 簡略化とプライバシーの観点で詳細な部分は変更されていますが、それ以外の部分は当時のインシデントのままです。 この記録の詳細については、PagerDutyのブログに載っています。
National Incident Management System : NIMS#
私たちのインシデント対応プロセスは、ほぼNational Incident Management System : NIMSに基づいています。
生命、財産、そして環境への影響を減らすために、政府機関、非政府機関、そして民間部門における、全てのレベルの部門や機関をシームレスに連携し、根本原因、規模、場所、複雑度など、全ての脅威や危険をもたらすインシデントを管理するための、体系的かつ危険予測するアプローチ。
最初はこれはITの運用環境には適用できないと思われていたが、これらの状況をもたらす重大インシデントからの学びで、私たちの業界にも直接適用できるということを学びました。
もしNIMOについて詳しく知りたいのなら、ICS-100 と ICS-700 のオンライントレーニングを受けることをお勧めします。 これらのコースではNIMSとインシデントコマンダーシステム(FEMAから認証を得るためにトレーニング後にオンライン試験があります)について学ぶことができます。 またNIMSにはFEMAによる追加トレーニング資料があるので、そちらもご覧ください。
もしUSを拠点として、コミュニティ内でインシデント対応ロールを引き受ける場合には、CERT(Community Emergency Response Teams)プログラムについて調べることをお勧めします。 多くの都市がCERTトレーニングを実施しており、コミュニティ内でCERTコントリビューターとしてボランティアができます。 現実世界での災害対応を経験するだけでなく、そのスキルを日常生活で活かすこともできます。
追加情報もご覧ください。
世界のインシデント対応#
NIMSはUSのインシデント対応フレームワークですが、多くの国で独自のフレームワークがあります。 一部はUSのシステムを元にしてるものもありますが、ほとんどは独自のものが多いです。 世界各国で使われているメソッドとフレームワークを調査することで新たな学びもあります。
"Comparative Emergency Management: Understanding Disaster Policies, Organizations, and Initiatives from Around the World"(FEMA websiteから入手可能)という本は、30カ国ほどで利用されているシステムを比較し、世界中で利用されている危機管理フレームワークについての情報が載っています。
ここでは私たちPagerDuty内のプロセスに適合して改善するために調べたいくつかのシステムを紹介します。
イギリス#
イギリスの危機管理システムは、Gold-Silver-Bronze Command Structureと呼ばれるコマンド階層を使います。 このフレームワークは、戦略的(ゴールド)、戦術的(シルバー)、運用(ブロンズ)の、コマンドの決定をする責務3つのレベルが含まれます。
詳細については以下の資料をご覧ください。
- UK.GOV - Emergency Response and Recovery.
- UK.GOV - Incident Command - 3rd Edition (2008).
- UK Home Office - Critical Incident Management (PDF).
ニュージーランド#
ニュージラーンドにはCoordinated Incident Management System (CIMS)と呼ばれるシステムがあり、USのインシデントコマンドシステム (Incident Command System : ICS) に基づいています。 CIMSで特に私たちが気に入った部分は、一般的な用語に重点を置いていることで、インシデント発生中の混乱を防いで迅速かつ効率的な対応を可能にしています。 いくつかの用語はICSから変更があります(たとえば"Command"ではなく"Control"にするなど)が、馴染み深いものです。
詳細については以下の資料をご覧ください。
- Ministry of Civil Defence & Emergency Management - New Zealand Coordinated Incident Management System (CIMS) (PDF).
- Devereux-Blum Training & Development - Emergency Management Training
オーストラリア#
オーストラリアのAustralasian Inter-Service Incident Management System (AIIMS)は、USのNIMSから派生したものです。 ICSをベースにしているので、AIIMSは他のフレームワークよりも 管理範囲 に重点を置いています。 ニュージーランドのシステムのように、用語の使い方にいくつかの相違点があります(たとえば"Incident Commander"ではなく"Incident Controller"など)が、ICSを知っている人には馴染みがあります。
詳細については以下の資料をご覧ください。
- The Australasian Inter-Service Incident Management System, 3rd Edition (PDF).
- Incident Management in Australia Handbook
カナダ#
カナダでは独自のIncident Command Systemがあります。 この規格はICS Canadaと呼ばれる組織たちによって管理されておりいます。 このウェブサイトにはカナダの州にごとに応じて、トレーニングコースを見つける方法が載っています。
詳細については以下の資料をご覧ください。
- ICSCanada - I-100 Introduction to Incident Command System (PDF).
- Canada ICS Forms - ダウンロードして各自のインシデントに利用できる標準ICSフォーム(同様のものがFEMAにもあります)