2026年03月12日
こんにちは。ソホビービー株式会社の新人エンジニアのU.N.です。
今回は、私が経験した「個人システムにおける長期ダウンタイム」の事後検証(ポストモーテム)レポートを共有します。
本題に入る前に、そもそも「ポストモーテム(Post-mortem)」とは何か、なぜエンジニアは障害のたびにわざわざ記録を残すのか、について少し触れておきます。
ポストモーテムは、直訳すると「死後」を意味するラテン語ですが、IT業界(特にSREの文脈)においては「障害事後検証」を指します。システム障害やインシデントが収束した後に、その経緯や原因を振り返り、ドキュメントとしてまとめるプロセスのことです。
私たちがインシデントの記録を残す目的は、主に以下の3点です。
そして、ポストモーテムにおいて最も重要な大原則が「ブレームレス(非難しない)」であることです。障害を起こした「人」を責めるのではなく、障害を防げなかった「システムやプロセス」の欠陥に目を向けることで、初めて建設的な改善が可能になります。
……さて、前置きが長くなりました。
今回のレポートにおけるターゲットシステムは、他でもない「私自身の身体」です。
2025年11月、インフルエンザとウイルス性胃腸炎により、私は有給休暇を使い果たすという深刻なリソース枯渇状態に陥りました。この経験から得た教訓を、自己システム安定稼働のためのプレイブックV2.0として公開します。
■ インシデント概要
■ クリティカルな二次被害(リソース枯渇)
ダウンタイムの長期化とリソース枯渇を引き起こした根本原因は、以下の3点に集約されます。
RCA 1:初期アラート(倦怠感)の無視
11月14日朝の初期症状を無視し出社を継続した結果、異常検出からアクションまでの MTTD (Mean Time To Detect) が長期化。これが重症化を招き、システムの緊急シャットダウンに至りました。
RCA 2:リソース計画の不備(キャパシティプランニングの失敗)
有給休暇を「緊急時バッファ」として確保するという意識が希薄でした。予期せぬ障害に耐えうるリソースの予約(キャパシティプランニング)が不足していたため、長期ダウンタイムによりリソースが完全に枯渇しました。
RCA 3:不適切なリカバリー戦略
復帰への焦りから、完治前に無理な行動を取り、回復を遅延させた可能性があります。システム復旧には、医師の診断による 「サービス再開許可」 を待つというフェイルセーフな戦略が不可欠です。
長期化を防ぎ、リソース枯渇を避けるための具体的な行動指針を策定します。
| 手順 | V2.0 改訂後のアクション(技術的視点) | 目的 |
|---|---|---|
| 初期対応 | 初期アラート(倦怠感、節々の痛み)発生時、即座に受診・自宅隔離へ移行する。(MTTDの劇的短縮) | 重症化の阻止 |
| リソース管理 | 有給休暇を「緊急時バッファ」として最低5.0日を恒常的に確保する。(キャパシティプランニング) | リソース枯渇の回避 |
| 療養・復旧 | 医師による「完全復帰許可」が出るまで、業務復帰を厳格に禁止する。(MTTRの確実性の担保) | 再発リスクの回避 |
この経験から得た最大の教訓は、技術的なスキルアップ以前に「自己システム(健康)」の安定稼働が、チームへの最大の貢献であるということです。
今後は、シーズン前のワクチン接種や日常的な手洗い・うがいといった「プロアクティブなシステムメンテナンス」を徹底し、このプレイブック V2.0に基づき、個人システムのメンテナンスとリソース管理を遂行します。
業務をサポートいただいたチームの皆様に深く感謝申し上げます。