Blog
ブログ

2026年03月12日

【11月技術ブログ】個人システムにおける長期ダウンタイムの分析と恒久対策：インフルエンザ・胃腸炎の事例

こんにちは。ソホビービー株式会社の新人エンジニアのU.N.です。
今回は、私が経験した「個人システムにおける長期ダウンタイム」の事後検証（ポストモーテム）レポートを共有します。

本題に入る前に、そもそも「ポストモーテム（Post-mortem）」とは何か、なぜエンジニアは障害のたびにわざわざ記録を残すのか、について少し触れておきます。

ポストモーテムは、直訳すると「死後」を意味するラテン語ですが、IT業界（特にSREの文脈）においては「障害事後検証」を指します。システム障害やインシデントが収束した後に、その経緯や原因を振り返り、ドキュメントとしてまとめるプロセスのことです。

私たちがインシデントの記録を残す目的は、主に以下の3点です。

そして、ポストモーテムにおいて最も重要な大原則が「ブレームレス（非難しない）」であることです。障害を起こした「人」を責めるのではなく、障害を防げなかった「システムやプロセス」の欠陥に目を向けることで、初めて建設的な改善が可能になります。

……さて、前置きが長くなりました。
今回のレポートにおけるターゲットシステムは、他でもない「私自身の身体」です。

2025年11月、インフルエンザとウイルス性胃腸炎により、私は有給休暇を使い果たすという深刻なリソース枯渇状態に陥りました。この経験から得た教訓を、自己システム安定稼働のためのプレイブックV2.0として公開します。

■ インシデント概要

■ クリティカルな二次被害（リソース枯渇）

リソース枯渇: 11月13日時点の有給残6.0日から、5.5日を消費し、現在の残高は0.5日。予備リソースがほぼ消失し、次回インシデントに対する脆弱性が極大化。
システム連携失敗: 2泊3日の沖縄社員旅行（重要イベント）に不参加。外部システム（チームビルディング）との重要なデータ同期（楽しい旅の思い出共有）に失敗。

ダウンタイムの長期化とリソース枯渇を引き起こした根本原因は、以下の3点に集約されます。

RCA 1：初期アラート（倦怠感）の無視

11月14日朝の初期症状を無視し出社を継続した結果、異常検出からアクションまでの MTTD (Mean Time To Detect) が長期化。これが重症化を招き、システムの緊急シャットダウンに至りました。

RCA 2：リソース計画の不備（キャパシティプランニングの失敗）

有給休暇を「緊急時バッファ」として確保するという意識が希薄でした。予期せぬ障害に耐えうるリソースの予約（キャパシティプランニング）が不足していたため、長期ダウンタイムによりリソースが完全に枯渇しました。

RCA 3：不適切なリカバリー戦略

復帰への焦りから、完治前に無理な行動を取り、回復を遅延させた可能性があります。システム復旧には、医師の診断による 「サービス再開許可」 を待つというフェイルセーフな戦略が不可欠です。

長期化を防ぎ、リソース枯渇を避けるための具体的な行動指針を策定します。

手順	V2.0 改訂後のアクション（技術的視点）	目的
初期対応	初期アラート（倦怠感、節々の痛み）発生時、即座に受診・自宅隔離へ移行する。（MTTDの劇的短縮）	重症化の阻止
リソース管理	有給休暇を「緊急時バッファ」として最低5.0日を恒常的に確保する。（キャパシティプランニング）	リソース枯渇の回避
療養・復旧	医師による「完全復帰許可」が出るまで、業務復帰を厳格に禁止する。（MTTRの確実性の担保）	再発リスクの回避

この経験から得た最大の教訓は、技術的なスキルアップ以前に「自己システム（健康）」の安定稼働が、チームへの最大の貢献であるということです。

今後は、シーズン前のワクチン接種や日常的な手洗い・うがいといった「プロアクティブなシステムメンテナンス」を徹底し、このプレイブック V2.0に基づき、個人システムのメンテナンスとリソース管理を遂行します。

業務をサポートいただいたチームの皆様に深く感謝申し上げます。