概要
2024年12月26日、OpenAIは主要製品であるChatGPT、APIサービス、Soraに影響を与える重大なサービス障害を経験しました。この障害は太平洋標準時(PST)午前10:40に始まり、夜遅くまで完全な復旧に時間を要しました。
タイムライン
フェーズ1:完全なサービス障害
- 11:00 PST: ChatGPT、API、Soraで高いエラー率を検出
- 11:18 PST: アップストリームプロバイダーに起因する問題と特定
- 12:06 - 14:05 PST: 継続的な修復作業
フェーズ2:段階的な復旧
- 15:16 PST: Soraサービスが完全復旧
- 16:05 PST: APIサービスの復旧開始
- 17:11 PST: ChatGPTの段階的な復旧開始
- 20:38 PST: 全サービスの完全復旧
Sora個別の障害
主要なサービス障害の解決後、Soraで別の問題が発生:
- 20:25 PST: Soraエディターで高いエラー率を検出
- 21:20 PST: 調査継続
- 22:36 PST: 問題完全解決
技術的影響
- ChatGPTサービスが約10時間利用不可
- API機能の制限
- Soraビデオ生成機能の一時的な利用不可
- チャット履歴の読み込み問題
解決手順
OpenAI技術チームが実施した対策:
- アップストリームプロバイダーとの連携によるインフラ問題の解決
- 段階的な復旧戦略の実施
- 緊急修正の展開
フォローアップ対応
OpenAIのコミットメント:
- 包括的な根本原因分析の実施
- 詳細なインシデントレポートの提供
- 再発防止策の実施
結論
この事象は、クラウドサービスの複雑性と安定性の課題を浮き彫りにしました。OpenAIは強力なインシデント対応能力を示しましたが、同時に更なる改善が必要な領域も明らかになりました。