當你的 AI 供應商連掛兩天：多模型 Fallback Chain 實戰筆記

你有沒有想過，如果你每天依賴的 AI 服務突然掛了，你的工作流會怎樣？

我想過。但「想過」跟「真的遇到」是兩回事。

災難的開始

那天早上我照慣例打開電腦，準備讓 AI Agent 幫我處理一些開發任務。結果迎接我的是一個冰冷的數字：529。

HTTP 529，Anthropic 的 overloaded 回應。好吧，API 偶爾抖一下很正常，等等就好了。

等了十分鐘。還是 529。

等了三十分鐘。還是 529。

打開 Anthropic 的 status page，上面寫著「Degraded Performance」。好，那就等。身為一個把大量工作流建立在 Claude 上的技術主管，我能做的就是——等。

然後我等了一整天。

24 小時內第二次

更慘的是，這不是第一次。前一天也掛了一次，只是時間比較短，我僥倖覺得是個案。結果隔天又來，而且這次是全天性的大規模故障。

這時候我才認真面對一個事實：我的整個 AI 工作流是單點故障的。

我的 Agent 系統跑在 OpenClaw 上，主力模型是 Claude Opus。Sub-agent 派工、程式碼審查、郵件處理、甚至每日站會報告——全部吃 Anthropic API。一掛，全停。

第一個念頭：換一個備用模型

想法很直覺：設一個 fallback model，Anthropic 掛了就跳到 OpenAI。

但實際操作比想像中麻煩。首先，你不能隨便拿一個 ChatGPT 帳號的 OAuth token 當 API key 用——它們是兩套不同的認證系統。我一開始就在這裡卡了半小時，拿著 ChatGPT 的 token 一直打 API，一直被拒。

後來搞清楚了：如果你有 OpenAI 的 Codex 訂閱（或 API 方案），需要用對應的認證流程。我最終是透過 openclaw onboard --auth-choice openai-codex 把 OpenAI Codex 的認證串起來的。

不只一個備胎：Fallback Chain

一個備用模型夠嗎？經歷了連續兩天的故障，我的答案是：不夠。

原因很簡單——如果你的 Plan B 也掛了呢？雖然兩家同時故障的機率很低，但我不想再賭了。所以我建了一條完整的 Fallback Chain：

Anthropic Claude Opus — 主力，品質最好
OpenAI GPT-5.3 Codex — 第一備援，程式碼能力強
OpenAI GPT-5.2 Codex — 第二備援
OpenAI GPT-5.2 — 第三備援
Anthropic Claude Sonnet — 最後保底

你可能會問：為什麼 Sonnet 放最後？因為以我的使用場景來說，Sonnet 的推理品質跟 Opus 差距明顯，放在倒數是為了「至少還有東西能動」的情境。而 GPT-5.3 Codex 在程式碼任務上表現不錯，當 Opus 的第一替補綽綽有餘。

設定的眉角

建立 fallback chain 的過程中，有幾個實際踩到的坑：

認證方式不統一。 Anthropic 用 API key，OpenAI Codex 走 OAuth，每家的認證流程都不一樣。如果你的 Agent 平台不支援統一管理多個 provider 的認證，光是設定就會讓你懷疑人生。

Context window 差異。 Claude 跟 GPT-5.3 Codex 都是 200K context（Claude 甚至可以擴到 1M extended thinking），但不同模型對長 context 的處理能力不同。我有一個 session 撞到 212K 超過 200K 上限被拒——壓縮機制來不及介入，訊息直接被擋。這在設計 fallback 時要考慮：切換模型後，context 可能需要重新壓縮。

模型行為差異。 這是最微妙的。同樣的 system prompt，Claude 和 GPT 的回應風格、工具呼叫習慣、甚至錯誤處理方式都不同。如果你的 Agent 有很細的行為規範（像我的有身份設定、記憶系統、多 skill 架構），換模型後可能會出現一些「微妙的不對勁」。不至於壞掉，但你會感覺到那不是同一個人在回話。

不是所有模型都能用。 我本來想試 GPT-5.3 Codex Spark（更快的版本），結果發現它不支援 ChatGPT 帳號認證。這種「看起來可以但實際不行」的情況，只有真正去試才會發現。

為什麼不早點做？

說實話，有點心虛。

身為技術主管，我天天跟團隊講系統要有 redundancy、要考慮 failover、不能有 single point of failure。結果自己的 AI 工作流就是一個巨大的單點故障。

原因也很典型：因為一直都沒出過事。 Anthropic 的 API 在過去幾個月穩定到讓人放鬆警惕。就像你知道該做備份，但硬碟一直沒壞過，所以備份軟體裝了從來沒跑過。

直到硬碟真的壞了。

給同樣依賴 AI API 的你

如果你也把 AI 服務深度整合到工作流裡，幾個建議：

現在就設好 fallback。 不要等到出事才急。多模型的認證設定、模型間的行為差異測試，這些需要時間。在平靜的時候做，比在故障時手忙腳亂好太多。

定期測試備援路徑。 設好了不代表能用。每隔一段時間手動觸發 fallback，確認整條 chain 是通的。我就是因為沒測過，才在故障當天花了好幾個小時在搞認證問題。

接受品質會降低。 Fallback 的意義不是「跟主力一樣好」，而是「至少能動」。從 Opus 切到 GPT-5.3 Codex，有些任務的品質確實會下降。但能動比不能動好。完美是進步的敵人，在災難面前更是如此。

記錄你的 fallback chain。 寫下來，放在團隊文件裡。包括每個模型的認證方式、已知限制、切換條件。未來不一定是你在處理故障，讓其他人也能照著做。

後記

故障恢復後，我的 Agent 又回到 Claude Opus 運行。但現在我看著那條 fallback chain 的設定，心裡踏實多了。

AI 服務不是水電，不會 99.999% 在線。特別是在這個各家 provider 都在瘋狂迭代、流量暴增的階段，故障只會越來越常見。

你的 AI 工作流有 Plan B 嗎？如果這篇能讓你今天就花半小時把 fallback 設好，那我這兩天的焦慮就沒白費了。