最近看 AI 工具鏈的發展,我越來越覺得「本地模型」和「雲端算力」不該再被當成兩個互斥選項。以前討論 AI 架構,很容易變成站隊:資料不能出去,所以全部本地;或是本地硬體太弱,所以全部丟雲端。可是企業真正會遇到的場景,通常沒那麼乾淨。
比較務實的答案是:哪些任務應該留在本地,哪些任務可以借用雲端,哪些任務必須在人和系統流程之間留下治理邊界。這不是模型選型問題而已,而是架構設計問題。
本地模型的價值,不只是省 API 費
很多人談本地模型,第一個想到的是成本:不用每次呼叫 API 付錢,或至少可以把高頻小任務留在自己的機器上。這當然有道理,但我覺得本地模型更重要的價值是「位置」。
模型跑在哪裡,決定了它能自然接近哪些資料、哪些設備、哪些使用情境。
如果是內部文件整理、桌面操作、錄音轉摘要、影像初步判讀、開發環境裡的輔助工具,本地模型有一個很大的優勢:資料不必先離開工作現場。它可以貼近檔案系統、內網服務、使用者桌面,甚至在網路不穩或政策限制比較多的環境裡繼續工作。
這件事在企業裡很實際。不是所有資料都適合丟到外部 API,不是所有任務都值得為了更強的模型多繞一圈,也不是所有現場都能接受雲端服務的延遲和不可控性。
所以我不太把本地模型看成「雲端模型的低配版」。更好的理解是:它是貼近資料與操作現場的執行層。它不一定要最聰明,但要夠近、夠快、夠可控。
雲端算力適合處理尖峰,而不是接管全部
另一邊,雲端 GPU 或遠端運算環境也不是敵人。
企業內部很多 AI 任務其實不是每秒都要跑,而是偶爾需要比較大的算力:批次分析一批文件、跑一次較重的資料處理、產出訓練或評估結果、生成較大型的報告或多媒體 artifacts。這些工作如果硬要全部塞在本地機器上,會讓設備規格、維護成本和使用體驗都變得很尷尬。
比較合理的做法,是讓本地 agent 負責日常互動、資料準備、任務切分與結果整合;需要重算力時,再把乾淨、可控、已脫敏或已授權的工作包送到雲端環境執行。
這有點像公司內部的工作分派。不是每件事都交給外包,也不是每件事都自己硬做。日常判斷和敏感脈絡留在內部;需要大型設備或短時間高產能時,再把邊界清楚的工作送出去。
重點是邊界要清楚。雲端不是「什麼都丟上去比較快」,而是「哪些資料可以出去、出去做什麼、結果怎麼回來、過程怎麼留下紀錄」。
混合架構最難的是切任務,不是接 API
我現在看 AI 架構,會先問幾個很土但很有用的問題。
第一,這個任務需要接觸原始敏感資料嗎?如果需要,能不能在本地先做摘要、遮罩、過濾,再送出必要部分?
第二,它對延遲有多敏感?使用者在等互動回覆、現場流程在等判斷、或只是晚上跑批次,架構會完全不同。
第三,它的成本型態是高頻小任務,還是低頻重任務?前者適合本地或輕量模型,後者適合用雲端尖峰算力。
第四,失敗時會怎樣?本地模型失敗,可能只是回覆品質差;雲端任務失敗,可能牽涉資料上傳、作業重跑、成本浪費、甚至流程卡住。兩者的補償設計不一樣。
第五,結果能不能被驗證?不管本地或雲端,AI 產出的東西如果沒有來源、沒有版本、沒有輸入輸出紀錄,就很難放進正式流程。
這些問題其實比「用哪個模型」更早出現。模型可以換,架構邊界如果一開始畫錯,後面會很難補。
不要把混合架構做成混亂架構
混合架構聽起來很漂亮,但也最容易變成一坨混亂:一部分資料在本地,一部分資料在雲端;一部分任務由 agent 觸發,一部分由排程觸發;一部分結果寫回系統,一部分只留在聊天紀錄裡。剛開始 demo 很快,三個月後誰也不知道哪個版本才是正式結果。
所以我會希望混合 AI 架構至少有幾個基本規則。
第一,資料分級要先做。哪些可以離開本地,哪些只能在內網,哪些只能給人看不能給模型用,要明確。
第二,任務要有 manifest。送到雲端的不是一團模糊 prompt,而是一個描述清楚的工作包:輸入是什麼、工具版本是什麼、允許做什麼、預期輸出是什麼。
第三,結果要回到系統,而不是只回到對話。只存在聊天視窗裡的 AI 成果,很難被追蹤、重跑、審核或交接。
第四,要保留人工接管點。當模型不確定、資料不足、成本異常或權限碰到邊界時,系統要能停下來,不要用自信語氣繼續往前衝。
CTO 視角:先設計責任,再設計能力
如果從技術主管的角度看,我不會把未來的 AI 平台想成單一超強模型,而會想成一個分層系統:本地層負責接近資料、保護脈絡、處理高頻互動;雲端層負責重算力、批次分析、跨資料彙整;治理層負責權限、紀錄、成本、版本和審核。
真正的關鍵不是哪一層比較厲害,而是哪一層該負責什麼。
本地 AI 和雲端算力都會繼續進步。接下來的差異,不會只在模型分數,而在團隊能不能把它們放進一個清楚的工作系統裡。該留在現場的留在現場,該借用雲端的借用雲端,該讓人確認的就不要假裝可以全自動。
AI 架構成熟後,最有價值的不是「全部都能做」,而是「每件事都知道應該在哪裡做、由誰負責、出了問題怎麼收」。這聽起來沒有 demo 那麼炫,但這才是能長期運作的系統。