AI Coding Agent 的下一步，不是更會寫，而是更好監工

最近看 AI coding agent 的產品方向，我有一個越來越強烈的感覺：這條路線的下一個戰場，可能不是「模型又變得多會寫 code」，而是「人類怎麼監工」。

這句話聽起來有點掃興。畢竟大家比較愛看 demo：一句話生出功能、自己跑測試、自己修 bug、自己開 PR。很帥，我也喜歡。但真的要把它放進日常開發流程，帥不帥反而不是第一個問題。第一個問題是：它做錯事的時候，誰知道？它要動到危險地方的時候，誰批准？它卡住的時候，誰接手？

以前我們問「AI 會不會寫」，現在要問「AI 能不能被管」

過去一年多，coding assistant 的主旋律大概是能力展示。補完、重構、產生測試、讀 repo、修 issue，大家都在比誰比較像一個 junior developer，甚至像一個不用睡覺的 senior developer。

但從技術主管的角度看，我其實不太在意它偶爾秀一段神操作。真正讓我在意的是它能不能穩定地放進流程裡。

一個 AI coding agent 如果只能在我盯著螢幕時工作，那它比較像一個很聰明的 IDE 外掛。好用，但還不是團隊成員。要變成團隊工作流的一部分，它至少要具備幾件事：任務可以排隊、進度可以查看、關鍵動作需要批准、結果可以驗收、失敗可以追蹤。

也就是說，AI coding agent 的成熟度不只在模型，而在「管理介面」。這有點像以前我們導入 CI/CD。大家一開始會覺得重點是自動 build、自動 deploy，後來才發現真正困難的是權限、環境隔離、rollback、audit log、誰可以按 production deploy 那顆按鈕。

AI coding agent 也是同一種問題，只是它的行動範圍更模糊、更像人，所以治理成本更高。

手機監看不是噱頭，是工作流位置改變

我以前對「手機上監看 agent」這類功能其實有點冷感，心裡會想：工程師不是本來就該在電腦前嗎？但後來想一想，這個方向真正有意思的地方，不是手機，而是它暗示 agent 正在變成一種背景工作。

如果一個任務可以丟給 agent 跑二十分鐘、一小時，甚至半天，中間只在需要判斷時叫我，那操作介面就不一定非得是 IDE。它比較像 CI pipeline、雲端 build、或一個排程任務。你不會一直盯著它跑，但你需要在關鍵節點收到訊號。

例如：

它準備修改資料庫 migration，要不要批准？
它想刪除一批看似沒用的檔案，要不要批准？
它測試失敗三次，是否要改策略？
它找到兩種修法，需要人決定偏好的架構方向。

這些不是「寫程式能力」問題，而是「決策交接」問題。好的 agent 工作流，不應該假裝人類不存在；它應該知道哪些事情可以自己做，哪些事情必須停下來問。

這也是我覺得很多 AI 工具 demo 容易誤導人的地方。Demo 裡最漂亮的是一路自動完成，但真實世界最有價值的，常常是它在正確的地方停下來。

沙盒不是保守，是讓速度變快的前提

講到 coding agent，就一定會碰到 sandbox。這東西很無聊，沒有 demo 效果，但我越來越覺得它是必要條件。

如果 agent 可以讀 repo、改檔案、跑指令、裝套件、甚至操作瀏覽器，那它其實已經拿到一個工程師工作站的部分能力。這時候你不能只靠「模型應該會乖」來管理風險。抱歉，這聽起來就像把 production 資料庫密碼貼在桌面，然後相信大家都不會亂按。

沙盒的目的不是把 AI 綁死，而是把「可以放心讓它跑」的範圍劃出來。

我比較喜歡把它想成幾層邊界：

檔案邊界：哪些目錄可讀、哪些可寫、哪些完全不能碰。
指令邊界：哪些 command 可以直接跑，哪些需要批准。
網路邊界：能不能打外部 API、能不能下載依賴、能不能送出資料。
機密邊界：token、key、客戶資料、內部文件是否被隔離。
版本邊界：所有變更都要能 diff、能 revert、能追蹤來源。

有了這些邊界，我反而更敢放手。因為我知道它就算犯錯，也會被限制在可承受的區域內。沒有邊界的自動化，短期看起來跑很快，長期一定讓人不敢用。

Approval flow 會變成 AI 開發工具的核心體驗

我現在看 coding agent 產品，會特別注意它怎麼處理 approval。不是因為我愛流程，而是 approval flow 決定了人與 AI 的分工品質。

太鬆，危險。太緊，煩死。每個小動作都跳出來問你，最後你只會變成橡皮圖章，一路按同意；真正危險的事情反而被淹沒在通知裡。

好的 approval flow 應該要有分級。

像是讀檔、搜尋、跑單元測試，通常可以自動。修改核心模組、安裝新依賴、變更 CI 設定，就應該提高警戒。碰到資料刪除、權限設定、部署、對外發送，則一定要明確批准，而且要附上足夠脈絡：它為什麼要做、替代方案是什麼、不做會怎樣。

這裡的重點不是按鈕，而是「可判斷性」。如果 agent 只丟一句「需要批准執行某某指令」，我還是得自己猜風險。比較好的做法，是它把意圖、影響範圍、回滾方式一起講清楚。

換句話說，AI 不只要會做事，也要會寫變更申請。這很現實，也很企業。

Agent 要進團隊，就要接受團隊規矩

我常覺得，大家談 AI coding agent 時，會不小心把它當成一個超能力個體。但在團隊裡，個人能力從來不是唯一標準。

一個再強的工程師，如果不寫 commit message、不開 PR、不跑測試、不交代設計取捨、不接受 code review，團隊也很難長期跟他合作。AI 也是一樣。

所以我期待的 coding agent，不是那種「你睡醒它已經偷偷幫你改完 production」的幻想。那聽起來不像未來，像事故報告的前言。

我期待的是它像一個很可靠的 async teammate：我可以派任務給它，它會自己探索、整理方案、提出修改、跑驗證；遇到超出權限的事情會停下來；完成後給我一份可以 review 的結果。它不需要假裝自己是人，但它必須尊重團隊工作的規矩。

這也是為什麼我覺得 AI coding agent 的下一步，不是單純更會寫，而是更好被監工。

真正能落地的 AI 工具，不會只讓人驚呼「它居然做得到」。它還要讓技術主管放心地說：「好，這個我敢交給它。」

差別很大。前者是 demo，後者才是生產力。