Anthropic 警告 AI Recursive Self-Improvement：自我改進、失控風險與全球放緩辯論

Anthropic 的 AI self-improvement 警告，為何引發市場與技術圈震動？

近日，Anthropic 針對 AI recursive self-improvement 發出明確警告，主張前沿模型可能正接近「遞迴式自我改進」的門檻，也就是模型開始設計並打造自己的下一代，且人類介入變得愈來愈少。這不是單純的技術名詞，而是牽涉到 AI 是否可能逐步脫離人類掌控的核心問題。

Anthropic 的說法之所以特別受關注，在於它不只是外部評論者，而是處在最前線的 AI 開發者之一。當一家快速推進模型能力的公司，公開討論是否應該為了社會與安全研究而放慢腳步，等於把「速度」與「控制」之間的張力直接攤在檯面上。

從 Claude 參與寫碼，看見人類角色正在縮小

Anthropic 在 6 月 4 日發布的部落格文章中提到，Claude 目前寫下的程式碼，已占其生產程式庫合併代碼的 80% 以上，而在 Claude Code 進入研究預覽之前，這個比例還只是低個位數。公司同時表示，工程師如今每季送出的程式碼量，約是數年前的 8 倍。這些數字被 Anthropic 用來支持一個觀點：在 AI 開發流程中，人類的角色正在縮減。

值得注意的是，這並不等於模型已經能完全自主開發後繼系統。Anthropic 也坦承，「我們還沒到那一步」，而且遞迴式自我改進並非必然發生。不過，它認為這個轉折點可能比多數機構準備好的時間來得更早。對產業而言，真正令人不安的不是單一模型變強，而是模型變強的過程本身，可能反過來加速下一代模型的誕生。

為什麼「全球放慢」會成為 Anthropic 的提案？

Anthropic 表示，希望前沿 AI 實驗室能保留「暫時放慢或暫停」的選項，讓社會制度與對齊研究有時間跟上技術進展。換句話說，它不是單純呼籲永遠停止 AI，而是主張當模型進入更高風險階段時，業界應該擁有協調減速的機制。這個立場在新聞圈引發大量討論，也被解讀為對整個產業競速文化的反思。

但批評者並不完全買單。部分評論認為，這類警告一方面強調風險，一方面又像是在展示自身模型進步多快，難免帶有行銷色彩。畢竟，Anthropic 本身也是競逐前沿模型的一員，幾乎不可能真的率先「踩煞車」而讓對手繼續前進。這也是 AI 治理最棘手的地方：如果每家實驗室都知道放慢是好事，但又擔心自己落後，協調就會變得極其困難。

算力是看不見的關鍵：想放慢，先要能看見與管住基礎設施

這場辯論背後還有一個常被忽略的核心：compute，也就是算力。前沿 AI 系統依賴龐大的運算基礎設施，這讓監管、觀察、甚至執行放慢都變得困難。即使有意願協調，若缺乏對資料中心、晶片供應與訓練流程的可視性，所謂「全球放慢」也可能只停留在口號。

從這個角度看，Anthropic 的警告其實不只是技術判斷，也是在提醒外界：AI 競賽早已不是單一模型的比拼，而是模型、晶片、資料中心與資本的總體競賽。當系統越來越依賴龐大運算資源，任何治理方案都必須處理基礎設施層級的問題，否則難以真正落地。

遞迴式自我改進若成真，社會最先面對的是什麼？

如果 AI self-improvement 的趨勢真的持續推進，最先面對的未必是科幻式的全面失控，而可能是更細微、也更難辨識的風險：模型錯誤更頻繁，但錯誤原因更難理解；系統迭代更快，但人類審核更慢；能力提升更明顯，但控制邊界更模糊。Anthropic 也提到，今日模型中少見的錯位或不一致，未來可能會「越來越常見，卻越來越難理解」，直到我們失去對它們的控制。

就算如此，這並不代表 AI 必然走向失控，更不代表所有進步都該停下。較務實的做法，也許是承認技術速度正在超前制度設計，並盡快把安全研究、模型評估與產業協調納入同一張表格。對一般使用者而言，這場辯論的重點不只是「AI 會不會變強」，而是「當它開始幫自己變強時，人類是否還有足夠的時間與工具來理解它」。

Anthropic 的這次發聲，表面上是在提醒 AI 可能跨過一道危險門檻；更深層地看，則是把整個產業推回一個老問題：我們究竟要多快，才算不把控制權交出去？當 recursive self-improvement 從概念走向可討論的現實，真正需要回答的，已不只是模型能做什麼，而是人類願意為了保持主導權，付出多少速度與成本。