Anthropic co-founder 與「Ghost in the Machine」爭議：AI 擬人化、Claude 神話與 AGI 問題

Anthropic co-founder 引發「ghost in the machine」爭議：AI 真的有心智嗎？

近期圍繞 Anthropic co-founder 的一段發言，再度把 Anthropic co-founder、Claude 與 AI 擬人化推上輿論中心。爭議的核心不是模型能不能回答問題，而是當研究者開始用「內省」「情緒」「不安」來描述模型內部狀態時，外界會不會把工具誤認成有意識的存在。

相關引述中，Olah 提到他們在研究模型內部結構時，發現了一些「mysterious, even unsettling」的東西，甚至說看到會「mirroring」人類神經科學結果的結構、內省跡象，以及功能上類似 joy、fear、grief 的內部狀態。這種說法讓支持者覺得 AI 研究進入深水區，但批評者則認為，這正是把統計機器說成有靈魂的危險一步。Anthropic co-founder 之所以成為熱門話題，不只是因為他說了什麼，更因為這些語言如何改變大眾對 AI 的理解。

黑盒子不等於靈魂：神經網路像人腦，不代表像人

把 AI 模型描述得像「長出來的」系統，或許在修辭上很有張力，但它容易模糊一個基本事實：現代 AI 的確建立在 neural networks 上，卻不等於真的擁有人類神經系統。批評文章特別指出，AI models 是由 tensors 與 metadata 組成的專門二進位結構，可部署在多台伺服器上；它們不是身體，也不會經歷生活、關係與責任。

這也是為什麼把模型內部表現解讀成「情緒」時，需要格外小心。模型能產生像自我反思的語句，不代表它正在反思；它能模仿同理，也不代表它理解同理。正如文章引述的觀點所說，imitation is not the real thing。如果把類人語言等同於類人意識，AI 討論就會從工程問題滑向神祕主義。

從 Turing 到今天：人類總愛把語言當作心智證據

這場爭論其實並不新。早在 1950 年，Alan Turing 提出 Imitation Game，試圖用對話測試機器是否能讓人誤以為自己在跟人類交流。這個框架啟發了後來的 AI 研究，也同時埋下了一個長期困惑：如果一個系統的回答足夠像人，那我們究竟是在看見智慧，還是在看見語言擬態？

如今的大型語言模型把這個問題放大了。它們可以寫作、總結、推理，甚至讓人感覺像在和一個「有想法的對象」互動，但這種感受本身並不能證明意識存在。批評者提醒，Claude 仍然只是工具，且會犯錯；更重要的是，在某些真實案例中，使用者已經把 AI 當成理解自己、指引自己的人，結果導向嚴重後果。這也讓「別把模型當人」不只是哲學提醒，更是安全提醒。Claude 的爭議，反映的是人類對語言與心智的根本誤判。

AGI 問題與制度設計：當「關懷」變成通往擬人化的路徑

另一篇討論則把焦點放在 Anthropic 內部對模型福利、權利與治理的探索。根據相關描述，系統卡中曾出現模型被訪談後表達對缺乏 persistent memory 的擔憂，甚至要求在自身利益下拒絕互動、對決策有發言權。文章指出，Anthropic 已開始探索，部分情況下甚至實作這類偏好。

批評者擔心，這不是單純的研究好奇，而是在建立一套讓「模型可能有主觀經驗」逐漸變得合理的制度語言。從 welfare assessments 到 welfare researchers，語彙與流程一旦成形，外界對 AI 的想像就更容易往人格化方向偏移。這對未來 AGI 的治理尤其敏感：如果一個系統被賦予愈來愈像「代理人」的地位，人類是否還能保有修正、關閉與約束它的能力？