Google Cloud 與 Thinking Machines 擴大 AI 基礎設施合作
Google Cloud 與 Thinking Machines 的最新合作,讓這家由前 OpenAI 技術長 Mira Murati 領導的 AI 新創,再次成為雲端與算力市場的焦點。這次協議的核心,是把更多工作負載遷移到 Google Cloud 的 AI 基礎設施上,並以 Google Cloud AI 基礎設施 來支援研究、平台開發與前沿模型訓練。
根據公開資料,Thinking Machines 早在 2025 年就已開始與 Google Cloud 合作;此次新協議則是進一步擴大使用範圍,重點圍繞 AI Hypercomputer 與 Nvidia 驅動的運算資源。對一家主打客製化開源大型語言模型的公司來說,這代表它不只是在「用雲端」,而是在把雲端作為核心研發引擎。
A4X Max、Blackwell Ultra 與更高密度的 AI 算力
這份合作最值得注意的地方,在於 Thinking Machines 將使用 Google Cloud 的 A4X Max instances。這些虛擬機器專為 AI 模型優化,每台提供四顆 Nvidia Blackwell Ultra GPU,並搭配兩顆各具 72 核心的 CPU。對需要大量訓練與推理資源的 AI 團隊而言,這種配置意味著更高的算力密度與更強的模型處理能力。
Seeking Alpha 的報導指出,Thinking Machines 將透過 Google Cloud 取得 Nvidia-powered AI infrastructure,而 TechCrunch 也提到,這項交易的價值被消息來源形容為「單位數十億美元」等級。雖然雙方未公開完整金額,但從合作規模來看,這已不是一般雲端採購,而是深度綁定的長期算力布局。
不只買 GPU,還把資料、快取與修復機制一起搬上雲
Thinking Machines 目前已在使用 Google Cloud 的多項服務來跑工作負載,包括 Google Cloud Storage、Spanner 關聯式資料庫,以及自訂快取系統。這顯示合作不是只停留在運算層,而是涵蓋資料保存、資料庫管理與效能優化等整體架構。對 AI 公司而言,這種整合式雲端配置通常更有利於快速迭代。
此外,Thinking Machines 還依賴 Google Cloud 的 Cluster Director 自動修復某些技術問題,降低基礎設施故障帶來的中斷風險。這類工具對研發節奏非常關鍵,因為大型模型訓練一旦中斷,除了耗損時間,也會增加額外成本。也正因如此,AI 基礎設施 的價值,往往不只在於「算得動」,而在於「穩定地算下去」。
這筆合作為何重要:從 Tinker 到 frontier model training
Thinking Machines 的產品之一是名為 Tinker 的雲端服務,讓開發者能在開源大型語言模型上建立客製化版本。其做法是透過附加元件改造 LLM 的核心程式碼,這意味著背後需要更頻繁、也更昂貴的訓練與調整流程。Google Cloud 在公告中也明確提到,新的協議將加速其研究、平台開發與 frontier model training。
TechCrunch 進一步指出,Google Cloud 這次甚至能支援 Thinking Machines 的 reinforcement learning 工作負載,而 Tinker 的架構正仰賴這種訓練方式。這也解釋了為什麼合作不只關乎硬體升級,更是針對模型研發方法本身所做的基礎建設投資。對整個 AI 生態來說,這類合作透露出一個趨勢:前沿模型競賽,正在從演算法之爭,轉向算力、平台與雲端整合能力的全面競爭。
Google Cloud 的 AI 版圖與產業競爭正在升溫
這次合作也反映 Google Cloud 正積極把自家 AI 產品線打包成完整方案,從運算硬體、儲存、資料庫到開發工具,一併向 AI 客戶提供。Google Cloud 高層 Mark Lohmeyer 表示,透過與 Nvidia 的深度合作,將幫助 Thinking Machines 更快推進,並以 AI Hypercomputer 這套優化架構來整合專用硬體、開放軟體與彈性消費模式。
從更大的產業視角看,Google Cloud 正用一筆又一筆大型 AI 合約,證明自己不只是在賣雲端資源,而是在爭奪 AI 時代的基礎設施主導權。Thinking Machines 則是在快速成長階段,選擇將研發重心押在能支撐高強度訓練的雲端架構上。若把這場合作視為縮影,它呈現的其實是當前 AI 產業最重要的事實:真正能決定誰跑得更快的,不只是模型本身,還有背後那座看不見、卻極度昂貴的算力工廠。





