Mira Murati 領軍 Thinking Machines 推出 AI 互動模型：從單向聊天走向即時人機協作

Thinking Machines 的 AI 互動模型，重新定義人機對話

Mira Murati 創辦的 Thinking Machines，近日發表一項名為「interaction models」的研究預覽，主打 AI 互動模型 在即時人機溝通上的新架構。和傳統聊天式 AI 等待使用者輸入完成後才回應不同，這類模型被設計成可同時聽、看、處理並回應，讓互動更接近真實對話。

這項發展之所以受到關注，不只因為它是多模態 AI 的延伸，更因為它直接挑戰了現有產品長期依賴的「單一回合」互動方式。Thinking Machines 的說法很清楚：互動不該是附加功能，而應該是模型架構本身的一部分。若這個方向成熟，AI 將不再只是回答問題的工具，而會更像能參與工作的即時夥伴。

200 毫秒微回合與 full-duplex 架構，讓延遲成為焦點

根據公司說明，這套系統採用所謂的 full-duplex 設計，把音訊、影像與文字切成約 200 毫秒的微回合，讓模型能在說話的同時持續感知新的輸入。這意味著 AI 不必等一句話結束才開始反應，而能在互動過程中即時調整回應內容。

在技術路線上，Thinking Machines 也刻意避開許多音訊與影像理解模型常見的外部編碼器，改以「encoder-free early fusion」方式，讓原始訊號直接經由 transformer 內的輕量嵌入層處理。公司強調，這樣的設計有助於降低延遲。依照其公布的 FD-bench 結果，TML-Interaction-Small 的回應延遲可低於 0.4 秒，並以 Thinking Machines AI 互動模型為主軸，與其他即時模型形成明顯對比。

性能數據顯示，互動能力不只是更快而已

從釋出的資料來看，這次的重點並不只是「更快」，而是「又快又能互動」。在 FD-bench V1.5 上，TML-Interaction-Small 的分數為 77.8，高於多個同類模型；在 FD-bench V1 的 turn-taking latency 方面，其數值約為 0.40 秒，也優於 Gemini-3.1-flash-live 的 0.57 秒與 GPT-realtime-2.0 的 1.18 秒。這些數字顯示，Thinking Machines 想解決的不是單純語音回應速度，而是「人和 AI 如何順暢接話」的整體體驗。

更值得注意的是，該模型還被放進視覺相關測試，例如 RepCount-A 與 ProactiveVideoQA。公司聲稱，它能在視覺證據逐步出現時持續作答，顯示模型具備在真實場景中邊觀察邊回應的能力。這種特性若落地，對客服、現場輔助、操作督導，甚至高風險任務中的即時審核，都可能帶來新的應用想像。

從客服到現場工作，AI 互動模型瞄準「協作瓶頸」

Thinking Machines 在文章中明確指出，現有 AI 多半優化的是自主完成任務，也就是使用者先下指令，再等待模型一次做完。但現實工作往往不是這樣：人類需要補充、修正、打斷、追問，甚至在過程中改變方向。公司將這種落差稱為 collaboration bottleneck，認為這是 AI 與真實工作之間的重要障礙。

因此，interaction models 的目標不是把 AI 做得更像獨立執行器，而是更像可持續協作的夥伴。公司舉例，模型甚至能理解像「等四秒再回答」這類時間指令，代表它試圖把節奏、等待與接話都納入能力範圍。這種設計若能穩定運作，對聲音客服、現場教學、遠端協作與多媒體工作流程，理論上都會比傳統 turn-based 模式更自然。