Mira Murati 領軍 Thinking Machines 推出 AI 互動模型:從單向聊天走向即時人機協作

Mira Murati 領軍 Thinking Machines 推出 AI 互動模型:從單向聊天走向即時人機協作

Thinking Machines 的 AI 互動模型,重新定義人機對話

Mira Murati 創辦的 Thinking Machines,近日發表一項名為「interaction models」的研究預覽,主打 AI 互動模型 在即時人機溝通上的新架構。和傳統聊天式 AI 等待使用者輸入完成後才回應不同,這類模型被設計成可同時聽、看、處理並回應,讓互動更接近真實對話。

這項發展之所以受到關注,不只因為它是多模態 AI 的延伸,更因為它直接挑戰了現有產品長期依賴的「單一回合」互動方式。Thinking Machines 的說法很清楚:互動不該是附加功能,而應該是模型架構本身的一部分。若這個方向成熟,AI 將不再只是回答問題的工具,而會更像能參與工作的即時夥伴。

200 毫秒微回合與 full-duplex 架構,讓延遲成為焦點

根據公司說明,這套系統採用所謂的 full-duplex 設計,把音訊、影像與文字切成約 200 毫秒的微回合,讓模型能在說話的同時持續感知新的輸入。這意味著 AI 不必等一句話結束才開始反應,而能在互動過程中即時調整回應內容。

在技術路線上,Thinking Machines 也刻意避開許多音訊與影像理解模型常見的外部編碼器,改以「encoder-free early fusion」方式,讓原始訊號直接經由 transformer 內的輕量嵌入層處理。公司強調,這樣的設計有助於降低延遲。依照其公布的 FD-bench 結果,TML-Interaction-Small 的回應延遲可低於 0.4 秒,並以 Thinking Machines AI 互動模型 為主軸,與其他即時模型形成明顯對比。

性能數據顯示,互動能力不只是更快而已

從釋出的資料來看,這次的重點並不只是「更快」,而是「又快又能互動」。在 FD-bench V1.5 上,TML-Interaction-Small 的分數為 77.8,高於多個同類模型;在 FD-bench V1 的 turn-taking latency 方面,其數值約為 0.40 秒,也優於 Gemini-3.1-flash-live 的 0.57 秒與 GPT-realtime-2.0 的 1.18 秒。這些數字顯示,Thinking Machines 想解決的不是單純語音回應速度,而是「人和 AI 如何順暢接話」的整體體驗。

更值得注意的是,該模型還被放進視覺相關測試,例如 RepCount-A 與 ProactiveVideoQA。公司聲稱,它能在視覺證據逐步出現時持續作答,顯示模型具備在真實場景中邊觀察邊回應的能力。這種特性若落地,對客服、現場輔助、操作督導,甚至高風險任務中的即時審核,都可能帶來新的應用想像。

從客服到現場工作,AI 互動模型瞄準「協作瓶頸」

Thinking Machines 在文章中明確指出,現有 AI 多半優化的是自主完成任務,也就是使用者先下指令,再等待模型一次做完。但現實工作往往不是這樣:人類需要補充、修正、打斷、追問,甚至在過程中改變方向。公司將這種落差稱為 collaboration bottleneck,認為這是 AI 與真實工作之間的重要障礙。

因此,interaction models 的目標不是把 AI 做得更像獨立執行器,而是更像可持續協作的夥伴。公司舉例,模型甚至能理解像「等四秒再回答」這類時間指令,代表它試圖把節奏、等待與接話都納入能力範圍。這種設計若能穩定運作,對聲音客服、現場教學、遠端協作與多媒體工作流程,理論上都會比傳統 turn-based 模式更自然。

仍是研究預覽,但它已經指出 AI 的下一個競爭焦點

目前,Thinking Machines 的 interaction models 仍只是研究預覽,尚未向一般大眾或企業全面開放。公司表示,未來幾個月會先釋出有限版預覽收集回饋,再安排更廣泛的發布。也就是說,外界現在看到的仍是概念驗證階段,而不是成熟商用版本。

即便如此,這次發表已足夠說明一件事:下一階段的 AI 競爭,可能不再只看誰更會推理、誰生成得更漂亮,而是看誰能在「互動」這件事上做得更像人類合作。當模型能即時聽、即時看、即時說,AI 的角色也會從回答者,轉向真正的工作夥伴。對產業來說,這不只是一次技術升級,更像是人機關係的重新設計。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *