概覽:Gemini 生態與加速部署
在這波 AI 競賽中,Google Gemini 再次成為焦點。Google 宣布 Gemini 3 Flash 已在生產環境全面上線,且自釋出以來每日處理超過 1 兆(1 trillion) 代幣的請求。官方或相關報導指出,與前一代 Gemini 2.5 Pro 相比,Gemini 3 Flash 在典型流量下實現了約 30% 的標記效率提升,該模型已成為 Gemini 消費端應用的預設引擎,並透過 API、Vertex AI 與新平台 Antigravity 提供服務。
這項效率提升,對於需要大量即時回應與多輪對話的語音與代理型應用,具有直接的成本與效能意義,也讓企業在選擇模型供應時有更多吸引力。
DeepMind 吸納 Hume AI 團隊:語音情緒理解成關鍵
Google 透過與 Hume AI 的協議,將 Hume 的執行長 Alan Cowen 與約七名工程師納入 DeepMind,以強化 Gemini 的語音功能與情緒智能。報導指出,Hume AI 擅長從聲音辨識使用者情緒與語調,並在 2024 年推出「Empathetic Voice Interface」。這次的「acqui-hire」反映出大型科技公司在語音介面領域爭搶人才的趨勢,亦引發監管單位對類似交易的關注。相關詳情可參考 Hume AI 的 acqui-hire 報導。
Hume 本身在資金與營收面也具一定規模:根據報導,該公司已募得近 8 千萬美元,並預計今年可貢獻約 1 億美元營收;這說明語音情緒模型已具有商業化潛力,也讓 Google 在整合語音情緒能力時更具優勢。
蘋果選擇 Gemini:語音助理市場的重大轉折
業界再傳出重大交易消息:據外媒報導,Apple 與 Google 達成多年度合作,將使用 Google 的 Gemini 模型來強化下一代 Siri。該合作據稱金額可能高達數十億美元,代表著語音助理市場的格局可能出現重大變動。若屬實,這不僅顯示 Apple 在短期內願意以外部模型彌補自研的不足,也讓 Gemini 在企業與消費端的地位更為鞏固。相關報導詳見 關於 Apple-Google 合作的報導。
此一合作若落實,對競爭者(包括 OpenAI 與其他模型供應商)將帶來壓力,也可能促使更多設備廠商與服務商重新評估其語音模型供應策略。
企業整合與生態協同:Salesforce、Google 的節點擴張
在企業應用端,Google 與 Salesforce 擴大合作,將 Gemini 模型整合到 Agentforce 360 與 Google Workspace 的更多工具中,強化跨系統的智能座席與工作流程自動化。報導強調,這次擴充支援了像 Model Context Protocol(MCP)與 Agent2Agent(A2A)等開放標準,使多代理協作與專域工具串接變得更順暢。
對於企業而言,這類整合意味著可以將大型語言模型的多模態能力(文字、語音、檔案等)更直接地引入 CRM 與內部服務流程,提升員工生產力與客戶互動的一致性;同時也凸顯了在成本、延遲與資料治理之間取得平衡的重要性。
總結:效率與情緒理解驅動語音 AI 的下一階段
綜合以上發展,Gemini 3 Flash 的部署與效能提升,聯同 DeepMind 吸納 Hume AI 團隊以及大型企業的採用案,顯示語音與情緒理解正快速成為 AI 的核心差異化戰場。對開發者與企業來說,關鍵議題將包括成本效率、模型延遲、資料隱私與情緒感知能力的可靠性。
未來幾季,我們可以觀察到幾項可能走向:一是更多「acqui-hire」或團隊引進以補強垂直能力;二是大型設備或平台業者可能透過戰略合作來加速產品化;三是企業用戶將更關注模型在多輪對話、情緒辨識與跨工具協作上的表現與治理機制。總括而言,這波動向不只是技術升級,更在重新定義「語音助理」的功能與商業價值。





