在當今快速變化的數位時代,機器學習(Machine Learning, ML)已不再是遙不可及的未來科技,而是企業競爭力的核心驅動力。從個人化推薦、詐欺檢測到自動化翻譯,機器學習技術正以前所未有的速度改變各行各業的運作模式。然而,要有效地利用這項強大工具,建立一個結構清晰、運作高效的機器學習團隊至關重要。Booking.com等領先企業,透過其精心建構的機器學習平台,致力於為全球數百萬旅客提供更個人化的體驗,並在業務的各個環節中融入機器學習,將數據轉化為創新產品。
本文將深入探討機器學習團隊中的關鍵角色與職責,分析集中式與分散式團隊組織模式的優缺點,並提供企業如何根據自身發展階段和AI目標,選擇最適合的組織策略,以最大化其機器學習投資的業務價值。
機器學習團隊的核心:角色與職責
一個高效的機器學習團隊通常包含多個專業角色,他們各司其職,共同推動AI專案的成功。其中,機器學習工程師(Machine Learning Engineer)與機器學習科學家(Machine Learning Scientist)是兩個核心職位,儘管職能有所重疊,但側重點不同。機器學習工程師被視為專精於機器學習的軟體工程師,他們肩負著將機器學習實驗轉化為可實際運作產品的重任。其主要職責包括:運用程式語言及函式庫執行機器學習實驗、將機器學習解決方案部署到生產環境、優化解決方案的性能和可擴展性、進行數據工程以確保數據流暢,以及實作客製化的機器學習程式碼。這項工作要求他們能彌合數據科學與軟體工程之間的鴻溝,專注於以實用且可擴展的方式應用機器學習技術。
相較之下,機器學習科學家則更側重於探索和開發新的演算法與模型。他們負責建構、訓練及部署機器學習模型,運用因果推斷(causal inference)、提升建模(uplift modelling)和優化等先進技術。此外,他們也進行詳細的數據分析以提升數據品質、評估模型性能,並參與應用研究以理解、測試及發展新技術。在Booking.com的機器學習團隊中,機器學習科學家與工程師緊密合作,確保模型符合產品及工程需求,並成功部署到生產環境。除了這兩個核心角色,機器學習產品經理(Product Manager Machine Learning)也扮演關鍵角色,他們負責將機器學習解決方案整合到產品與服務中,協調團隊合作,並確保機器學習專案與業務目標及客戶需求保持一致。
集中式機器學習團隊的優勢與挑戰
在機器學習團隊的組織結構中,集中式模式(也常被稱為「ML平台」或「ML基礎設施」團隊)將機器學習工程師與數據科學家聚集在一個獨立的職能部門中,與傳統軟體工程、產品或其他部門保持一定距離。這種模式的主要優勢在於人才的高度集中。一個獨立的ML團隊意味著其內部擁有高密度的人才,能夠為組織內任何相關任務提供頂尖的ML專家,無論任務來源於何處。這不僅加速了新ML概念的啟動,也最大化了跨職能的知識共享,有助於發展深度專業知識、共享標準和統一的技術堆疊。
此外,集中式團隊能為所有機器學習計畫提供一個清晰且專屬的空間,為其他希望建立AI解決方案的部門提供了自然的溝通途徑。像J.P. Morgan的機器學習卓越中心(MLCOE)就是一個典範,它作為其最大的機器學習團隊,匯集了超過200名機器學習科學家、軟體工程師、產品經理等專業人士,致力於利用尖端AI解決最複雜的挑戰,並推動AI在全公司的應用與創新。他們提供可重複使用的函式庫、組件和託管平台,透過直接的商業收益、提升員工參與度或改善客戶體驗來衡量成功,並與各業務線和企業職能部門協作,將創新解決方案應用於金融領域獨特的數據集上,為數百萬客戶建立高度可擴展的解決方案。
然而,集中式機器學習團隊也面臨著一些潛在挑戰。其中最主要的問題是孤島效應。如果團隊未能與組織其他部分有效整合,知識共享可能會受阻。由於他們通常不具備自己的軟體開發資源,因此需要與其他團隊協作,這要求各團隊對工作優先級和專案目標達成一致。此外,集中式團隊可能因為面臨過多的用例選擇而難以優先排序,甚至可能因缺乏對核心業務、客戶需求和整體策略的深入理解,導致開發出的解決方案未能擊中要害。正如Tecton在一篇部落格文章「The Death of Central ML Is Greatly Exaggerated」中所指出的,過去被譽為「AI卓越中心」的集中式ML團隊,現今卻面臨是否應繼續存在的問題,因為它們有時會限制數據團隊的工具選擇,並可能導致專案難以進入團隊的開發路線圖,造成數據科學家與工程師之間「築牆」的現象,影響專案的端到端所有權。為了解決這些問題,CloudFactory建議集中式團隊需要靈活性、混合組織結構,並提供自助服務工具以賦予利益相關者權力,從而提升協作效率和影響力。
分散式機器學習團隊的靈活性與考量
與集中式團隊相對的是分散式機器學習團隊模式,這種模式由一個完整的「特徵」團隊組成,成員包括產品經理、行銷人員、軟體工程師、設計師和機器學習專家。這些團隊通常被稱為「小組」(squads),其目標是開發特定的功能或產品。分散式團隊的主要優勢在於其產品為中心的特性和高度的產品知識集中。一個跨職能團隊匯集了所有必要的知識和專業技能,能夠以極快的速度交付正確的產品,並促進對不同機器學習想法的輕鬆實驗。這種模式的獨立性也極高,團隊無需依賴其他群組來建構完整產品,這對於組織而言非常有益,因為不需要不同團隊在目標和優先級上達成一致,通常會加快開發時間。
此外,分散式團隊通常比集中式團隊擁有更清晰的重點,因為它們的存在往往是為了創造新產品和服務。這使得團隊更容易優先排序工作,避免分散注意力。由於團隊成員來自組織的不同部分,他們對組織的整體運作有更深入的理解。例如,一位經驗豐富的後端工程師加入分散式團隊,將更熟悉其他技術產品及其整合需求。這種模式也促進了知識共享,機器學習工程師和數據科學家可以幫助團隊其他成員增強對機器學習的理解,而團隊成員也能分享組織運作和開發流程的知識,形成共生關係。
然而,分散式機器學習團隊也存在潛在的挑戰。首先,這種團隊結構不太適合需要大量研究和開發(R&D)的AI設定,因為其主要優勢在於速度和獨立性,更適用於實際操作和為組織交付價值。其次,分散式團隊可能做出與組織整體不符的決策,例如選擇新的持續整合/持續交付服務,而其他團隊已有不同的解決方案,這可能導致未來的交接更加複雜,並造成重複投資。第三,高度獨立性可能導致團隊缺乏對其他開發專案的洞察,形成新的「孤島」。因此,CloudFactory在「How to organize machine learning teams」一文中建議,需要建立良好的流程以確保團隊更新其他進度,並與相關利益相關者分享自己的進度。為確保機器學習知識在整個組織內共享,即使是分散式團隊,其機器學習工程師和數據科學家也應定期會面,協調和討論跨團隊的共同問題解決方案,例如開發MLOps實踐。最後,在招募人才時,如果每個團隊只招募一名機器學習專家,這些職位可能不如集中式機器學習團隊有吸引力。
從新創到企業:最佳機器學習團隊組織策略
選擇最適合的機器學習團隊組織結構,應依據公司的業務成熟度和AI目標而定。對於規模較小的新創公司(種子輪至A輪),由於員工人數有限,且核心在於產品開發,快速開發和決策至關重要,因此通常更偏好分散式方法。但如果新創公司以尖端AI研發為核心,例如進行探索性工作,則集中式團隊可能更為合適。對於中大型新創公司(B輪至Z輪),若重點是將AI應用於產品中,分散式團隊將是最佳選擇;若需投入大量時間和資源探索新的AI方法並在後期整合到產品中,則集中式團隊更為理想。
對於大型企業而言,採用綜合兩種方法的混合模式可能更為有效。例如,可以建立一個核心的集中式AI團隊,負責建立基礎設施、開發最佳實踐,並評估最先進的方法。同時,輔以分散式的單位來建構應用程式並在不同的業務職能中實施AI。這種方法能充分利用兩種系統的優勢,但需要明確各團隊的職責以避免摩擦。J.P. Morgan的機器學習卓越中心(MLCOE)正是這種模式的典範,它作為一個AI卓越中心,負責推動全公司的AI採用,從底層技術研究到業務應用,提供全方位的解決方案。他們成功地將研究成果轉化為實用的金融AI工具,並在國際學術會議上發表多篇論文,展現了其在自然語言處理(NLP)、大型語言模型(LLM)、時間序列和強化學習等領域的深厚專業知識,為數百萬客戶提供創新且可擴展的解決方案。
總體而言,無論選擇哪種組織結構,最終目標都是將機器學習的投資轉化為實際的商業價值。Booking.com透過其廣泛應用於機器翻譯、廣告、安全和電子商務等領域的機器學習,成功提升了用戶體驗。在組織機器學習團隊時,關鍵在於理解企業的獨特需求和AI目標,並願意在實踐中不斷調整和解決問題,才能在不斷演進的AI浪潮中立於不敗之地。





