英國-LLM與威爾斯語AI模型的開創性進程
英國長期以來不僅是全球經濟的樞紐,更是多元文化與語言的熔爐。在人工智慧浪潮席捲全球之際,英國正積極投入資源,確保其豐富的語言遺產能在數位時代持續繁榮。由倫敦大學學院(University College London)於2023年發起(原名BritLLM)的 UK-LLM 倡議,正與NVIDIA及威爾斯班戈大學(Bangor University)攜手合作,基於 NVIDIA Nemotron 模型家族,開發一個能理解並生成英語和威爾斯語的先進 AI 語言模型。此舉不僅是技術上的突破,更是對文化傳承的堅定承諾。
目前,約有 850,000名威爾斯語使用者 分佈在威爾斯各地,這項語言模型計畫的推出,將顯著提升以威爾斯語提供公共服務的能力,包括醫療保健、教育和法律資源,使這些服務更能貼近當地居民的需求。英國首相Keir Starmer強調,透過讓AI在威爾斯語中進行推理,可確保公共服務的普及性與在地化,同時也展現了AI科技如何利用英國最先進的超級電腦Isambard-AI,服務公眾利益、保護文化遺產並開啟全國各地的發展機會。此專案亦與威爾斯政府的「Cymraeg 2050」策略不謀而合,該策略旨在將威爾斯語使用者人數提升至百萬,目標在2050年實現。
NVIDIA Nemotron與Isambard-AI超級電腦的強大賦能
這項針對威爾斯語的創新AI模型,其核心技術根植於NVIDIA的 Nemotron 開源模型家族。Nemotron以其開放權重、資料集及訓練方法而聞名,為開發者提供了極大的彈性與潛力。UK-LLM開發團隊利用了擁有490億參數的Llama Nemotron Super模型和90億參數的Nemotron Nano模型,並針對大量的威爾斯語數據進行了後續訓練,確保模型能夠精準地掌握威爾斯語的複雜性與細微之處。
鑑於威爾斯語的數位資源相較於英語或西班牙語較為稀缺,團隊採取了創新的數據擴充策略。他們運用NVIDIA NIM微服務中的gpt-oss-120b和DeepSeek-R1工具,將NVIDIA Nemotron開放數據集中超過 3000萬條英語條目翻譯成威爾斯語,從而打造出足夠大規模的高品質訓練資料集。整個訓練過程則仰賴於英國最先進的超級電腦 Isambard-AI,這座由政府投資2.25億英鎊打造、部署於布里斯托大學的超級電腦,搭載了數百個NVIDIA GH200 Grace Hopper超級晶片,極大地加速了數據翻譯與模型訓練的複雜工作負載,為英國語言AI的發展奠定了堅實的基礎。
語言細微之處的捕捉與文化傳承的維護
威爾斯語作為英國最古老的凱爾特語族語言之一,擁有多樣而複雜的語法結構和發音規則,特別是詞首子音會根據周圍詞語而產生變化的「突變」現象,對AI語言模型構成獨特的挑戰。位於威爾斯語使用者比例最高的格溫內斯郡(Gwynedd)的班戈大學,在此次合作中扮演了關鍵角色,提供了深厚的語言學和文化專業知識。該大學威爾斯語服務、研究與技術中心Canolfan Bedwyr的資深術語學家兼語言技術部門主管Gruffudd Prys,憑藉其數十年在威爾斯語技術領域的經驗,帶領團隊協助驗證機器翻譯訓練數據和人工翻譯評估數據的準確性。
他們仔細評估模型如何處理威爾斯語中AI通常難以掌握的細微差別。Prys強調:「目標是確保威爾斯語作為一種活生生的語言,能與時俱進地發展。」他指出,AI在第二語言學習和母語人士提升語言技能方面展現出巨大潛力。透過確保模型能精確捕捉這些語言特徵,不僅提升了AI在威爾斯語應用中的實用性,更為保護和振興威爾斯語這一寶貴的文化遺產做出了貢獻。未來,此模型及相關的威爾斯語訓練與評估資料集將開放給企業和公共部門使用,進一步支持研究、模型訓練和應用開發。
AI代理如何推動跨產業效率革新
除了對威爾斯語等少數民族語言的支持,由NVIDIA Nemotron 等先進模型所驅動的 AI 代理(AI agents)技術,正迅速成為提升各行各業效率與生產力的關鍵。AI代理被預期在未來三年內參與大多數商業任務,而有效的人機協作預計能將人類參與高價值任務的比例提高 65%。這些智能體能夠學習、推理並根據上下文和結果進行調整,從而達到甚至超越效率目標。
在軟體開發領域,AI代理可作為智能副駕駛,自動化程式碼生成、測試和部署。例如,NVIDIA ChipNeMo 專門的 AI 代理團隊,一年內為 5,000 名 NVIDIA 工程師節省了 4,000個工程師工作日,響應準確度超過85%。在數據驅動決策方面,BlackRock 的 Aladdin Copilot 將研究時間從數分鐘縮短至數秒。IT 運營方面,AI 代理能主動監控基礎設施並自動化決策,加速問題解決。製造業中,視訊分析 AI 代理可監控裝配線以進行品質檢查和異常檢測,例如鴻海(Foxconn)利用數位孿生和AI代理優化生產線,將部署時間縮短50%。在客戶服務方面,AT&T 的「Ask AT&T」解決方案透過 NVIDIA NeMo 和 NIM 微服務,將呼叫中心轉錄分析成本降低 84%,大幅提升了服務效率。此外,在教育領域,克萊姆森大學(Clemson University)開發的 AI 助教則提供了個人化的學習支持。
AI代理的未來展望與全球少數民族語言的機遇
UK-LLM為威爾斯語開發 AI 語言模型所採用的框架,為全球多語種 AI 的發展奠定了堅實基礎。NVIDIA Nemotron 模型、數據和方法論以開源形式公開,開發者可以利用 NVIDIA NIM 微服務,根據幾乎任何語言、領域和工作流程,構建量身定制的推理模型。這種開放性和可訪問性是其成功的關鍵,正如Gruffudd Prys所言:「擁有威爾斯語的AI能力是一回事,但讓它對所有人開放和可訪問則是另一回事。」
UK-LLM 團隊的目標不僅止於威爾斯語。他們計劃將此成功方法應用於英國其他少數民族語言,如康瓦爾語(Cornish)、愛爾蘭語和蘇格蘭蓋爾語,甚至擴展至非洲和東南亞的語言,與國際合作夥伴共同建立模型,以支持全球語言多樣性。這項跨越文化與技術邊界的努力,展顯了AI在促進語言平等、保護全球文化遺產方面所蘊含的巨大潛力。隨著AI代理技術的不斷成熟與普及,我們將見證一個更加互聯互通、文化共榮的數位世界。





