AI考粤语,成绩单出来了:全球首个粤语AI评测平台,中大搞的

你让ChatGPT翻译“你食咗飯未呀”，它大概率能答上来。

但换成“呢个case要follow up下先得，你記得send個email俾client”，它可能就开始胡言亂語了。

這不是段子。這是2025年全球AI面臨的一個真實問題——全球有超過8000萬人講粵語，但目前主流的大語言模型，對粵語的理解力遠比你想象的弱。

而香港中文大學（中大），剛剛做了一件填補空白的事。

AI考粤語，成績如何？

先說個可能出乎你意料的結論：即使是目前最先進的大語言模型，在粵語面前依然“考不及格”。

中大團隊已完成CLEVA-Cantonese的首輪評估，涵蓋多個國際和本地的大語言模型，包括開源模型和商業模型。結果顯示，在語法、發音和詞彙三個維度上，所有模型都有顯著的改進空間。

說白了，GPT-4也好，Gemini也好，它們能看懂書面中文，也能用普通話聊天，但一旦涉及粵語的口語表達、俚語、中英夾雜，表現就大幅下滑。

說實話，這就好比一個英文流利的人，能讀能寫，但一到利物浦街頭就聽不懂當地人在說什麼。語言不是詞彙的堆積，它是文化的載體。你看，會考試和會生活，從來都不是一回事。

而這恰恰是問題的關鍵——粵語不是“不標準的普通話”，它是一門有自己語法體系、發音系統和文化內涵的語言。

中大出手，建了個“粤語考場”

面對這個問題，中大沒有選擇等別人來解決。

他們建了一個東西，叫CLEVA-Cantonese——全球首個專為粵語而設的動態評測平台及生態系統。

你可能聽說過CLEVA。這個由中大語言與視覺實驗室（LaVi Lab）研發的平台，是目前公認規模最大、涵蓋最全面的中文大語言模型評估基準之一，還被整合進了斯坦福大學的HELM框架。簡單說，CLEVA就是中文AI界的“高考”。

現在，他們把這套體系延伸到了粵語。

CLEVA-Cantonese的運作方式很有意思。它不是靜態的測試題庫，而是一個持續循環的四階段流程：

第一步，數據導入和篩選。 不是隨便抓點粵語文章就完事。團隊和鳳凰衛視等數據提供者合作，持續採集反映粵語新興趨勢的最新數據，同時過濾掉可能“污染”測試結果的信息。

第二步，語言模型理解。 用大語言模型本身來輔助構建多維度的評估任務。對，用AI來考AI。

第三步，評估。 標準化的任務、一致的提示語、多重指標，確保比較結果可信。

第四步，反饋。 評估結果反饋給模型開發者，引導下一輪優化。

這個循環不是一次性的。隨著更強大的模型陸續問世，CLEVA-Cantonese也會跟着迭代，就像考試本身也在不斷升級。

粤语到底难在哪？

你可能會問：粵語難在哪？不就是把普通話翻譯一下嗎？

不是的。CLEVA-Cantonese團隊總結了粵語評測面臨的三大核心挑戰：

第一座山：粵語白話文。

粵語有一套自己的書面表達方式。日常粵語口語寫下來，跟普通話的書面語差異巨大。“我哋聽日去行街”不是“我們明天去逛街”的簡單替換，它的語法結構就不一樣。模型要能理解這些口語用法和俚語，才行。

第二座山：語碼轉換。

香港人講話，中英夾雜是常態。“我今日要present個proposal，你幫我check下有冇問題”——這種句子在粵語區每天都在發生。模型不僅要懂中文和英文，還要理解兩種語言在同一句話裡的切換規則。

第三座山：粤語拼音。

粵語有自己的拼音系統（粵拼）。模型要能處理粵拼輸入和輸出，這對很多只在普通話環境下訓練的模型來說，是完全陌生的領域。

有意思的是，這三個挑戰不只是粵語的問題。全球有數千種“低資源語言”面臨類似的困境——它們有使用者、有文化，但缺乏足夠的數字化語料讓AI學會。CLEVA-Cantonese的研究成果，完全可以幫助其他語言的AI評測。

不只是考試，是整個生態

說到這裡，你可能覺得CLEVA-Cantonese就是一個“粵語AI考試系統”。

格局小了。

中大工程學院院長蒙美玲教授說得很清楚：CLEVA-Cantonese要建立的是一個生態系統，匯聚學術研究、數據提供者和模型開發者。

這個生態的野心不小：

教育領域，AI助教能用地道的粵語輔導學生，而不只是“用普通話的語法說粵語詞彙”。

醫療領域，香港不少老人家只講粵語，AI如果聽不懂他們描述的症狀，談何智慧醫療？

公共服務，政府熱線、社區服務，如果AI能準確理解粵語訴求，效率提升是實打實的。

文化生活，粵語承載的影視、音樂、文學遠超一種方言的範疇。AI能理解粵語，意味着這些文化內容的數字化保存和傳播有了新的可能。

而且，CLEVA-Cantonese已經在和鳳凰衛視合作，持續引入高質量的粵語數據。這不是閉門造車，是真正在搭建連接各方的橋樑。

粤语AI的下半场

說到底，CLEVA-Cantonese的意義不只是一個技術工具。

它傳遞了一個信號：粵語AI的發展，正在從“野蠻生長”進入“標準化時代”。

以前各家模型各說各話，誰的粵語好、誰的差，沒有統一標準。現在有了CLEVA-Cantonese，就像給AI界裝了一把尺子——粵語能力的強弱，有了可量化、可比較的指標。

我個人覺得，這件事最打動我的地方是它的長期主義。

CLEVA-Cantonese不是做一次評測就收工。它是一個持續演進的系統，模型在進步，評測也在升級。數據在更新，標準也在迭代。這是一場沒有終點的馬拉松，但至少現在，我們有了計時器。

而對於我們這些粵語使用者來說，這意味着——在AI時代，我們的語言不會被遺忘。

全球有粵語能力的AI模型會越來越多，但“會說”和“說得好”是兩回事。CLEVA-Cantonese要做的，就是確保AI不只是“會說粵語”，而是真正理解粵語背後的文化和邏輯。

這條路還很長。但第一步，已經邁出去了。

你覺得AI能學好粵語嗎？歡迎在評論區分享你的看法，轉發給身邊講粵語的朋友看看吧。