你让ChatGPT翻译“你食咗飯未呀”,它大概率能答上来。
但换成“呢个case要follow up下先得,你記得send個email俾client”,它可能就开始胡言亂語了。
這不是段子。這是2025年全球AI面臨的一個真實問題——全球有超過8000萬人講粵語,但目前主流的大語言模型,對粵語的理解力遠比你想象的弱。
而香港中文大學(中大),剛剛做了一件填補空白的事。

AI考粤語,成績如何?
先說個可能出乎你意料的結論:即使是目前最先進的大語言模型,在粵語面前依然“考不及格”。
中大團隊已完成CLEVA-Cantonese的首輪評估,涵蓋多個國際和本地的大語言模型,包括開源模型和商業模型。結果顯示,在語法、發音和詞彙三個維度上,所有模型都有顯著的改進空間。
說白了,GPT-4也好,Gemini也好,它們能看懂書面中文,也能用普通話聊天,但一旦涉及粵語的口語表達、俚語、中英夾雜,表現就大幅下滑。
說實話,這就好比一個英文流利的人,能讀能寫,但一到利物浦街頭就聽不懂當地人在說什麼。語言不是詞彙的堆積,它是文化的載體。你看,會考試和會生活,從來都不是一回事。
而這恰恰是問題的關鍵——粵語不是“不標準的普通話”,它是一門有自己語法體系、發音系統和文化內涵的語言。
中大出手,建了個“粤語考場”
面對這個問題,中大沒有選擇等別人來解決。
他們建了一個東西,叫CLEVA-Cantonese——全球首個專為粵語而設的動態評測平台及生態系統。

你可能聽說過CLEVA。這個由中大語言與視覺實驗室(LaVi Lab)研發的平台,是目前公認規模最大、涵蓋最全面的中文大語言模型評估基準之一,還被整合進了斯坦福大學的HELM框架。簡單說,CLEVA就是中文AI界的“高考”。
現在,他們把這套體系延伸到了粵語。
CLEVA-Cantonese的運作方式很有意思。它不是靜態的測試題庫,而是一個持續循環的四階段流程:
第一步,數據導入和篩選。 不是隨便抓點粵語文章就完事。團隊和鳳凰衛視等數據提供者合作,持續採集反映粵語新興趨勢的最新數據,同時過濾掉可能“污染”測試結果的信息。
第二步,語言模型理解。 用大語言模型本身來輔助構建多維度的評估任務。對,用AI來考AI。
第三步,評估。 標準化的任務、一致的提示語、多重指標,確保比較結果可信。
第四步,反饋。 評估結果反饋給模型開發者,引導下一輪優化。
這個循環不是一次性的。隨著更強大的模型陸續問世,CLEVA-Cantonese也會跟着迭代,就像考試本身也在不斷升級。
粤语到底难在哪?
你可能會問:粵語難在哪?不就是把普通話翻譯一下嗎?
不是的。CLEVA-Cantonese團隊總結了粵語評測面臨的三大核心挑戰:

第一座山:粵語白話文。
粵語有一套自己的書面表達方式。日常粵語口語寫下來,跟普通話的書面語差異巨大。“我哋聽日去行街”不是“我們明天去逛街”的簡單替換,它的語法結構就不一樣。模型要能理解這些口語用法和俚語,才行。
第二座山:語碼轉換。
香港人講話,中英夾雜是常態。“我今日要present個proposal,你幫我check下有冇問題”——這種句子在粵語區每天都在發生。模型不僅要懂中文和英文,還要理解兩種語言在同一句話裡的切換規則。
第三座山:粤語拼音。
粵語有自己的拼音系統(粵拼)。模型要能處理粵拼輸入和輸出,這對很多只在普通話環境下訓練的模型來說,是完全陌生的領域。
有意思的是,這三個挑戰不只是粵語的問題。全球有數千種“低資源語言”面臨類似的困境——它們有使用者、有文化,但缺乏足夠的數字化語料讓AI學會。CLEVA-Cantonese的研究成果,完全可以幫助其他語言的AI評測。
不只是考試,是整個生態
說到這裡,你可能覺得CLEVA-Cantonese就是一個“粵語AI考試系統”。
格局小了。
中大工程學院院長蒙美玲教授說得很清楚:CLEVA-Cantonese要建立的是一個生態系統,匯聚學術研究、數據提供者和模型開發者。
這個生態的野心不小:
教育領域,AI助教能用地道的粵語輔導學生,而不只是“用普通話的語法說粵語詞彙”。
醫療領域,香港不少老人家只講粵語,AI如果聽不懂他們描述的症狀,談何智慧醫療?
公共服務,政府熱線、社區服務,如果AI能準確理解粵語訴求,效率提升是實打實的。
文化生活,粵語承載的影視、音樂、文學遠超一種方言的範疇。AI能理解粵語,意味着這些文化內容的數字化保存和傳播有了新的可能。
而且,CLEVA-Cantonese已經在和鳳凰衛視合作,持續引入高質量的粵語數據。這不是閉門造車,是真正在搭建連接各方的橋樑。
粤语AI的下半场
說到底,CLEVA-Cantonese的意義不只是一個技術工具。
它傳遞了一個信號:粵語AI的發展,正在從“野蠻生長”進入“標準化時代”。
以前各家模型各說各話,誰的粵語好、誰的差,沒有統一標準。現在有了CLEVA-Cantonese,就像給AI界裝了一把尺子——粵語能力的強弱,有了可量化、可比較的指標。
我個人覺得,這件事最打動我的地方是它的長期主義。
CLEVA-Cantonese不是做一次評測就收工。它是一個持續演進的系統,模型在進步,評測也在升級。數據在更新,標準也在迭代。這是一場沒有終點的馬拉松,但至少現在,我們有了計時器。
而對於我們這些粵語使用者來說,這意味着——在AI時代,我們的語言不會被遺忘。
全球有粵語能力的AI模型會越來越多,但“會說”和“說得好”是兩回事。CLEVA-Cantonese要做的,就是確保AI不只是“會說粵語”,而是真正理解粵語背後的文化和邏輯。
這條路還很長。但第一步,已經邁出去了。
你覺得AI能學好粵語嗎?歡迎在評論區分享你的看法,轉發給身邊講粵語的朋友看看吧。
夜雨聆风