你听过哈尼语吗?
这是我国西南地区少数民族
哈尼族使用的语言
这些在山间回荡的古老乡音
因为没有通用文字
长期仅靠民间口耳相传
面临着慢慢消逝的危机

如今
人工智能与国产算力
正为它筑起一道坚实的数字 “保护墙”
一款语言翻译AI大模型在当地上线
不仅帮助当地村民跨越语言沟通的障碍
也让这门濒危语言
在数字时代焕发新生

这一由上海企业深度参与的
澜湄国家跨境语言AI大模型项目
近日成功入选联合国教科文组织示范案例

破解极低资源语言难题
跨学科团队合力攻关
在云南省普洱市墨江县的一所小学里,孩子们正自信地用哈尼语诵读唐诗。去年,一套哈尼语AI系统在当地悄然上线。输入普通话,AI能实时翻译成哈尼文,还能直接朗读;就连《悯农》《咏鹅》这样的古诗,AI也能准确意译。

这款AI系统缘起于两年前。那时,来自上海壁仞科技公司的公益团队与智译团队在当地开展沪滇公益项目。在走访的过程中,一个令人揪心的现实困境逐渐浮出水面——
当地大量年轻人外出务工,留守的孩子们跟着爷爷奶奶长大,从小说的是哈尼语白宏方言,普通话能力往往较弱。语言环境的缺失,直接影响了孩子们的学习。团队在家访中发现,由于孩子们从小接触到的普通话资料非常少,进入学校后,老师开展语文教学工作十分困难。
“有些孩子到了小学三年级,仍然无法独立阅读课本,有些四、五年级的学生读课文还需要借助拼音。”智译团队负责人刘畅源说。不仅如此,由于语言沟通不畅,一些村干部上门给村民宣传政策时也遇到障碍。

与此同时,哈尼语白宏方言本身也面临着传承危机。这门约60万人口使用的方言,完全依靠口耳相传,没有文字记录。从那一刻,团队下定决心:运用AI技术为哈尼语白宏方言做数字化保护,让孩子们先用母语培养阅读能力,再逐步学习普通话。
秉持着相同的理念,壁仞公益团队与云南濒危语言文化传播有限公司及智译团队一拍即合,启动项目。然而,项目刚一启动,团队就遇到了难题——
哈尼语白宏方言是典型的“极低资源语言”。老百姓会说,但没有通用文字。而要训练AI大模型,首先得有“课本”,可去哪里收集数字化语料呢?“我们必须创造一套标音方法,让AI大模型能够‘读得懂’。”刘畅源说。
于是,一支由语言学家与AI专家组成的跨学科队伍迅速集结。团队的首要任务,是为这门只有声音的语言找到合格的“发言人”。寻找发音人的标准十分严格:必须是祖辈三代都在当地土生土长的本地人,年龄在55至65岁之间,优先选择男性以保证能采集到喉音等特殊语音现象,还要具备一定的教育程度以便理解采录要求。
经过多方寻访,团队在竜宾村找到了两位符合条件的发言人——白建红和白福才。两人骑着摩托车奔波20公里,来到玉溪市元江县因远镇的专业录音棚,花了整整20天时间进行系统性的语言采集。最终,团队记录下5000个基本词汇、1000个短句,以及长达3小时18分的民间长篇故事讲述。

有了原始声音素材,下一步的挑战更为艰巨——标注。由于哈尼语白宏方言没有通用文字,团队只能采用国际音标对所有声音进行逐字逐句的标注。云南民族大学13位哈尼语专业的学生利用春节假期参与进来,花了两个月时间完成初标;随后,资深的语言学家再进行系统梳理,把国家标准哈尼文适配到白宏方言。
“我们在标注过程中要反复确认,保证标注结果可信。”刘畅源说,整个标注过程耗时数月,仅一分钟的语料就要标注约10个小时、标注成本高达千元以上。

经过数月的攻关,团队终于建立了一套可被AI 识别的拼音体系,并以此为基础进一步训练AI模型。2025年5月,团队训练出了AI文本翻译与创作系统;到了11月,团队又进一步突破,训练出了语音合成系统,让AI真正能“说出”哈尼语。

哈尼语翻译界面
“石榴籽” AI智能体落地
古老乡音焕发“数字新生”
这款AI系统在云南墨江落地后,团队给它取了一个温暖又有力量的名字 ——“石榴籽” AI智能体,寓意各民族像石榴籽一样紧紧团结在一起。
上线五个多月,系统累计消耗3亿词元。在这个数字背后,是一个个鲜活的场景——
来自云南师范大学的师生用它开展双语诗会,将三十多首汉语诗歌翻译成哈尼语;有老师用它辅助翻译鲁迅的《秋夜》《雪》等晦涩散文;还有驻村工作队借助“石榴籽”翻译医保报销、产业扶持等惠民政策,让政策“声”入人心。

AI系统不仅架起了沟通的桥梁,也增强了村民的民族文化自信。
当地村民白福才不仅主动学习用哈尼文记录日常生活,还拍摄器物照片,配上哈尼文和汉文说明,自制图文小词典。“我很感兴趣,非常愿意学习,也希望能把这个方法一直传承发扬下去。”白福才说。

国产算力全程硬核护航
未来构建世界语言AI大模型
在这场语言守护行动的背后,来自上海闵行的科技企业壁仞科技提供了关键的算力支撑。
作为国产通用 GPU 领军企业,上海壁仞科技全程为项目提供自主可控的国产算力,完成模型训练、推理适配与技术优化,让这款AI 模型跑在国产算力平台上。
壁仞科技介绍,团队不仅用高性能训练卡完成了模型的适配,也在针对偏远地区的实际环境,探索低功耗的边缘计算卡,探索小型化本地部署方案。这意味着AI模型可以摆脱对云端服务器的依赖,真正走进深山、走进课堂。
“通过这个边缘智能设备,未来能够部署到更多环境中去,比如学校、村落或者各类语言研究机构,能够把硬件、软件、应用集成在一个专用产品推广给大家。”壁仞科技企业社会责任负责人介绍。

从最初守护哈尼语,到如今,项目已经成长为覆盖29种语言的澜湄国家跨境语言AI大模型。它不仅服务哈尼、苗、傣等国内少数民族,还延伸至泰国、缅甸等澜湄国家语言,为区域发展提供数字化底层支撑。

项目上线六个语言翻译界面
在近日联合国教科文组织国际创意与可持续发展中心及联合国教科文组织东亚地区办事处联合主办的第五届“创意2030国际论坛”上,“澜湄国家跨境语言AI大模型”项目成功入选了2025“数字环境下保护与促进文化表现形式多样性示范案例”。
而团队的梦想更远:未来计划依托壁仞科技的国产算力底座,建设世界语言中心,开发覆盖全球数千种语言的世界语言AI大模型。“我们计划进一步降低成本,并把这套成熟技术体系推广到全球更多语言,希望通过我们的系统,让每一种语言都能被记录、被听见。”刘畅源说。
-本文完-
版权声明:转载前请联系后台授权
夜雨聆风