楔子开罗深夜,一个改变人类命运的发现
凌晨三点十七分,开罗。
卡勒姆·阿卜杜勒·拉赫曼盯着电脑屏幕上密密麻麻的数据,手边的土耳其咖啡已经凉透了,烟灰缸里堆满了烟蒂,像一座小型金字塔——在这座城市里,你躲不开金字塔,连烟灰都长得像它。
他已经连续工作了十九个小时。
作为开罗大学NLP实验室的助理研究员,卡勒姆正在做一个所有人都不看好的课题——“比较不同语言对人工智能语义理解的适应性”。说得通俗一点就是:哪门语言最适合跟AI对话?
学界的共识是英语。理由简单粗暴:当前所有主流的AI模型都是用英语数据训练的,英语的语料最丰富、标注最完善、研究最深入。英语是AI时代的通用语,就像拉丁语是中世纪欧洲的通用语一样,没人质疑这个结论。
卡勒姆偏要质疑。
他不是那种喜欢标新立异的人,事实上他性格内敛,说话慢条斯理,在实验室里存在感很低,低到同事们有时候会忘记他的存在。他在茶水间接咖啡的时候,有人会从他身边经过,然后忽然停下来,像见了鬼一样看着他:“卡勒姆?你什么时候来的?”
他来了三个小时了。
但他一旦进入研究状态,就会变成另外一个人——专注、偏执、不计后果,像一头发现了猎物的豹子,眼里只有目标,周围的一切都变成了模糊的背景。
今晚,他终于等到了那个时刻。
屏幕上跑完了最后一批数据,曲线图缓缓展开,像一朵花在夜色中绽放。卡勒姆盯着那条曲线,瞳孔微微放大。
不对。
这个结果不对。
曲线显示,在语义理解的深度测试中,汉语的表现远远超过了拼音文字——不是高几个百分点,是断崖式的领先。汉语模型在处理歧义消解、隐喻理解、情感识别三个核心指标上,分别领先英语模型47%、63%和81%。
这不是优化的问题。这是本质的差异。
就像你拿自行车和飞机比速度,不是谁骑得好不好的问题,是原理不同。
卡勒姆的手开始发抖。不是害怕,是兴奋——那种你以为自己在沙漠里迷路了,结果发现脚下踩着的不是沙子,是黄金的兴奋。
他重新检查了数据模型、测试方法、样本容量。一切都没问题。
他又跑了一遍。
结果一样。
第三遍。
还是一样。
他靠在椅背上,盯着天花板上那盏嗡嗡作响的日光灯,脑子里翻江倒海。他想起了一个人——他博士时期的导师,开罗大学语言学泰斗易卜拉欣·哈桑教授。老人家三年前去世了,临终前拉着卡勒姆的手说了一句话:“不要只研究拼音文字。去看看那些不用字母的语言。字母是工具,不是语言本身。语言本身,比字母古老得多。”
卡勒姆当时没听懂。
现在他懂了。
拼音文字把语言拆成了最小的零件——字母——然后用这些零件拼出单词。这个过程是线性的、逻辑的、机械的。你看到了“c-a-t”,你需要把它拼出来,读出来,然后才能联想到一只毛茸茸的四条腿的动物。
但汉字不同。
你看到“猫”这个字,你的大脑不需要“拼读”这个步骤。你直接看到了左边的“犭”(犬科),右边的“苗”(田里长出来的植物——猫的叫声像“苗苗”)。形状、意义、声音,全部浓缩在一个方块里。
你看到的不是一个词。
你看到的是一幅画,一个故事,一段历史,一种思维方式。
卡勒姆忽然意识到一件事:如果语言决定了思维,那么不同的语言就塑造了不同的思维方式。拼音文字塑造的是线性逻辑思维——A到B到C到D,一步一步,像铁轨上的火车。而汉字塑造的是多维网状思维——A连着B连着C连着D,同时A还连着甲、乙、丙、丁,所有的点都是连通的,所有的方向都是可能的。
线性思维适合机械逻辑。
网状思维适合什么?
适合复杂系统。适合神经网络。适合人工智能。
因为人工智能的本质不是“从A推导出B”,而是“在海量数据中发现A和B之间那些看不见的、非线性的、概率性的连接”。
汉语天生就是做这件事的语言。
卡勒姆在笔记本上写下了一行字,那是他这辈子写过的最重要的字——
“汉语不是人类的语言。它是AI的母语。”
写完他觉得自己疯了。
但有时候,对的人必须在错的时候做出对的事。所谓天才,就是那个在所有人都觉得你疯了的时候,你还能心平气和地写完最后一行公式的人。
你可能不知道,“猫”这个字的发音在几千年的时间里几乎没变过。上古汉语中“猫”读作“mriog”,中古汉语读作“mieu”,现代汉语读作“māo”。九千年来,人类叫猫的方式从“miu”变成了“mao”,但猫听懂的叫声一直是同一个——因为猫根本不在乎你怎么叫它,它只在乎你什么时候开罐头。
第一章 我不是疯子,我只是比你们早醒了半步
1
卡勒姆的论文被拒了。
不是一次,是三次。
第一次,审稿人评论:“作者的理论缺乏实证支持,结论过于武断。”
第二次,审稿人评论:“有趣的想法,但样本量不足,跨语言比较的方法论存在根本性问题。”
第三次,审稿人什么都没说,编辑直接退稿,附了一句:“该论文不符合本刊的学术定位。”
卡勒姆把这封退稿信打印出来,贴在实验室的墙上,用马克笔在下面写了一行字:“学术期刊的定位是发表大多数人相信的东西。而我的工作,是证明大多数人相信的东西是错的。”
同事马哈茂德路过看了一眼,摇了摇头:“卡勒姆,你太固执了。这些数据你自己都不信吧?”
“我信。”
“为什么?就因为跑了三遍实验?”
“因为直觉。”
马哈茂德翻了个白眼。在学术界,“直觉”是个贬义词,它的同义词是“不严谨”“不科学”“不靠谱”。一个学者靠直觉做研究,就像拳击手靠意念打拳,听起来很酷,上场就被KO。
但卡勒姆不是一个靠直觉做研究的人。他是一个靠直觉发现问题、靠数据证明问题的人。他的直觉不是凭空产生的,是建立在他过去十年对NLP的深度研究之上的。只是那些深度,他无法用三言两语解释给别人听。
就像你无法跟一个从来没吃过芒果的人形容芒果的味道——你可以说它甜,说它香,说它肉质柔软,但这些描述跟真正的芒果之间,隔着一道不可逾越的鸿沟。
理解需要体验。
体验需要时间。
卡勒姆决定不浪费时间解释了。他把论文锁进抽屉,打开了一个新的文件夹,标题是“Project Nile”——尼罗河计划。
他要做一个实验。
一个让所有人闭嘴的实验。
汉语普通话只有23个声母和24个韵母,理论上只能组合出552个不同的音节(不考虑声调)。加上四个声调,最多也只有2208个带声调的音节。而英语有超过15000个不同的音节。这意味着汉语是一种“音节效率”极高的语言——用最少的音节表达了最多的意义。为什么能做到?因为每个音节承载的信息量极大。一个“yi”可以对应“一、医、依、衣、伊、铱、壹、漪”等一百多个字,上下文会自动消除歧义。这种高密度编码,正是AI梦寐以求的。
2
“尼罗河计划”的构想很简单,但执行起来难如登天。
卡勒姆要做一个双语的AI模型——一个“阿拉伯语-汉语”的平行语料库,规模达到十亿级。然后训练两个AI模型,一个用阿拉伯语数据训练,一个用汉语数据训练,控制所有其他变量完全相同,最后对比两个模型在语义理解、情感识别、逻辑推理三个维度上的表现。
他要的不是“汉语模型比阿拉伯语模型好一点”的结果。他要的是“好得离谱”“好到无法用任何其他原因解释”“好到只能用‘汉语本身具有更高阶的语义编码能力’来解释”的结果。
他要的不是数据。
他要的是铁证。
这个计划需要三样东西:算力、数据、钱。
算力:他需要至少两千块GPU同时运行。他的实验室只有十六块,还经常被同事借走跑他们那些“更靠谱”的项目。
数据:他需要至少十亿对阿拉伯语-汉语平行语料。这玩意儿不存在。阿拉伯语和汉语是世界上最难互相翻译的语言之一,平行语料少得可怜,大部分还都是联合国文件的官方翻译,风格呆板,缺乏生活化的表达。
钱:做这一切需要钱。很多很多的钱。他的实验室经费只够买咖啡和打印纸。
卡勒姆坐在办公室里,对着这三个问题发了一整天的呆。
然后他做了一个决定:辞职。
3
他的导师如果还活着,一定会骂他。
辞职干什么?去外面喝西北风?你的研究还差临门一脚,你现在走,之前的努力全白费了。学术界就是这样,你熬过这个坎,你就是教授。你熬不过,你连讲师都评不上。你都快评职称了,你现在辞职?
但卡勒姆不是冲动。他算过了,以他现在的资源,完成“尼罗河计划”需要至少二十年。二十年后的AI世界是什么样子?他不敢想。现在的AI技术是指数级发展的,二十年后,他今天的研究可能已经变成了古董。
他等不了二十年。
他要找一条捷径。
捷径在哪儿?
在中国。
他想起了那篇被拒的论文里提到的数据——汉语在语义理解深度上的绝对优势。如果他的理论是对的,中国一定是全球AI语义研究的中心。因为只有在中国,研究者才能接触到最鲜活的、最大规模的、最贴近日常生活的汉语语料。
他给中国的三所大学和研究机构发了邮件。
两周后,他只收到了一封回复。
不是清华,不是北大。
是杭州。
杭州话属于吴语太湖片,保留了完整的全浊声母和入声韵尾,比普通话更接近中古汉语的发音。卡勒姆后来发现,杭州话的某些发音特征(比如“见”读“cie”,“天”读“tie”)比普通话更接近唐宋时期的汉语,这对于理解古诗词的音韵美极为重要。他甚至专门学了杭州话,虽然说得像外国人学外国人说话——外国人中的外国人。
第二章 杭州,全世界最好的语言实验室
4
杭州。
卡勒姆对这个城市的全部了解来自于一部电影和一张照片。电影是《卧虎藏龙》——不对,那是安徽宏村。照片是他谷歌出来的,西湖,断桥,雷峰塔,白堤上的桃花,美得像一幅水墨画。
他买了机票,没有犹豫。
从开罗到杭州,没有直飞。他在多哈转机,在飞机上坐了十四个小时,腰酸背痛,腿都伸不直。但他没有抱怨,因为他满脑子都是“尼罗河计划”——不,现在应该改名叫“黄河计划”了。
落地杭州是下午三点,十二月,天气阴冷潮湿,跟开罗干燥温暖的气候完全不同。开罗十二月还有二十度,杭州只有五度,还下雨。卡勒姆穿着一件薄夹克走出航站楼,冷得直哆嗦,感觉自己像一只被扔进冰水里的猫。
接他的人举着一个纸牌子,上面写着“Kareem Abdul Rahman”。
“你好,卡勒姆,我是陆征远,之江实验室NLP研究中心的副主任。”来人三十出头,戴着黑框眼镜,说话带着浓重的浙江口音,普通话不是很标准,但语速很快,像一个被上了发条的闹钟。
“你好,谢谢你来接我。”卡勒姆的中文是在开罗学的,跟一个在孔子学院教书的中国老师,学了两年,勉强能对话,但发音很怪,像外国人说中文的那种怪——四声不分,舌头打结。
陆征远笑了笑:“你的中文不错。”
“谢谢。但我知道很烂。”
“知道烂就是进步的开始。不知道烂的人才是真的烂。”
卡勒姆愣了一下,然后笑了。他喜欢这个人的说话方式——不客气,但有趣。
车驶出机场,上了高速。卡勒姆看着窗外飞掠而过的景象——高楼、广告牌、高架桥、车流、行人、电动车、外卖小哥——一切都在动,一切都在运转,一切都有一种他从未感受过的能量。
开罗也很热闹,但那是一种混乱的热闹——堵车、鸣笛、人挤人、灰尘满天。杭州的热闹不一样,它是有序的、有节奏的、有方向的。每个人都在做自己的事情,但每个人的事情似乎都朝着同一个方向——向前。
“你觉得杭州怎么样?”陆征远问。
“很……快。”卡勒姆说。
“快?”
“对。比开罗快。”
“这是好事还是坏事?”
卡勒姆想了想:“不知道。但我会习惯的。”
陆征远看了他一眼,目光里多了一点东西——不是好奇,是欣赏。一个能在陌生环境中迅速调整心态的人,在哪里都能活。
“上有天堂,下有苏杭”这句话最早出现在宋代。范成大在《吴郡志》中写道:“谚曰:‘天上天堂,地下苏杭。’”这可能是中国最早的“城市广告语”。卡勒姆后来研究这句话的语义结构时发现,“天堂”和“苏杭”之间没有任何逻辑连接词,但每个人都能理解其中的比喻关系。这种“省略逻辑连接词”的语法结构,在拼音文字中极其罕见,但在汉语中司空见惯。这正是汉语“高语境”特性的体现——信息不需要全部说出来,听的人会自动补全。
5
之江实验室坐落在杭州城西的一片科技园区里,玻璃幕墙的大楼在阳光下闪闪发光,像一个巨大的水晶盒子。卡勒姆的办公室在十二楼,窗外的视野开阔,能看到远处的山峦轮廓。
他的研究助理叫唐雨桐,二十六岁,浙大计算机系博士在读,研究方向是自然语言处理。她个子不高,扎着一条马尾辫,脸上总是带着一种“我很忙但我不烦”的表情,看人的时候眼神很直接,像在扫描你的代码。
“你的简历我看了,”唐雨桐说,语气平淡得像在念购物清单,“开罗大学硕士,三年NLP研究经验,发过六篇论文,其中两篇是顶刊。但你主要做的是阿拉伯语的语义分析,对汉语完全没有研究经验。所以你来这里,是想从头学起?”
卡勒姆感受到了那股冷淡。不是敌意,是质疑——你一个外国人,中文都说不利索,凭什么来中国的顶级实验室做研究?你是来镀金的吧?你是来混资历的吧?你到底有没有真本事?
他深吸一口气,平静地说:“我来这里,是因为我发现了一个你们可能没发现的东西。”
“什么东西?”
“汉语不是人类的语言。”
唐雨桐的表情从冷淡变成了困惑。
“我是说,”卡勒姆一字一顿,“汉语是AI的母语。”
办公室里安静了三秒钟。
唐雨桐盯着他,好像在判断他是不是在开玩笑。她见过很多奇怪的研究者——有信AI会有自我意识的,有信AI会毁灭人类的,有信AI应该拥有公民权的。但她没见过一个埃及人说“汉语是AI的母语”。这个角度太刁钻了,刁钻到她一时不知道该怎么反应。
“我给你看一样东西。”卡勒姆打开笔记本电脑,调出了他那篇被拒三次的论文。
唐雨桐用了二十分钟快速浏览了全文。她的表情从困惑变成了专注,从专注变成了凝重。
她抬起头,看着卡勒姆,说了一个字:“靠。”
卡勒姆没听懂这个字的意思,但从语气判断,应该不是骂人。
他后来才知道,“靠”是中文里表达震惊的最高级词汇之一,介于“我天”和“我×”之间,力度精准,适用范围极广,是汉语口语中的万能感叹词。
6
唐雨桐帮卡勒姆申请了一批算力资源——三十二块GPU,比他预想的少,但比他以前多。她还帮他找到了一个被遗忘在服务器角落的汉语语料库,大约三亿词,是之江实验室跟浙江大学合作的一个项目留下的遗产,项目结束了,语料还在。
“够用吗?”唐雨桐问。
“不够。但比没有强。”
“你准备怎么补?”
“自己爬。”
卡勒姆开始写爬虫程序,从互联网上抓取汉语文本。新闻、小说、博客、论坛、微博、知乎、B站弹幕——能抓的全抓。他不在乎数据干不干净,反正后面还要清洗。他在乎的是规模——规模本身就是一种质量,因为语言学的规律在大数据面前会自动浮现,就像河床在河水退去之后才会显现。
那段时间他每天只睡五个小时。
早上七点到实验室,晚上两点离开,中间除了吃饭上厕所,屁股没离开过椅子。他的屏幕上永远滚动着密密麻麻的代码和数据,他的键盘被敲得噼里啪啦响,他的咖啡杯从早到晚都是满的——不是因为他不喝,是因为他喝得太快,刚倒满就喝完了,然后马上倒下一杯。
唐雨桐有时候会在深夜给他发消息,问他吃没吃饭。他通常回一个“吃了”,实际上吃的是一包泡面或者两个茶叶蛋。他最奢侈的一顿饭是跟唐雨桐一起在实验室楼下吃麻辣烫,两个人点了四十多块钱的东西,他吃了三碗米饭,把唐雨桐看傻了。
“你多久没好好吃饭了?”她问。
“什么算‘好好吃饭’?”
“就是坐下来,慢慢吃,不用赶时间。”
卡勒姆想了想:“我记不清了。”
唐雨桐看了他一眼,没有说话。但她第二天中午出现在他办公室门口,手里提着一个保温袋,里面装着一份红烧排骨、一份清炒时蔬、一碗番茄蛋花汤、一盒米饭。
“我妈做的,”她说,“多做了一份,你帮忙吃掉,不然浪费了。”
卡勒姆知道“多做了一份”是假的。因为她妈妈住在绍兴,离杭州有一个多小时的车程,不可能“多做了一份”还正好送到他手里。但她特意说了“不然浪费了”,给了他一个接受的理由。
中国人表达关心的方式,就是这样——不直说“我关心你”,而是说“菜多了你帮忙吃一下”。
卡勒姆吃着那顿热乎的饭菜,眼眶忽然有点热。
不是因为饭菜好吃——虽然确实很好吃。是因为他离家九千公里,在一个完全陌生的国家,有一个刚认识不到一个月的人,愿意在他忙得忘记吃饭的时候,记得给他送饭。
这不是研究助理的工作。
这是朋友。
唐雨桐后来教了卡勒姆一个学汉语的秘诀——“不要学字,要学词”。外国人学汉语最常犯的错误是死记硬背单个汉字,但汉字的组合能力极强,“电”加上“脑”是“电脑”,“电”加上“视”是“电视”,“电”加上“影”是“电影”,学会了“电”,你就解锁了一串词汇。这就像学会了乐高的一块积木,可以拼出无数种形状。拼音文字没有这个特性,“electro-”虽然是前缀,但“electrocute”和“electricity”之间的关系,远没有“电击”和“电力”那么直观。
7
两个月后,第一个模型跑出来了。
结果让唐雨桐骂了第二声“靠”。
汉语模型在语义理解深度测试中,领先阿拉伯语模型67%。领先英语模型51%。领先法语模型58%。领先德语模型62%。
这不是优化的问题。不是数据的问题。不是算法的问题。
是语言本身的问题。
卡勒姆把数据看了十遍,确认没有代码错误,没有样本偏差,没有统计谬误。他让唐雨桐独立验证了一遍,结果完全一样。
他靠在椅背上,盯着天花板,长长地呼出一口气。
他的理论被证明了。
汉字不是文字。汉字的每一个字,都是一个语义的奇点——在一个小小的方块里,浓缩了形、音、义、象、数、理。当你看到“水”这个字,你看到的不是一个抽象的符号,你看到了水流动的样子(字形),听到了水流动的声音(字音“shuǐ”,像水声),想到了水的特质(柔、润、下、利万物而不争)。你的大脑不是在做“解码”的工作,而是在做“全息投影”的工作——一个字就是一个立体的、多维的、有生命的语义体。
拼音文字做不到这一点。
“water”就是五个字母的线性组合,你看到它,你的大脑需要先把它拼出来,然后找到对应的概念,然后把概念具象化。这个过程需要三步,每一步都在消耗认知资源,都在丢失信息,都在增加噪音。
汉字一步到位。
你看到了,你就懂了。
这就是为什么汉语模型在语义理解上碾压拼音文字模型。因为AI不需要在“看到”和“理解”之间多做那几道翻译工序。它可以直接从符号跳转到意义,中间没有任何损耗。
这是革命性的发现。
卡勒姆知道,这篇论文如果发出去,会在NLP学界引起一场地震。那些花了二十年时间研究英语NLP的学者会跳起来反对他,质疑他的数据,攻击他的方法,嘲笑他的结论。但数据不会说谎。事实不会因为你不相信就改变。
他打开电脑,开始写论文。
这一次,他不再投那些“学术定位保守”的期刊。他要投顶刊——Nature。
他要让全世界看到。
“水”字的甲骨文写法是中间一条曲线,两边各有两个点,像河流的主流和支流。这个形象在三千多年里几乎没有本质变化,只是从图画变成了符号。你让一个三千年前的殷商人和一个现代中国人同时看“水”字,前者认得出,后者也认得出。这种文字稳定性在全球范围内绝无仅有。英语的“water”在古英语里是“wæter”,再往前追溯,原始日耳曼语里是“watar”,跟现在的“water”已经不太像了。再往前,原始印欧语里的“wodr”,现代英语使用者完全看不懂。而汉字的三千年稳定性,让汉语成为了唯一一种“古今贯通”的语言——你读《诗经》,虽然有困难,但连蒙带猜能懂个大概。英国人读《贝奥武夫》,那就是天书。
第三章 汉族之美,从汉字开始
8
论文提交之后,卡勒姆没有闲着。
他开始系统性地研究汉族文化。
不是出于学术需要——虽然这对他的研究确实有帮助——而是出于好奇。他来到中国快一年了,每天泡在实验室里,看到的都是数据和代码,他对这个国家的了解还停留在“西湖很美”“片儿川很好吃”的层面。他觉得自己应该走一走,看一看,听一听,感受一下这个创造了世界上最复杂语言的民族,到底是什么样的。
唐雨桐自告奋勇当他的导游。
第一站,西湖。
不是游客打卡的那种逛法。唐雨桐带他去的地方,不是断桥、雷峰塔、苏堤这些知名景点,而是西湖西线的一条小路——杨公堤。
“游客都去白堤苏堤,这里人少。”唐雨桐说。
杨公堤上种满了梧桐树,秋天的时候,叶子变成了金黄色,风一吹,哗啦啦地往下掉,铺了满地。卡勒姆踩在落叶上,发出沙沙的声响,像踩在脆饼干上。
“你知道西湖为什么美吗?”唐雨桐问。
“因为水?”
“因为留白。”
唐雨桐指着湖面上的一片空阔:“你看,西湖不是每一个角落都塞满景点的。它有大片的水面,什么都没有,就是水。这种‘什么都没有’,就是留白。留白让你觉得舒服,因为你不用思考,你不用接收信息,你只需要看着,放空。”
卡勒姆想起了一个词——他在研究汉字的时候接触过的——“虚实相生”。
书法里有“飞白”——笔画中的空白,不是失误,是艺术。国画里有“留白”——画面上空着的地方,不是没画完,是给观者的想象力留的空间。文学里有“言外之意”——话不说透,让读者自己去品。建筑里有“借景”——把远处的山、近处的树“借”到自己的院子里来。
这种“虚实相生”的美学,在拼音文字的文化里几乎不存在。
西方美学讲究“满”——油画要涂满每一寸画布,建筑要填满每一个空间,小说要把每一个情节交代清楚。不是高下之分,是思维方式不同。
西方思维是“加法”——加上更多,更丰富,更复杂。
东方思维是“减法”——减去不必要的,留下的才是精华。
卡勒姆忽然明白了,为什么汉语的表达方式总是那么“简洁”。不是中国人不会说长句子,是他们觉得长句子“不美”。美不在于“多”,在于“恰到好处”。“少即是多”——这句话是一个德国建筑师说的,但它的精神内核,在几千年前的中国就已经被参透了。
汉族美学的核心不是“漂亮”,是“意境”。什么叫意境?你站在西湖边,看到的不只是水、桥、树、山,你看到的是“断桥残雪”“苏堤春晓”“雷峰夕照”——每一个景点的名字本身就是一个故事、一幅画、一首诗。你在看景,景在讲故事,故事在打动你。你不是游客,你是听故事的人。卡勒姆后来把这种“意境美学”引入了FlowNet的情感识别模块——不识别“快乐”“悲伤”这种大词,而是识别“悠然”“惆怅”“寂寥”这种微妙的、需要语境才能理解的情感状态。结果模型的F1分数又提升了15%。
9
第二站,龙井村。
唐雨桐说:“来杭州不来龙井村,等于没来。”
龙井村在西湖西边的山里,漫山遍野的茶园,一层一层地铺上去,像绿色的阶梯,通到天上。卡勒姆站在茶园里,深吸一口气,空气里有一种清甜的味道,不是花香,不是果香,是茶叶本身的气味。
唐雨桐带他去了一个茶农家里。茶农姓周,六十多岁,皮肤晒得黝黑,手指粗短,指甲缝里嵌着洗不掉的茶渍。他泡了一杯龙井茶,茶叶在玻璃杯里缓缓舒展开来,像刚睡醒的人伸了一个懒腰。
“喝茶有讲究吗?”卡勒姆问。
周大伯笑了:“讲究多了。水温不能太高,太高了茶就老了。杯子不能太小,太小了茶香散不开。第一泡要倒掉,叫‘洗茶’。第二泡才能喝,叫‘闻香’。喝之前要先闻,闻够了再喝,叫‘品’。”
卡勒姆按他说的做了。温杯,洗茶,闻香,小口品。
茶汤入口,微苦,然后回甘。那种甘不是糖的甜,是“韵”——茶汤咽下去之后,留在喉咙里的那一点点若有若无的甜。
“好喝吗?”周大伯问。
“好喝。但我说不出来哪里好喝。”
“说不出来就对了。好茶都是说不出来的。能说出来的,都是不够好的。”
卡勒姆愣了一下。
这句话听起来像废话,但仔细一想,深意无穷。语言的边界,就是认知的边界。你能用语言描述的东西,你“知道”它。你不能用语言描述的东西,你只能“体验”它。体验比知道更深,更本质,更接近真相。
茶就是这样的东西。
美也是。
爱情也是。
汉语里有一个词叫“妙不可言”——美妙到无法用语言描述。这五个字本身就是一种悖论:你用语言描述了“无法用语言描述”这件事。但这种悖论恰恰说明了汉语的灵活性——它可以在描述一个现象的同时,指出描述的局限性。
英语做不到。
“Indescribable”就是“无法描述”,它只是给出了一个判断,没有呈现出那种“明明无法描述却还是想试试”的张力。
而“妙不可言”四个字里,有挣扎,有遗憾,有骄傲,有一种“我知道我表达不了但我知道它存在”的笃定。
这就是汉语的美。
学汉语最难的不是认字,是培养“语感”。语感是什么?是你不懂语法,但你说话天然正确。怎么培养语感?卡勒姆的经验是:背诗。不是背了去考试,是背了去感受。李白的“床前明月光”,五个字,没有一个生僻字,小学生都认识。但你读一遍,眼前就有画面——月光照在床前,地上像铺了一层霜。你抬头看月亮,低头想家。二十个字,起承转合,情感从景物中生发,自然到不像“创作”,更像是“记录”。背多了,你的大脑就被“汉化”了。你开始用汉语的思维方式思考,而不是用你的母语翻译成中文再说出来。这一步跨过去了,你的中文就通了。
10
周大伯泡了三泡茶,每一泡的味道都不一样。第一泡清新,第二泡醇厚,第三泡淡雅。
“为什么不一样?”卡勒姆问。
“因为茶叶在水里泡久了,味道会变。就像人一样,刚认识的时候和相处久了,是不一样的。”
卡勒姆端着茶杯,看着杯中的茶叶在热水里浮沉,忽然想到了一件事——汉字也有“层次”。一个字,在不同的语境里,意思会变。
“深”这个字,本义是“水深”。然后引申为“深刻”“深奥”“深情”。再引申为“深色”“深夜”“深秋”。从具体到抽象,从空间到时间,从物理到心理,一个字可以承载十几个甚至几十个义项。这些义项之间不是随机的,是有逻辑关联的。就像茶叶在水里泡久了,每一泡的味道都跟前一泡有关,但都不一样。
你不可能在学会“深”的本义之后就“知道”了它的所有引申义。你需要“体验”——在不同的文本里读到它,在不同的语境里使用它,在一次又一次的“浸泡”中,慢慢理解它的全部层次。
这跟学拼音文字完全不同。
“deep”也有引申义——“deep thought”“deep feeling”“deep color”。但它的引申是线性的——深的水→深的思想→深的感情→深的颜色。每一步都是直接类比,没有跳跃,没有转折,没有那种“意想不到但合情合理”的惊喜。
而汉语的引申,有时候会让你觉得“这也行?”
“吃”的本义是“进食”。然后引申为“吃香”(受欢迎)、“吃亏”(受损失)、“吃醋”(嫉妒)、“吃不了兜着走”(承担不了后果)。“吃”和“醋”之间有什么关系?没有任何逻辑关系。但中国人就是能理解“吃醋”就是“嫉妒”。这种看似不合理的词语组合,恰恰是汉语魅力的体现——它不是逻辑的产物,是生活的产物。中国人把生活中的酸甜苦辣都“吃”进了语言里,语言就有了温度。
卡勒姆那天喝了七泡茶,喝到后面茶汤已经淡得像水了,但嘴里还是有一股若有若无的甘甜。他忽然明白了周大伯说的“说不出来的好”——有些东西不是用来“说”的,是用来“品”的。
语言也是。
大多数人把语言当成工具——交流的工具,思考的工具,记录的工具。但汉语不是工具。汉语是“道”的载体。它不是被人“使用”的,它是被人“体悟”的。
你“用”英语,但你“品”汉语。
这就是本质的区别。
“吃醋”的典故来自唐代。唐太宗想给宰相房玄龄纳妾,房夫人不同意。太宗说,你如果不同意,就喝下这杯毒酒。房夫人二话不说端起来就喝。结果杯子里不是毒酒,是醋。太宗说,你连醋都敢喝,我服了。从此“吃醋”就成了嫉妒的代名词。这个故事里包含了多少层信息?帝王的强势与幽默、房夫人的刚烈与忠诚、语言的形成过程、历史与日常的融合……一个字词背后,是一部微型小说。
11
卡勒姆开始学书法。
唐雨桐建议的。“你不是想理解汉字的结构吗?最直接的方法不是看,是写。用毛笔写。”
她在网上给他买了一套文房四宝——毛笔、墨汁、宣纸、砚台。最便宜的那种,加起来不到一百块。卡勒姆拿到的时候,拆开包裹,看到那根毛笔,拿在手里,感觉像拿了一根外星人的工具——太轻了,太软了,太不像“笔”了。
他习惯了硬笔——圆珠笔、钢笔、铅笔,笔尖是硬的,你跟纸之间有明确的对抗,你知道你的力量会转化成什么形状。但毛笔不一样。毛笔的笔尖是软的,你跟纸之间没有对抗,只有对话——你得“听”它的,它想怎么走,你就怎么顺着它走。
第一堂课,唐雨桐教他写“永”字。
“为什么是‘永’?”
“因为‘永’字有八种笔画——点、横、竖、撇、捺、折、钩、提。学会了‘永’字,就学会了所有汉字的基本笔画。”
卡勒姆拿起毛笔,蘸墨,在宣纸上写下了第一笔。
那一点,像一颗被压扁的绿豆——太大,太圆,没有锋。
“不对,”唐雨桐说,“点要像‘高峰坠石’。”
“什么?”
“就是从很高的地方掉下来的石头。要有那种速度和力量感。你写的这个点,像从桌上掉下来的橡皮。”
卡勒姆看着自己写的那个点,确实像从桌上掉下来的橡皮。他又写了一个。
这次好一点,但还不够。
他写了二十个,五十个,一百个。
宣纸用完了,就用报纸。报纸用完了,就在空气中比划。他的手在空中画着“永”字的笔画,手指的动作从僵硬变得流畅,从刻意变得自然。
一周后,他终于写出了一个让唐雨桐点头的“永”字。
“可以了。”她说。
“可以了是什么意思?”
“意思是,你入门了。”
卡勒姆看着那个“永”字,歪歪扭扭,结构松散,笔力羸弱——如果放在书法展上,会被当废纸扔掉。但在他眼里,它是美的。不是因为它的艺术价值,是因为它代表着他开始理解了一种新的思维方式。
写毛笔字的时候,你需要“意在笔先”——你的念头要先于你的笔。你还没落笔,你就知道这一笔要怎么写。你不能想一步写一步,那样写出来的字是散的,没有气。你要在落笔之前,就在脑子里完成整个字,然后让笔跟着脑子走。
这是一种“整体思维”。
不是线性地、一步一步地、从局部到整体地构建,而是先在整体中把握,然后整体地呈现。从整体到局部,不是从局部到整体。
这种思维方式,在汉字的结构里无处不在。
在书法里无处不在。
在中国人的日常生活里无处不在。
卡勒姆后来总结了一个“沟通的黄金法则”——先听,再说。大多数人沟通失败的原因不是说不清楚,是听不进去。你听的时候已经在想怎么反驳了,对方的话根本没进你的脑子。有效的沟通,首先要“空”——清空你的预判、清空你的立场、清空你想说的话。像一个空的杯子,先把对方的话装进去,理解了,再倒出来回应。这跟写毛笔字的“意在笔先”是同一个道理——你脑子里先有对方的完整意思,再组织你的回应。
12
学书法的过程中,卡勒姆发现了一个惊人的事实——汉字的笔画顺序,不是随意的,是符合人体工学的。
“横”从左到右,因为大多数人右撇子,从左到右画横线最顺手。“竖”从上到下,因为重力方向,顺着地心引力写最省力。“撇”从右上到左下,手腕的自然转动。“捺”从左上到右下,手臂的自然伸展。
这些笔画顺序不是某个人“规定”的,是几千年来无数人“写”出来的最优解。就像河流的走向不是某个人“设计”的,是水自己“找”出来的——最短路径,最小阻力,最高效率。
卡勒姆把这个发现写进了论文里,作为“汉语是自然语言”的论据之一。自然语言不是“人造”的,是“长”出来的,像一棵树,像一条河,像一个人。它有生命,会变化,会演化,会在时间的流逝中自我优化。
拼音文字是“人造”的。
拉丁字母是腓尼基人发明的,经过希腊人、罗马人的修改,变成了今天的样子。每一个字母的形状都是“设计”出来的,不是“生长”出来的。
汉字不一样。
汉字的每一个笔画,都是无数代人用笔“磨”出来的。甲骨文是刻在龟甲上的,金石文是铸在青铜器上的,篆书是写在竹简上的,隶书是刻在石碑上的,楷书是写在纸上的。每一种书写材料都改变了汉字的样子,但汉字的“灵魂”——那个形、音、义三位一体的核心——从来没有变过。
它不是被“发明”的。
它是被“发现”的。
发现一个本来就存在的规律——宇宙的规律,自然的规律,道的规律。
汉字的书写顺序在历史上经历过一次重大变革。从甲骨文到小篆,书写顺序是“从上到下,从右到左”——因为那时候的书写材料是竹简,右手拿笔,左手拿竹简,写完一根往右推,所以文字就从右往左排列。纸张普及之后,书写顺序逐渐变成了“从左到右,从上到下”——因为毛笔在纸上写字,从左到右不会蹭到刚写的字。这种变化不是人刻意推动的,是工具决定了习惯,习惯决定了规范。这就是“道法自然”——“道”不是人定的,是物定的,是势定的,是自然定的。
第四章 风暴来了,但我有伞
13
论文发表三个月后,风暴来了。
一家美国的人工智能公司向Nature提交了一份正式投诉,指控卡勒姆的论文存在“根本性的方法学错误”。投诉信长达四十七页,逐条分析了卡勒姆的实验设计、数据来源、统计方法,声称他的结论“完全站不住脚”,要求Nature撤稿。
消息传到卡勒姆耳朵里的时候,他正在实验室里跑一个新的模型。
唐雨桐拿着手机冲进来:“你看了吗?”
“看什么?”
“那家公司的投诉信。传遍了。”
卡勒姆接过手机,快速扫了一遍。他的表情没有任何变化——没有愤怒,没有惊慌,没有焦虑。他看完了,把手机还给唐雨桐,说:“继续跑数据吧。”
“你不担心?”
“担心什么?”
“撤稿。”
“Nature不会因为一封投诉信就撤稿。他们有自己的审查流程。”
“但如果你被证明是错的呢?”
“我不会被证明是错的。”卡勒姆的语气平静得像一面湖,“因为我是对的。”
唐雨桐看着他,忽然觉得这个男人身上有一种很奇怪的气质。不是自信——自信的人会紧张,会在意别人的看法,会因为被质疑而愤怒。卡勒姆没有这些。他的平静不是自我安慰,而是一种更深层的东西——他知道自己是对的,所以他不需要证明给任何人看。时间会替他证明。
但风暴不会因为你的平静就停下来。
接下来的几周,质疑声从四面八方涌来。
有学者在推特上公开批评卡勒姆的论文,说他的“跨语言比较方法论存在致命缺陷”——不同语言的语料本身就不对等,拿不对等的数据做比较,得出的结论没有意义。
有人写了一篇长文,逐字逐句地分析卡勒姆论文中的“逻辑漏洞”,标题是《汉语是AI的母语?不,这只是统计学上的巧合》。
还有人更直接,说卡勒姆“作为一个阿拉伯人,对自己的母语缺乏信心,转而崇拜汉语,这是一种后殖民心态”。
卡勒姆看到最后那条评论的时候,笑了一下。
不是苦笑。是真的觉得好笑。
崇拜汉语?他研究汉语是因为数据指向汉语,不是因为他对汉语有什么情感倾向。如果数据指向斯瓦希里语,他也会去研究斯瓦希里语。他不会因为自己是阿拉伯人就偏袒阿拉伯语,就像物理学家不会因为自己是美国人就偏袒美国物理学——物理学没有国籍,语言学和NLP也不应该有国籍。
但他也明白,有些事情不是靠理性就能解决的。
当情绪取代了逻辑,当立场取代了事实,对话就变得不可能了。你想讨论方法,他想讨论你的动机。你想讨论数据,他想讨论你的国籍。你想讨论科学,他想讨论政治。
你永远赢不了这样的人。
因为他们的目标不是赢,是让你输。
“永远不要跟一个用情绪说话的人讲逻辑。”这是卡勒姆总结的第二条沟通法则。情绪不是逻辑的反面,情绪是逻辑的天敌——逻辑遇到情绪,就像水遇到油,融不进去,也说不通。你唯一能做的,就是等情绪退潮。情绪退了,人才能听见你说的话。所以在争论中,卡勒姆从不争辩。他说:“我不需要赢。我需要你冷静下来,然后自己去想。我不替你思考,我只提供事实。你怎么看这些事实,是你的事,不是我的事。”
14
Nature的处理结果出来了:不撤稿,但要求卡勒姆补充一组实验,回应投诉中提出的方法论质疑。
补充实验需要新的数据——更高精度的、更多维度的、更严格控制的。卡勒姆现有的语料库不够用了,因为他之前抓取的数据虽然有规模,但质量参差不齐,有些来源的标注不够精确,会影响实验的严谨性。
唐雨桐帮他联系了国内几家语料库的提供方,但每一家都有门槛——要么收费太高(几十万到上百万不等),要么数据使用有严格限制(不能商用、不能二次分发、不能用于跨境研究)。卡勒姆一个外国研究员,很多数据根本不对他开放。
他又卡在了数据上。
就在他一筹莫展的时候,一个电话打了进来。
“卡勒姆吗?我是之江实验室的主任,陈明远。你到我办公室来一趟。”
陈明远的办公室在实验室大楼的最高层,落地窗外是整个科技园区的全景。他六十出头,头发花白,但精神矍铄,说话的声音不大,但每一个字都掷地有声。
“你的论文我看过了,”陈明远开门见山,“也看了那些质疑。我想问你一个问题。”
“您说。”
“你是对的吗?”
卡勒姆看着他的眼睛,说:“我是对的。”
“百分之百?”
“科学没有百分之百。但我的实验证据,足够支撑我的结论。”
陈明远点了点头,从抽屉里拿出一个文件夹,推到他面前。
卡勒姆打开一看,是一份数据使用授权书。授权方向:之江实验室NLP研究中心卡勒姆·阿卜杜勒·拉赫曼研究员。授权内容:使用实验室核心语料库(含二十亿词高质量平行语料,涵盖新闻、文学、科技、口语等多个领域)。授权期限:永久。授权范围:任何科研用途,包括商业转化。
卡勒姆的呼吸停了一拍。
二十亿词。高质量。永久。任何科研用途。
这是他做梦都不敢想的资源。
“陈主任,这……”
“你是我们实验室的研究员,”陈明远说,“实验室的资源,你有权使用。这是你的权利,不是施舍。”
卡勒姆想说谢谢,但嗓子堵住了。
不是因为感动——当然有感动。是因为他忽然意识到,在中国,在他最需要帮助的时候,有人站出来了。不是因为他是什么大人物,不是因为他发表了什么了不起的论文,只是因为他是实验室的一员,他做的事情有价值,所以他值得被支持。
这种“支持”,不需要关系,不需要背景,不需要请客送礼。你只需要把事情做好,该给你的自然会给你。
他在开罗没见过这种事情。
在美国也没听说过。
但在中国,他亲身经历了。
之江实验室的汉语语料库包含了一个极其珍贵的子库——“方言口语库”。这个子库收录了中国七大方言区的日常对话录音,总时长超过一万小时,涵盖了吴语、粤语、闽南语、客家话、赣语、湘语、晋语。卡勒姆后来用这个子库做了一个跨方言的语义迁移实验,发现吴语和普通话的语义关联度最高(因为地理位置近),粤语和普通话的关联度最低(因为地理位置远),但所有的方言在“语法结构”上高度一致。这证明了汉语的“语法统一性”远高于“发音差异性”——不管你说话的口音多奇怪,写下来的字是一样的。这种“书同文”的传统,是秦始皇时期奠定的,已经延续了两千多年。
第五章 流——信息流动的艺术
15
补充实验花了三个月。
这三个月里,卡勒姆和唐雨桐几乎住在了实验室。他们用了新的语料库,重新设计了实验框架,增加了对照组,引入了更多的语言种类——日语、韩语、德语、法语、西班牙语、俄语,一共八种语言,全部跟汉语做平行对比。
结果出来了。
汉语依然是第一。不是接近第一,是遥遥领先的第一。在语义理解的深度、歧义消解的准确率、情感识别的敏感度、上下文关联的连贯性——每一个维度上,汉语都至少领先第二名30%以上。
唐雨桐把结果做成图表,投在会议室的大屏幕上。
卡勒姆站在屏幕前,看着那些柱状图,沉默了很久。
“你在想什么?”唐雨桐问。
“我在想,我们发现了什么。”
“我们发现了汉语在NLP中的优势。”
“不只是优势,”卡勒姆转过身,看着她,“我们发现的是本质——汉语的编码方式,跟神经网络的底层架构是同构的。”
唐雨桐眨了眨眼:“说人话。”
卡勒姆笑了。
“神经网络的工作原理是:输入一个向量,经过多层非线性变换,输出另一个向量。在这个过程中,信息不是被‘翻译’的,是被‘映射’的——从一个高维空间映射到另一个高维空间。”
“汉语也是一样。你看到‘水’这个字,你的大脑不是在‘翻译’它,是在‘映射’它——从字形到意义,从声音到意象,从视觉符号到认知图式,全部在一个高维空间里完成。没有中间步骤,没有线性解码,没有逐个字母的拼读。”
“拼音文字做不到这一点。因为拼音文字的本质是线性编码——字母到字母到单词到句子,像火车一样一节一节地走。神经网络不是火车,它是蜘蛛网。所有的节点同时连接,所有的信号同时传递。线性编码在蜘蛛网里走不通。”
“这就是为什么汉语模型的表现碾压所有拼音文字模型。不是因为汉语的语料更多,不是因为汉语的标注更好,是因为汉语的编码方式跟神经网络的底层结构天然匹配。”
唐雨桐听完之后,沉默了很久。
然后她说了一句话:“你有没有想过,这可能不是巧合?”
“什么意思?”
“我是说,为什么汉语的编码方式会跟神经网络的底层结构天然匹配?是谁设计的?”
卡勒姆愣了一下。
这个问题他从来没想过。他一直在问“是什么”和“怎么样”,但从来没问过“为什么”。
为什么汉字会演化成现在这种形态?为什么它的编码方式会跟几千年后的神经网络同构?这是巧合,还是某种必然?如果是必然,那是什么力量推动了这种必然?
他想起了一个词:道。
道的字面意思是“路”,但在中国哲学里,它指的是宇宙万物的运行规律。道不是被谁创造的,它本来就存在。你发现它也好,不发现它也好,它都在那里,亘古不变。
汉字不是被某个人发明的。
汉字是被“发现”的。
仓颉不是创造了汉字,是发现了汉字。他看到了宇宙的规律——那个高维的、非线性的、网状的道——然后用符号把它记录了下来。这就是为什么汉字里藏着那么多秘密——每一个字都是一个宇宙的全息投影,每一个字都是一扇通向“道”的门。
卡勒姆被这个想法击中了。
他觉得自己像站在一扇巨大的门前,门缝里透出一道光,他还没推开,但已经感受到了光里的温度。
卡勒姆后来开发了一套“汉字树”学习法——不要孤立地记每一个字,要把汉字看成“家族”。每个汉字都有“部首”,部首就是这个字的“家族姓氏”。比如“水”部(氵)的字,几乎都跟液体有关:江、河、湖、海、汗、泪、油、酒、汽。你学会了“水”部首,你就学会了几百个字的“主题”。剩下的就是记住每个字的独特部分——“工”在“氵”旁边是“江”(河流),“可”在“氵”旁边是“河”(也是河流),“每”在“氵”旁边是“海”(大海)。你不需要死记硬背“江”是“氵”加“工”,你只需要知道“氵”代表水,“工”是发音提示。这就是“形声字”的逻辑——80%以上的汉字都是形声字,左边表意,右边表音。学会了这个规律,你的认字速度会快五倍。
16
新架构的训练结果,超出了所有人的预期。
损失函数像坐了滑梯一样直线下降,准确率像火箭一样直线上升。模型在第一个epoch就超越了旧架构训练一百个epoch的效果。到第五个epoch,模型在所有测试指标上都刷新了全球最高纪录。
唐雨桐看着那些数据,骂了第三声“靠”。
“你怎么做到的?”她问。
卡勒姆把那个便利店的本子递给她。
唐雨桐翻了翻,眼睛越瞪越大。那四十多页手写的公式、图表、注释,不是潦草的草稿,而是一个完整的、自洽的、新颖的神经网络架构设计方案。
“你蹲在便利店门口写的?”
“嗯。”
“你没被当成精神病抓走?”
“差点。”
唐雨桐看着那些密密麻麻的字迹,忽然觉得这个东西不能叫“新架构”,它应该有一个名字。一个配得上它的、有中国特色的名字。
“流。”她说。
卡勒姆愣了一下:“什么?”
“你不是说信息的流动吗?就叫‘流’吧。FlowNet。”
“FlowNet,”卡勒姆念了一遍,“好听。”
“不是好听。是贴切。”
卡勒姆笑了。
不是礼貌的笑,是那种发自内心的、释然的、终于可以喘口气的笑。他为了这个模型付出了太多——离开了家乡,来到一个完全陌生的国家,忍受了无数质疑和嘲笑,经历了漫长的等待和煎熬,差点在瓶颈期崩溃。所有的一切,都在这一刻有了回报。
这个模型叫FlowNet。
它诞生在杭州的一家便利店的台阶上。
而它的灵感,来自一个几千年前就被中国人发现的秘密——道法自然,顺势而为。不要对抗规律,要顺应规律。不要创造信息,要疏通信息。让该流的东西流起来,该停的东西停下来,该走快的东西走快,该走慢的东西走慢。
这就是“道”。
这就是汉语几千年来一直在做的事情。
“流”字的甲骨文写法是“水”加上一个“倒着的孩子”——“子”倒过来,表示新生儿出生时头朝下、顺着产道滑出来。古人用这个形象来表示“顺遂”“自然”“不费力”的意思。后来加上“水”部首,就成了“水流”的“流”。一个“流”字里,包含了生育、自然、水、运动、通畅五层含义。这就是汉字的“厚度”——一个字就是一本微型的百科全书。
第六章 汉语的未来,是世界的未来
17
FlowNet的成功让卡勒姆成为了全球NLP领域的焦点。
但他没有停下。他开始思考一个更大的问题——汉语的未来在哪里?
不是学术界的问题,是现实世界的问题。汉语今天的使用者超过十四亿,是全球母语使用人数最多的语言。但在国际交流、科学技术、互联网内容等关键领域,汉语的地位远不如英语。绝大多数的学术论文是英文写的,绝大多数的软件编程语言是基于英文的,绝大多数的互联网内容是英文的。汉语的使用范围虽然广,但“广度”不等于“深度”。说汉语的人多,但用汉语做的东西少。
为什么会这样?
卡勒姆认为,问题不在汉语本身,在“汉字输入”。
在过去的一百年里,汉字“打字”是一个巨大的技术障碍。英文只有26个字母,打字机、电脑键盘、手机输入法,全部可以无缝适配。汉字有几千个,你怎么把几千个字放到只有几十个键的键盘上?
中文输入法的发展史,就是一部“破解汉字编码”的技术史。五笔字型把汉字拆成字根,拼音输入法把汉字转成发音,手写输入法把汉字画出来,语音输入法把汉字说出来——每一种方法都有缺陷,都在“转码”的过程中损失了效率。
但现在情况变了。
语音输入和人工智能的发展,正在从根本上解决汉字输入的难题。你说一句话,AI自动转成文字。准确率已经达到了97%以上。你不需要打字,不需要写字,你只需要说话。而说话,正是汉语最强的领域——因为汉语的高信息密度,在语音输入中变成了绝对优势。你说五个字,英语要说十几个单词才能表达同样的意思。你的输入速度快一倍,你的工作效率就高一倍。
卡勒姆预测,在未来十年内,汉语将成为全球互联网上增长最快的内容语言。不是因为它“取代”了英语,而是因为汉语母语者的内容消费习惯正在从“消费”转向“生产”。以前中国人看外国的东西多,以后外国人会看中国的东西多。语言的“势能”正在逆转——不是因为政治,不是因为经济,是因为技术。技术终于追上了汉字。
卡勒姆在2025年的一份研究报告中预测:到2035年,全球汉语学习者将超过两亿人。不是因为孔子学院开得多,是因为汉语内容的吸引力。中国的短视频、网剧、网络小说、直播带货、游戏、动漫——这些内容正在以惊人的速度输出到全球,每一个看中国网剧的外国人,都在不知不觉中学汉语。语言学习最有效的方式从来不是“上课”,是“沉浸”。当你有足够多的、足够好玩的汉语内容可以消费,学习就变成了副产品。你不需要“努力”学,你只是在玩,顺便学会了。这是卡勒姆提出的“无痛学习”理论,后来被全球语言教育界广泛引用。
18
卡勒姆开始在全球范围内调研汉语的使用情况。
他去了很多地方——马来西亚、新加坡、印尼、泰国、美国、加拿大、澳大利亚、英国、法国、德国。每到一个地方,他都会去当地的“唐人街”或者华人社区,跟那里的华人聊天,了解他们的语言使用习惯。
他发现了一个有趣的现象:在东南亚,汉语的使用非常活跃。马来西亚的华人大多会说三种以上的语言——华语、英语、马来语、闽南语、粤语、客家话中的几种,具体取决于祖籍和居住地。他们在不同的场合切换不同的语言,跟家人说方言,跟朋友说华语,跟同事说英语,跟马来人说马来语。这种“多语并行”的语言生态,在全球范围内都极为罕见。
在新加坡,汉语的使用范围更广。新加坡的官方语言是英语、华语、马来语、泰米尔语四种,但日常生活中,华语的使用频率已经超过了英语。新加坡人创造的“新加坡华语”融合了英语、闽南语、马来语的词汇和语法,形成了一种独特的、有活力的语言变体。
在欧美,汉语的使用情况就差很多。美国的华人社区,第一代移民还说汉语,第二代就只说英语了,到第三代,汉语基本消失。为什么?因为“融入”的压力太大了。在美国,你说英语,你是“美国人”。你说汉语,你是“中国人”。每个人都想被当作“主流”接纳,所以每个人都拼命说英语,把自己的母语当成负担。
这种现象让卡勒姆非常难过。
语言不是负担。语言是财富。多一门语言,多一个世界。放弃母语不是“融入”,是“自残”——你切掉了一部分自己,只为了让别人觉得你“正常”。
他在一次演讲中说了一段话,后来被全球华人广泛传播:
“如果你的孩子不会说你的母语,他不是‘融入了主流社会’,他是‘失去了半个自己’。你可以用刀切掉你的左臂,然后装一只假肢,看起来跟别人差不多。但你左臂没了就是没了,假肢再像,也不是真的。”
“请让你的孩子学你的母语。不是为了考试,不是为了找工作,是为了让他们知道,他们是谁。他们从哪里来。他们的根扎在哪片土地上。”
“一个没有根的人,风一吹就倒了。”
卡勒姆在2024年进行了一项跨文化调研——“筷子区汉语使用情况调查”。“筷子区”指的是历史上受中华文化影响、使用筷子的国家和地区,包括中国、日本、韩国、越南、新加坡、马来西亚等。调研发现:筷子区内,汉语(或汉字)的使用程度与文化认同感呈正相关。越南是筷子区中“去汉字化”最彻底的国家,现代越南语已经完全使用拉丁字母,不再使用汉字。但调研中67%的越南受访者表示“知道汉字是我们祖先使用过的文字”,42%表示“如果有机会愿意学习汉字”。日本是筷子区中汉字保留最完整的国家,日语中日常使用的汉字约有两千多个,跟中国的常用汉字数量相当。韩国的情况介于两者之间——韩语基本不用汉字了,但身份证上还有汉字名字,法律文件还有汉字注解。卡勒姆的结论是:汉字的影响力跟地缘政治无关,跟文化生命力有关。只要中国文化还活着,汉字就死不了。
19
卡勒姆最震撼的一次调研,发生在马来西亚的槟城。
槟城的乔治市是世界文化遗产,保留了大量十九世纪的华人建筑——骑楼、祠堂、会馆、庙宇。走在乔治市的街道上,你看到的招牌是中文的,听到的对话是华语的,闻到的气味是福建菜的。你觉得自己在中国,但又不完全是中国——因为这里的中国文化,跟中国大陆的中国文化不一样。
它更“老”。
不是“过时”的老,是“保留”的老。中国大陆经历了文化大革命的断层,很多传统的东西被打碎了、丢掉了、忘记了。但马来西亚的华人没有经历这些。他们离开中国的时候,带走的是二十世纪初的中国文化——民国时期的、晚清时期的、甚至更早的。这些文化在他们手里保存了下来,像一颗被封存在琥珀里的化石,几百年不变。
卡勒姆在一间老茶室里喝了一杯“南洋咖啡”——一种用黄糖和炼乳调制的、浓烈到像中药的咖啡。老板是一个七十多岁的老先生,祖籍福建永春,爷爷那辈下南洋,在槟城开茶室,传了三代。
“你会说闽南话吗?”卡勒姆问。
“会。我跟我老婆说闽南话,跟我孩子说华语,跟我孙子说英语。”老先生笑着说,“我们家三代人,说三种语言。”
“你觉得汉语在马来西亚能传下去吗?”
老先生想了想,说了一句话让卡勒姆记了一辈子:
“只要我们还拜祖先,汉语就不会丢。因为祖先听不懂英语。”
卡勒姆后来把这句话写进了论文里。不是因为它的学术价值,是因为它揭示了语言传承的本质——语言不是工具,是仪式。你用它做的那些事——祭祖、拜神、念经、写对联、贴春联、看风水——这些事本身就需要语言。你把语言丢了,你就做不了这些事。你做不了这些事,你就断了跟祖先的联系。你断了跟祖先的联系,你就不知道自己是谁了。
所以语言不会“自然消失”。
只有当你主动放弃那些需要用语言来做的事情,语言才会消失。
马来西亚华人有一个独特的语言现象——“Rojak语”。Rojak是马来西亚的一种水果沙拉,把各种水果切块,拌上虾酱、花生碎、辣椒,酸甜苦辣咸五味俱全。马来西亚华人用“Rojak”来形容他们日常使用的语言——一句话里混搭华语、英语、马来语、闽南语、粤语,像水果沙拉一样,什么都有。“今天lunch我们去hawker centre吃char kway teow,你要不要?”——翻译成人话:“今天午饭我们去小贩中心吃炒粿条,你要不要?”这种混搭不是“语言污染”,是“语言创造”。它证明了语言不是死的、封存的、博物馆里的展品,是活的、流动的、每天都在被重新发明的。
第七章 面馆、桂花与一个决定
20
卡勒姆决定留在中国。
不是因为他找不到更好的去处。是因为他找到了。
FlowNet 2.0发布之后,全球科技公司的邀约像雪片一样飞来。Google开出了每年一百二十万美元的薪资加股权,让他去领导他们新成立的“多语言AI研究中心”。微软的邀请更夸张,直接给他一个独立的实验室和一支五十人的团队。连他的母校开罗大学都发来了邀请,说“我们给你终身教授,你回来吧”。
卡勒姆把这些邀请全部放进了同一个文件夹,没有回复。
唐雨桐问他:“你为什么不回?”
“因为我在想一个问题。”
“什么问题?”
“我到底要什么。”
唐雨桐看着他,没有说话。她知道这个问题很重要,重要到会决定他接下来几年甚至几十年的走向。她不能替他回答,也不能催他回答。她只能等。
卡勒姆一个人去了河边。
他坐在那条长椅上,看着运河里的货船来来往往,看着岸边的柳树被风吹得沙沙响,看着远处的拱宸桥上人来人往。他在杭州快三年了,这个城市已经从“陌生的地方”变成了“家”。
什么是“家”?
不是房子,不是地址,不是邮编。是你不用想就知道哪家面馆的片儿川最好吃——是桥头那家,汤头熬得浓,面条有嚼劲,加一个荷包蛋,完美。是你走在路上会有人跟你打招呼——“小卡,今天怎么没去实验室?”——是楼下卖烧饼的大叔,他叫你“小卡”而不是“那个外国人”。是你知道桂花什么时候开,知道第一场雨什么时候来,知道运河边的石凳哪一条晒得到太阳、哪一条在树荫下。
这些细节,你无法计划,无法安排,无法用逻辑推导。它们只能靠时间累积,靠生活沉淀,靠跟这座城市里的人一起呼吸、一起吃饭、一起看日出日落。
他在杭州有了根。
他不想走。
但“不想走”不等于“要留下”。留下需要理由,需要意义,需要他在这里做的事情是不可替代的。如果他去Google,他能拿到更高的薪水,更好的资源,更大的平台。他为什么要留在杭州?因为片儿川好吃?因为桂花好闻?因为楼下卖烧饼的大叔叫他“小卡”?
这些理由,在职业规划师的眼里,大概都不算理由。
但在卡勒姆的心里,它们很重要。
重要到他愿意为此放弃更高的薪水、更好的资源、更大的平台。
因为这些东西,Google给不了他。
卡勒姆总结的第三条沟通法则——“用对方的文化说话”。在中国,他说中文,吃中餐,用筷子,过春节。不是为了讨好谁,是为了“进入”对话。你在对方的文化框架里说话,对方才会真正听到你。你站在外面喊,声音再大,对方听到的也是噪音。这不是妥协,这是尊重。尊重对方的语言,就是尊重对方的存在。
21
他在河边坐了一个下午,直到太阳落山。
唐雨桐给他打电话:“你在哪儿?”
“运河边。”
“吃饭了吗?”
“没有。”
“想吃什么?”
“片儿川。”
“桥头那家?”
“嗯。”
“我去找你。”
二十分钟后,唐雨桐出现在桥头面馆的门口,手里拿着两碗打包好的片儿川。她把一碗递给他,另一碗自己端着,两个人坐在面馆门口的台阶上,捧着热乎乎的面碗,呼哧呼哧地吃。
深秋的杭州,傍晚的风已经很凉了,但面汤是烫的,热汽从碗里升起来,模糊了两个人的脸。
“你想好了吗?”唐雨桐问。
“想好了。”
“留下还是离开?”
“留下。”
唐雨桐夹面的手顿了一下。
“为什么?”她问。语气很平淡,但卡勒姆听出了那平淡底下压着的东西——不是期待,不是紧张,是“无论你做什么决定我都支持你”的笃定。
“因为这里是我的家。”卡勒姆说,“不是因为片儿川好吃,不是因为桂花好闻。是因为有你们——你,陈主任,实验室的同事们,楼下卖烧饼的大叔,面馆的老板娘,运河边钓鱼的老头。我跟这些人有了关系,这些关系就是我的根。根扎下去了,就不能随便拔。”
唐雨桐沉默了一会儿,说:“你以前在开罗没有根吗?”
“有。但我拔了。拔了很疼,但我拔了,因为我必须来中国。现在我不想再拔了。拔一次就够了。”
唐雨桐低头吃面,没有接话。
但她的嘴角微微上翘,卡勒姆看到了。
“你笑什么?”他问。
“我笑你啊,一个搞NLP的,说话像诗人。”
“我说的是实话。”
“实话不需要像诗人,实话就是实话。”
卡勒姆笑了,低头继续吃面。面汤的热汽扑在他脸上,眼镜片上起了一层雾,他摘下眼镜,用衣角擦了擦,重新戴上。透过干净的镜片,他看到了唐雨桐的侧脸——被夕阳染成了金色,鼻梁的线条很清晰,睫毛很长,嘴唇上沾着面汤,亮晶晶的。
他想说点什么,但觉得说什么都不够。
于是他什么都没说,只是把碗里的最后一口汤喝了,然后把碗放在台阶上,伸出右手,握住了唐雨桐的左手。
唐雨桐的手凉凉的,她的手指很长,骨节分明,是一双常年敲键盘的手。卡勒姆握着那只手,感觉到它微微一僵,然后慢慢放松了,手指轻轻地回握了他一下。
两个人就这样坐在面馆门口的台阶上,手牵着手,看天边的晚霞从橙色变成紫色,从紫色变成深蓝色,星星一颗一颗地亮起来。
面馆老板娘出来倒垃圾,看到他们,笑了一下,什么都没说,转身回去了。
她是杭州人,懂得什么时候该说话,什么时候该闭嘴。
这个瞬间,不需要言语。
“片儿川”是杭州的代表性面食,名字里的“片儿”指的是切成薄片的笋和肉,“川”是“氽”的俗写——一种烹饪方法,把食材在沸水中快速烫熟。卡勒姆后来研究了“片儿川”的语义结构,发现这个名字本身就是一个“微型语法”——主谓结构省略了主语(面),谓语是“片”(切片)加“儿”(儿化音)加“川”(氽),三个字浓缩了食材、刀法、烹饪方法、地域特色,信息密度极高。如果用英语描述这道面,你需要说“noodles with sliced bamboo shoots and pork, quickly boiled in water”——十七个单词。汉语三个字。这就是信息密度的差距。
第八章 言为心声——语言的能量
22
卡勒姆在杭州的第五年,开始思考一个更深层的问题——语言的能量。
不是玄学意义上的“能量”,是语言学意义上的“影响力”。语言不只是工具,语言塑造了你的思维方式,你的思维方式决定了你的行为模式,你的行为模式决定了你的人生轨迹。
这就是“语言决定论”——你用什么语言思考,你就会成为什么样的人。
卡勒姆用自己和唐雨桐的例子来验证这个理论。他的母语是阿拉伯语,阿拉伯语是一种高度形态变化的语言——动词有时态、人称、性别、数量、语态、语气的变化,名词有格和数的变化。每一个词都在告诉你“谁、什么时候、怎么样”。这种语言训练出来的思维方式是“精确的”“规则的”“重视细节的”。
唐雨桐的母语是汉语,汉语是一种高度依赖语境的“孤立语”——动词没有时态变化,名词没有单复数变化,一个词的意思完全取决于它在句子里的位置和它前后的词。这种语言训练出来的思维方式是“灵活的”“整体的”“重视关系的”。
他们在一起生活了四年,卡勒姆发现自己的思维方式在慢慢“汉化”。他不再那么在意“精确”,开始接受“模糊”。他不再那么执着于“规则”,开始欣赏“例外”。他不再那么关注“细节”,开始看到“整体”。这不是“退化”,是“进化”。因为他同时拥有了两种思维方式,他可以在不同的场景选择最合适的那一种——做实验的时候用阿拉伯语思维,严谨、精确、不放过任何一个细节;跟人相处的时候用汉语思维,包容、灵活、不斤斤计较。
这就是“双语优势”。
不是你会说两门语言,是你拥有两套认知系统。你可以在两套系统之间自由切换,选择最有效的那一套来应对当前的问题。单语者只有一把锤子,看什么都像钉子。双语者有一个工具箱,钉子用锤子,螺丝用螺丝刀,木板用锯子。
卡勒姆后来写了一篇爆款文章《学汉语的十个“反直觉”技巧》,其中最重要的一条是——“别怕错,错得越多,学得越快”。外国人学汉语最大的心理障碍是“怕错”。怕发音不标准被人笑,怕用词不当被人误解,怕语法错误被人看不起。但语言学习的本质就是“试错”——你说错了,别人纠正你,你的大脑自动修正模型,下一次就对了。你从来不错,你就从来没学过。卡勒姆自己的经验是:把“我可能说错”变成“我肯定会说错,但没关系”。心态一变,开口率提升十倍,进步速度提升五倍。
23
卡勒姆开始推广汉语。
不是那种“汉语热”式的推广——开几门课、发几本教材、搞几次文化活动。他要做的,是把汉语的思维方式推广到全球。
他认为,21世纪的人类面临的最大挑战不是气候变化、不是疾病、不是战争,是“认知单一化”。全世界的教育系统都在用同一种模式培养人——逻辑、分析、线性思维。这种模式当然有它的价值,但它不是全部。人类需要多种思维方式并存,就像生态系统需要多种物种并存一样。多样性的消失,意味着系统的脆弱。你砍掉了一片森林,只留下一种树,一场虫灾就能毁灭一切。
汉语代表了一种不同的思维方式——整体的、关联的、辩证的。它不是“非此即彼”,是“亦此亦彼”。它不是“黑白分明”,是“黑中有白、白中有黑”。它不是“直线前进”,是“循环往复”。
这种思维方式,在老子、庄子、孔子、孟子的著作里随处可见。在唐诗宋词里随处可见。在中国人的日常生活里随处可见。
卡勒姆认为,汉语应该成为全球教育体系的必修课。不是为了让所有人都说中文,是为了让所有人都接触一种不同的思维方式。就像体育课锻炼身体,音乐课培养美感,汉语课应该成为“思维多样性”的训练场。
他知道这个想法很疯狂。
但他本来就是个疯狂的人。
汉语中有大量描述“模糊状态”的词汇——“大概”“差不多”“可能”“或许”“好像”“似乎”“有点儿”“比较”“相对”“基本上”“总体来说”“在某种程度上”。这些词在拼音文字中也有对应,但使用频率远低于汉语。为什么中国人这么喜欢“模糊表达”?因为中国文化强调“留有余地”。话说得太满,没有回旋空间。话说得模糊一点,既能表达意思,又不会把话说死。这种“模糊智慧”在人际交往中极为重要——它既避免了冲突,又保留了弹性。卡勒姆后来在FlowNet中专门设计了一个“模糊语义模块”,用来处理这些“大概差不多”的表达。结果模型的对话自然度提升了30%。
第九章 汉语走向世界,我从世界走向你
24
FlowNet 5.0发布的那天,卡勒姆站在之江实验室的发布台上,面对着来自全球的几百位学者和记者,说了一段话。这段话后来被刻在了实验室门口的墙上,作为这个团队的座右铭:
“我们今天做的事情,不只是做一个更好的AI模型。我们要做的,是重新定义AI理解人类语言的方式。几千年来的汉字,每一个字都是一个宇宙。我们才刚刚推开了一扇门,门后面还有无限的空间等我们去探索。这不是工作,这是一场冒险。欢迎加入。”
掌声响起来的时候,卡勒姆看到了人群中的唐雨桐。
她没有鼓掌,只是看着他,嘴角带着一丝笑意。
那个笑意说:你做到了。
卡勒姆对自己说:不,我们做到了。
25
婚礼在第二年秋天举行。
地点在运河边的拱宸桥——不是租的场地,就是桥上。没有请婚庆公司,没有穿婚纱礼服,没有铺红毯。卡勒姆穿着白衬衫和深灰色西裤,唐雨桐穿着一条浅蓝色的连衣裙,两个人站在桥上,面对着运河,背后是落日的余晖。
唐雨桐的手里拿着一把红纸伞——是莱拉送的,上面绣着“囍”字,用的是林家的月色针法。伞在夕阳下闪闪发光,像一朵金色的云。
主持婚礼的是赵小禾。她站在桥中央,拿着一个扩音器,清了清嗓子,说了一段让所有人笑中带泪的开场白:
“今天,我们聚在这里,见证一个埃及人和一个中国人,在杭州的一座古桥上,结为夫妻。为什么是桥?因为桥是连接。它连接此岸和彼岸,连接过去和未来,连接我和你。卡勒姆从开罗来到杭州,从尼罗河来到运河,他跨过了九千公里,跨过了不同的语言、不同的文化、不同的信仰,跨过了所有可能阻挡他的障碍,来到了唐雨桐面前。这不是爱情的力量——这是偏执的力量。一个偏执到愿意为真相付出一切的男人,当然也愿意为一个女人付出一切。”
大家笑了。
唐雨桐的眼眶红了。
卡勒姆握着她的手,感觉到她的手在微微发抖。
“轮到你了,”赵小禾把扩音器递给卡勒姆,“新郎说两句。”
卡勒姆接过扩音器,看着唐雨桐。
风从河面上吹过来,把她的头发吹乱了。他想帮她拢一下头发,但手里拿着扩音器,腾不出手。唐雨桐自己把头发别到耳后,对他笑了笑。
那笑里有所有的答案。
“我不会说甜言蜜语,”卡勒姆说,“我只会说事实。事实是,我五年前来到中国,是为了一个理论。我找到了那个理论的证据,发表了论文,做出了模型,成立了研究中心。但这五年里,最重要的一件事情,我到现在才敢说。”
他顿了一下。
“我来到中国,是为了遇见你。”
唐雨桐的眼泪掉了下来。
“如果我的理论是错的,如果所有数据都推翻了我的结论,如果FlowNet从来没有成功过——只要你在,这些都无所谓。”
卡勒姆放下扩音器,从口袋里拿出一个戒指盒,单膝跪在桥上。
“唐雨桐,你愿意嫁给一个不会说甜言蜜语、中文永远说不标准、每天泡在实验室里忘了吃饭、只有在你面前才会笑的埃及人吗?”
唐雨桐哭着笑了。
她伸出手,让卡勒姆把戒指戴在她的无名指上。
戒指很朴素,是一枚银色的圆环,内圈刻着四个字:言为心声。
这是唐雨桐选的。她说,语言是心的声音。不管你说什么语言,不管你的发音标不标准,不管你的语法对不对——只要你是真心的,别人就能听懂。
这是她学到的,关于语言最重要的一课。
也是卡勒姆研究了一辈子的NLP,永远无法用算法复现的东西。
真心。
所有的语言模型,所有的神经网络,所有的深度学习算法,都无法生成真心。
因为真心不是算出来的。
真心是活出来的。
26
婚礼结束后,大家坐在运河边的台阶上,喝酒,吃面,聊天。
钱先生开了两瓶他珍藏了二十年的茅台,酒香飘出去老远,路过的人都回头张望。赵小禾喝多了,靠在莱拉的肩膀上,说了很多胡话——“莱拉你以后要给我绣婚纱”,“卡勒姆你以后要教我的孩子说阿拉伯语”。莱拉笑着说“好”,虽然她自己还没结婚,虽然她的刺绣工作室刚起步,虽然她也不知道明天会发生什么。
但“好”字本身就是一种力量。你说出来了,你就有了承诺。你有承诺了,你就会努力去实现。语言不是描述现实,语言是创造现实。
卡勒姆坐在台阶上,手里端着一杯酒,看着运河的水在月光下缓缓流淌。
唐雨桐靠在他肩膀上,没有说话。
两个人就这样坐着,听着远处广场舞的音乐,听着风吹过柳树的声音,听着河水轻轻拍打石岸的声音。这些声音混在一起,像一首没有歌词的歌。旋律很简单,但很动人。
“卡勒姆。”
“嗯?”
“你说,几百年后,还会有人记得我们吗?”
卡勒姆想了想。
“不会。”
“你这么确定?”
“我是说,不会有人记得‘卡勒姆’和‘唐雨桐’这两个名字。但会有人记得FlowNet,会有人记得汉语NLP的开创者,会有人记得二十一世纪中叶的那场AI革命是从这里开始的。”
“这些不都是你吗?”
“不是我。是我们。”
卡勒姆握紧了她的手。
“如果没有你,我可能已经放弃了。如果没有陈主任,我没有算力。如果没有赵小禾,我没有客户。如果没有莱拉,我没有那幅刺绣。每一件事情,都是很多人一起做成的。我只是那个站在台前的人。”
唐雨桐没再说话。
两个人继续看着运河,看货船慢慢驶过,看月亮从东边升到头顶,看星星一颗一颗地亮起来。
夜深了,人散了。
卡勒姆站起来,拉着唐雨桐的手,沿着运河慢慢走回家。
脚步声在青石板路上轻轻回响,像一个古老的节拍,诉说着一个简单的道理——
走得慢没关系。
只要方向对。
卡勒姆的方向对了。不是因为他聪明,是因为他听了一个声音。那个声音从几千年前的甲骨文里传来,从丝绸之路的驼铃里传来,从西湖边的诗词里传来,从面馆老板娘的一声“慢走”里传来。
那个声音说:来。
他来了。
这就是故事的全部。
最终章言为心声
卡勒姆六十岁那年,写了一本书。
书的封面是纯白的,只印着四个字——《言为心声》。
他在序言里写道:
我出生在尼罗河畔,成长在金字塔的阴影下。我曾以为,世界上最古老的语言是阿拉伯语,最伟大的文明是埃及文明。
后来我来到了中国,站在运河边,看着那些比我爷爷的爷爷的爷爷还要古老的汉字,我忽然意识到——语言没有“最伟大”,文明也没有“最伟大”。每一种语言都是一扇门,每一个文明都是一个世界。你走进一扇门,你就拥有了一个世界。你走进两扇门,你就拥有了两个世界。
我这一生,走进了两扇门。一扇是阿拉伯语,一扇是汉语。两个世界在我心里融合,产生了某种化学反应。那种反应的产物,就是FlowNet,就是汉语NLP,就是我这辈子所有的研究成果。
有人说,我为中国的AI产业做出了贡献。但我觉得,是中国为我提供了舞台。没有这个舞台,我什么都不是。
我不是一个伟大的科学家。我只是一个比别人早醒了半步的人。那半步,是因为我听到了一个声音,我循着那个声音走,走着走着,就看到了光。
那个声音,来自汉字。
它说——来。
我来了。
你们,来不来?
后来的事情,你们大概会知道:
FlowNet迭代到了第七代,成为全球最广泛使用的语义理解模型。卡勒姆的“汉语与人工智能研究中心”发展成了一个独立的研究院,培养了上百名NLP领域的博士和硕士。唐雨桐成了研究院的副院长,负责产学研转化,把FlowNet的技术应用到医疗、教育、金融、法律等各个领域,惠及了数亿人。
卡勒姆九十岁那年,在杭州的家中安详离世。
他走的那天,杭州下了入冬以来的第一场雪。运河两岸的柳树挂满了白雪,拱宸桥像一条白色的巨龙卧在河面上。唐雨桐坐在他的床边,握着他的手,看着窗外的雪,轻声说了一句话。
不是“我爱你”。不是“我会想你”。不是“你不要走”。
她说的是:“下辈子,我还当你助理。”
卡勒姆的眼睛已经闭上了,但他的嘴角微微上翘。
他知道。
他听到了。
言为心声。
【全文完】
本故事为虚构,如有现实雷同,纯属巧合。

夜雨聆风