AI化是当今的热点,但中国古代文本的AI化道路虽然明确,路程却相当遥远。
所谓中国古代文本的AI化,就是用大量古籍资料去投喂(训练)语言AI大模型。这里的训练,主要是指AI“读懂”了文本,并将其“内化”。但这里存在两个问题:一、你怎么保证AI能读懂古代这些字的字音、字意都已经发生变化的文本?二、你怎么解决不同版本出现的异文?
类似的涉及校勘学、训诂学的问题很多。总之一句话,AI要完成它的任务,不掌握乾嘉汉学的全部方法和成果,是不可能实现古代文本世界的通达的。而AI要实现这一目标,首先需要AI的设计者掌握乾嘉汉学。而要全景式地掌握乾嘉汉学,首先要学习乾嘉汉学学术史。否则,古文世界的AI化永远是大幅度落后于白话世界的。
而当今AI之所以能对一部分古文已经“了解”,是因为“抄了近路”。现当代的释古著作、研究论文、古代书籍的电子化,以及互联网的相关网站内容,使AI具有识别古籍的基本功能,但AI尚不具有原创能力,也不具有直接阅读清代学者著作的能力,因为更大量的古籍并没有电子化并呈给AI看。即使做到这一步,AI仍然需要有自己的判断,而不是一个搬书虫,即在面对古代一字有不同含义,一段记录有不同异文的时候。戴震说有三难:淹博难,识断难,精审难。AI对古籍的阅读虽然取得了很大的成绩,仍然还有漫长的道路要走。
清代学者总人数估计在2000人以上,相关治经、治史著作,含稿本估计在万种以上(清代著述总共二十二万种以上)。AI要真正通古学,乾嘉汉学是必经之路。
回顾西方,AI以计算机为基础,计算机以计算机语言为基础,计算机语言以现代逻辑为基础,现代逻辑以人工语言学派(弗雷格、维特根斯坦、罗素)的成果为基础。反观中国,必然也遵循这一路径,而语言哲学则非乾嘉“语文学”莫属。
2026年5月23日
夜雨聆风