AI来了,史学怎么办?
包伟民
(浙大城市学院 浙江历史研究中心,浙江 杭州310015)
AI(Artificial Intelligence,人工智能)大模型是当今时代具有里程碑意义的突破性成就,汇聚了迄今为止人类文明发展的精华。它对人类社会的影响将是全方位的。史学作为一门研究以往人类社会的学问,想要置身于其影响之外,既不应该,又不可能。史无定法,全面吸纳,将其引为自己最新的研究方法,自是题中应有之义。此所谓“预流”。问题在于,我们应该怎样更好地来预这个“流”呢?已有学者从历史学本位出发,在学理层面分析了AI大模型的特点。[1]利用AI大模型,试探性地讨论具体史学个案的论文,也有所刊布。[2]不过,AI大模型对历史学的影响仍处于初期阶段,可供归纳的案例有限,而且技术发展之迅速,使人难以把握其最终走向,下文根据既有经验,立足于具体操作层面,就AI大潮对史学研究工作可能造成的影响,略谈一些预估性看法。
一、数字技术影响史学的三个波次
大体讲,近三四十年来,数字技术对史学影响比较集聚的有三个波次。第一波次是在20世纪90年代初期的“换笔”,即从先前一字一划地在纸张上执笔书写,换成敲击键盘将文字“写”到电脑屏幕上去。文史学者群体“换笔”的过程持续颇久,这与当时的计算机技术与改革开放之初社会经济两方面的发展水平都有关系。例如当时最主要的汉字输入五笔字型法,须背诵复杂的字根,就让许多人感到畏难。个人计算机字库所包含的汉字总数有限的问题,也在相当长时间里未能得到解决,影响了文史学界对它的应用。不过大多数学者对新技术是开怀拥抱、积极投入的。一些前辈学者为了“驯服”计算机键盘,付出了很大的努力。
尽管第一波次的影响可能不及后来的两次那么强烈,但也很深入。至少就笔者的个人体验而言,写作习惯就有相当大的调整,有时甚至影响到思路的表达,工作效率则是明显提高。笔者当年撰写博士论文,每修改一次,就至少再花半个月时间誊录,除身体辛劳之外,还使得本来就不充裕的写作时间更加紧张,至今对当时焦虑的心情记忆犹新。总之“换笔”使我们摆脱手工操作,开始走向机器时代,迈出了划时代的一步。
第二波次是大约从20世纪90年代末开始持续推进的全文数据库的应用,具有代表性的事件无疑是香港迪志文化出版有限公司在1999年推出的文渊阁《四库全书》全文检索数据库,北京爱如生数字化技术研究中心开发制作,并于2005年出版的《中国基本古籍库》,以及由国家有关部门大力推进,并从1999年开始建设的中国知网数据库。后者在囊括学术史资料方面为文史研究工作提供了极大的方便。全文数据库的大规模应用极大地方便了学者搜集历史资料的工作,尤其是对于新一代研究者来说更是如此。中国文史学界一向以记诵能力之强弱,作为衡量学术水平的一个重要标准,所谓博闻强识、博学多识必须具备这方面的能力。现在有了全文数据库的加持,即便是初学者也可以比较轻松地做到广征博引,一些相当罕见的历史文献常常出现在硕士、博士学位论文的参考文献目录中。后来人们在全文数据库应用的基础之上,提出了所谓的数字人文的概念——通过综合分析与运用数据,来帮助史学研究工作,具体包括文本挖掘、数据可视化等方面内容。不过对于绝大多数史学从业人员而言,仍以全文检索所提供的帮助最为直接,研究工作的面貌也因此大为改观。至少就研究文献之极大丰富与资料索寻之易得这两方面而言,其对研究工作的推动作用是前所未有的。
新技术的影响总不免是复杂的。一个经常被批评者指摘的负面影响,是使不少学者和年轻学子们的阅读习惯产生了结构性的变化,从对文献全篇的整体性阅读,变成了根据检索所得结果的片断性阅读,对文献整体寓意的理解常常存在隔阂,以致形成了一种被调侃为“检索体”的文体,看起来洋洋洒洒,实际上言不及义。这种从阅读习惯出发进而影响知识结构的碎片化现象,具有一定的普遍性,目前还看不到有改善的趋势。
第三波次是近两三年兴起的人工智能大模型。如果说前两个波次的影响比较明确地局限于技术层面,不可能“侵犯”到史学家的主体性,那么第三波次的AI大模型看来就有些不一样,它似乎已有了某种自主的思维能力,准备来抢史学家的饭碗。
二、推运史学AI大模型建设的两个方向
AI来了,史学该怎么办呢?想要回答这一问题,首先应该对AI影响力的边界有一个基本判断——AI大模型研究正在迅速推进,它的一些发展前景还不容易被清晰勾勒,在目前阶段我们只能从史学本位的立场出发,试探性地提出一些预判。
从目前学界提供的应用案例看来,第二波次全文数据库的应用,主要是关键词的检索与统计,再加一些浅层的分析应用。而在第三波次之下,国内外一些AI大模型的功能则完全超越了字符串对应的局限,无论是海外的ChatGPT、OpenAI,还是国内的元宝、DeepSeek、豆包、文心一言等,都具有按照设定的主题,根据一定语言逻辑,从包括文字、图像以及其他相关内容的海量数据中搜寻并归纳信息,最后符合逻辑地连缀成文,给出“答案”的功能——有时为了形成逻辑闭环,它还会产生所谓“AI幻觉”,即杜撰出一些子虚乌有的文献内容掺入其中,以使“答案”文本更为完整。它们似乎已经不仅仅是能够帮助研究者翻检文本的工具,而是具有一定的“思考”能力。正如范丁梁所指出的:“数字人文用于处理历史资料的技术基本上是语法工作,其对特定字符串和信息类型的寻找,就是对符号形式的识别,而人工智能恰恰能够呈现对语义——内容和观点——的表达。”[3] 计算机运作的基础是算法——对数据的分解、抽象与模式化,将大语言模型所囊括的文本分解成一个个基本的词元,再根据推理训练,经过对词元合理的概率统计,输出结果模型——形成文本。总之AI大语言模型应用是一个统计性而非认知性的过程。历史文本(包括文献性与非文献性)与历史事实之间的隔阂、多寡失衡、表达深浅,以及对历史场景的平面化投射等等,也都会被“照搬”到大模型输出的结果之中。这也是为什么不少学者称AI大模型为“高级复读机”的重要原因。尽管如此,相较于前两个波次而言,AI大模型显然具有了某种近似的高阶思维能力。
如果这样的理解大致无误的话,那么对于史学领域的应用而言,我们或者应该希冀业界在史学AI大模型建设中——如果可以这样指称的话,应在数据库与语言逻辑两方面加大投入,以便能够切实地帮助史学的研究工作。目前开放应用的一些AI大模型,主要利用开放式网络数据库来抓取信息,具有公众性与现代性的知识特征,对于史学专业性研究来说,其存在的不足比较明确。李宗翰、柳立言就认为DeepSeek利用公开的二手资料,“明显包含太多可疑的信息”,“DS不能利用各大全文数据库和工具书数据库等,是它的致命伤”。[4]以笔者熟悉的中国古代历史研究领域而言,近二三十年来,经过多方面的努力,海量的古代历史文献资料已经被数字化,建起了多种数据库。以知网为代表的学术数据库,更是差不多已将国内学术刊物囊括无遗,如果将它们引入AI模型,加以模型分析,应该不会存在太多困难。真正的障碍应该存在于不同数据库背后的资本运作,如何照顾到不同方面的商业利益与学术公益性的需要,以使那些大型数据库具有推进技术的动力,才是目前需要解决的问题。如何将所有的学术专著数据化,使自近代学术建立以来的所有研究成果都可以被数据化地利用,依然任重道远。
同样重要的还有语言逻辑。至少就中国古代历史研究领域而言,所利用的历史文献资料主要用古代汉语语法书写而成,古汉语语法规则与现代汉语有一定差异,而且在不同历史时期前后有所演进,按照现代汉语的语言逻辑建立起来的AI大模型,处理古汉语语料,虽在多数情况下具有相当的共通性,但毕竟存在隔阂,以致可能曲解某些重要信息。如何按一定规律将其与现代汉语语言逻辑对应起来,这就需要数码技术人员与古汉语专业人员联手,对不同历史时期的文本资料建构起不同的语言逻辑模型,才能使AI大模型能更准确地理解历史资料。其中有一些特殊的资料,例如元代不顾语法、采用汉语白话词语对当时的蒙文进行逐字逐句直译的硬译公牍,差异就会更明显,工作难度也会更大一些。不过可以确信的是,除了大量甲骨文仍无法识读外,对大多数历史文献而言,如同上面谈到的一样,处理古汉语逻辑的主要困难并不在于技术层面,而在于是否会有资本对这种并无商业利润可言的数据对象给予必要的投入。不过在这一方面,待以时日,或许可以期待公益性以及政策性投入的陆续跟进,对此笔者倒是比较乐观。相对而言,古代汉语语言逻辑在技术上的挑战相对容易应对。
三、AI大模型与历史认识之间的关系
那么,当数据与语言逻辑等各方面条件基本具备之后,AI大模型究竟能够在多大程度上帮助历史学家来“研究”历史?它与真正史学家之间的分界线可能在哪儿?根据目前有限的理解,有一点看来是相对明确的,那就是AI大模型对语料库的阅读是平面化的,“大语言模型既无法体察研究对象背后的主观意图,更无法理解思想的历史渊源和发展脉络,也难以通过算法体现非理性因素”。[5]它不可能“移情”于历史研究对象,使自己的阅读呈现某种人文性,更不可能形成历史意识。据此,本文再就两方面的情况稍作具体的解释。
其一依然是笔者以前在一篇小文中已经提出的困惑:“当文本未能在字面上直接反映历史信息时,我们该怎么办?”[6] 作为可见可感的表层结构,文本是外观的,也是有限的,在一系列词元串联而成的外观之下,从每一个词元到整个段落,都可能蕴含着多重的寓意,这就是文字背后的信息。AI大模型通过对相关文本的比较联系,估计能够释读出一些相对简单的背后信息。例如,宋代范仲淹表字希文,这两个字符串指的是同一个人,将包含这样不同词元的文本相互联系起来,作出归纳释读,大概不会有大问题,尽管这里仍然存在为什么一称姓名,另一称表字的差别需要考虑;不过如果另外有一个远不如范仲淹那么著名的历史人物,也以希文为字号,释读起来(即将两者联系起来)就更困难一些。有些隐匿于背后的底层信息与文本之间的关系,本来就需要史学家经过多方考证才能够大致揭示,估计AI就难以应对了。从个别概念的借用、比拟,到文本整体的反讽、转喻,再到作者语气重点之所在等等,需从个别语句、段落,联系到全篇,进而贯穿全书,以至理解作者于彼时彼境的心境、立场——即所谓“移情”,有的时候甚至可能距离文本的表层结构转了十七八个弯,这些都有赖于研究者对更为全面史实的深入了解与追索,超越存世文本数量与历史真实之间在概率方面不可避免的失衡,才有可能触及文本试图传递的真实信息。
其二,再稍具体一点讲,在史学领域,如果“技术性”地来分剖,通向最终解悟的路径也许就是对历史现象的不断观察,以及勾连与比较,发现其与既有认识的落差和创造新知识可能的入口。笔者此前曾提到过学术史与历史记载的交叉点,往往可以是一个新议题的起点,[7]就是指通过勾连和比较既有历史知识与存世历史信息间的落差,或者说不吻合,发现可供进一步探究的空间,才有可能创造出新的历史知识。同样地,这样的勾连与比较,涉及的信息结构与层次常常相当复杂,大多并非现成的资料数据库所能包涵,各种不同信息相互间的跨度,也可能大到AI大模型无法将它们联系起来作“思考”,这大概是只有人脑才可能完成的任务。
如果说读书能否“得间”之所指,只是一些具体的史实(知识),倒还无关宏旨,AI大模型能否揭示出一些前人未曾发现的历史现象,提出关于人类历史社会演进的新见解,则更重要。“得间”说在意的,主要应该也指的是这个层面。史学研究与所有科学创新一样,举凡信息分析、资料解读和实验试错——在史学研究中大概就是反复推测与论证,都不过是基础性的铺垫而已,目的全在于达到某个节点上的灵感闪现,以得到对研究议题的最终解悟。那么,AI大模型的运作是否可能自主地灵感闪现呢?
如将史学研究分为不同“工序”,第一道工序应是史实复原,第二道工序则是现象阐释,即对研究对象进行分析,提出自己的认识。史学家基于已有认知,对不同个体存在性情、认知偏好以及思想差异,会从真实世界获取不同的刺激和灵感,这也与研究者个体的天赋、眼界、生命体验密切相关,最终才是对历史认识的灵光一闪。在这一层面上,AI不太可能取代史学家。
总之,史学虽然强调积累,被称为“实学”,但是本质上与所有学术研究一样,真正重要的发现从来都离不开天才想象力所触发的灵光一闪。至少从目前的认知看,AI大模型对于这一关键点估计难以企及。更何况任何AI大模型的应用,都有赖于研究主体——史学家——来设定主题,其间立意之高下判若云泥,问题也就更复杂。
四、多面相影响之下的应对之道
根据前文的观察,结合目前已经刊布的一些研究实例,可以确信在相对“技术性”的层面上,AI大模型无疑可以为史学研究提供极大的帮助,无论是古籍整理、语言翻译,还是综合性的史实铺叙等等,都将是它大展身手的领域。AI大模型的发展,必将对史学研究产生前所未有的影响,甚至在一定程度上重构学术生态,每一个史学研究者都应该尽快“预流”,掌握这一个重要的新方法,将其应用到自己的研究工作中去。
除了像在第二波次中就曾出现过的、一部分人对大数据时代的来临感到“前所未有的兴奋”之外,[8]对于AI大模型于史学研究可能产生哪些影响,大多数学者现在似乎仍处于困惑与疑虑之中。这当然绝非史学这门古老学问从业人员的守旧与冥顽不化,宁可自外于技术新革命的潮流之外,恰恰相反,它反映了一种认真与谨慎,也预示着任何革新的影响都必然是复杂的和多面相的,需要学界在“兴奋”之余同样给予足够的重视。下面略谈三点。
首先,众所周知,史学研究无非是为了理解先人的生活,历史现象精彩纷呈,历史学家不可能将它们全都纳入关注,必须按某种思路,选择有限的侧面去作研究,这就是人们常说的如何提出研究议题的问题。所以有学者强调要关注那些“具有实质意义的、对研究全局具有‘牵动’作用的问题”。[9]AI大模型在方便学者梳理文献、归纳史实的同时,可能有助于接近某些此前隐而不显的历史社会现象,不过议题的提出毕竟是相当主观的过程,当学者从此前在对历史社会整体理解的基础上,通过读书“得间”来设定观察路径,转向更多利用AI大模型来处理资料之时,难免会出现因为过于关注具体技术细节,而忽略对历史社会的整体把握,从而放大史学家作为现代人的主观性。不过这个问题相当复杂,先就此打住,容来日再议。前文提到的AI大模型受制于词元概率,过于“客观”——实际平面化地阅读历史文本,无法形成“主观”的历史认识,与这种现代人的主观性,其实是并行存在的。
其次,在扎实的资料积累的基础之上,最后由灵感触动深化认识,本来就是史学研究获得真正学术创新的必由途径,可是现实的学术生态总是难以企及这种理想化的状况。既有知识重组的铺叙性专文与专书,正占据着史学出版物的大多数,当从业者能够熟练地应用AI大模型后,这样的文字工作显然会更加方便,从而催生更大的“产量”。所以,如何将AI大模型在史学领域的应用引导到恰当的方向,不仅是学者群体本身,而且是学术管理部门必须认真对待的问题。按理说,在史学领域,AI大模型的应用将有助于逐步淘汰单调的重复性劳动与投机取巧的知识搬运,而为真正的知识创造者提供更多的机遇,然而麻烦的是,从第二波次影响以来的现实提示着学者,事态的走向完全有理由让人感到沮丧。历史知识被大量重复生产的同时,还常常因为被披上了华而无实的“数字化”新外衣而望风披靡。对此如何应对,令人踌躇,尽可能推动必要的学术批评也许是目前唯一可行的办法。
最后,正如笔者曾指出的,熟读基础性历史文献是更好地利用全文检索数据库的前提,AI大模型的使用也不例外,“传统的”史学基本功必不可少。文献释读、文本写作、逻辑思考等各方面的训练,将永远是史学入门的基础课。因此,在学术培养过程中有针对性地限制使用AI大模型,无论对本科生还是硕博士研究生,恐怕都是必要的。目前,AI大模型正开始给执掌历史课的教师制造麻烦,但帮助学生了解AI大模型,掌握应用它的能力,也是教师应承担起来的新任务。这两个方面的关系如何平衡,是教师和教育管理部门不得不认真思考的问题。
结 语
总之,AI大模型毕竟不过是一种新技术,而不是“类人”生物,它不可能剥夺史学家在研究工作中的主体性,甚至有可能反而会让这种主体性更加凸显。AI大模型完全有可能帮助史学家完成大量重复性与操作性的工作,极大提高研究工作的效率,让他们更少一些“匠气”,将自己宝贵的智力更多投入深刻的历史思维中。任何新技术的影响都是多面的与复杂的,不过这一切都不应该妨碍我们去积极地了解、掌握进而应用这一迄今为止人类文明发展的精华。认识AI大模型的局限性,正是为了更好地应用它。面对新技术无以复加的影响力,如何冷静周全地协调各方面的关系,以切实助推史学的进步,是学术管理部门必须完成的重要作业。
作者简介:包伟民,浙大城市学院浙江历史研究中心教授、博士生导师,研究方向为宋史、近代东南区域史。
[1]参见王涛:《大语言模型时代的历史书写》,《历史研究》,2025年第5期;范丁梁:《概率与空间:大语言模型对史学思维的刺激》,《社会科学战线》,2026年第1期;等等。
[2]参见李宗翰、柳立言:《以DeepSeek仲裁黄庭坚与苏轼读〈远近景图〉的争议》,包伟民、刘后滨主编:《唐宋历史评论》第15辑,社会科学文献出版社2025年版,第3-58页。
[3]范丁梁:《概率与空间:大语言模型对史学思维的刺激》,《社会科学战线》,2026年第1期。
[4]李宗翰、柳立言:《以DeepSeek仲裁黄庭坚与苏轼读〈远近景图〉的争议》,包伟民、刘后滨主编:《唐宋历史评论》第15辑,第53-54页。
[5]王涛:《大语言模型时代的历史书写》,《历史研究》,2025年第5期。
[6]参见包伟民:《数字人文及其对历史学的新挑战》,《史学月刊》,2018年第9期。
[7]参见包伟民:《前言》,《史学问津》,浙江人民出版社2025年版,第1页。
[8]郭辉:《大数据时代史学研究的趋势与反思》,《史学月刊》,2017年第5期。
[9]邓小南:《走向“活”的制度史——以宋代官僚政治制度史研究为例的点滴思考》,《浙江学刊》,2003年第3期。
夜雨聆风