AI for Humanities研究进展与发展趋势综述

1. 摘要

本报告旨在深度综述人工智能（Artificial Intelligence, AI），特别是以大语言模型（Large Language Models, LLMs）和生成式人工智能（Generative AI）为代表的技术，如何赋能人文学科（Humanities）的最新研究进展与未来发展趋势。随着AI技术迈入“第五范式”^[1]，人文学科正经历一场前所未有的范式转型。本报告首先界定了“AI for Humanities”的核心概念、理论基础与演进脉络，并重点剖析了以大语言模型和多模态模型为核心的驱动技术。在此基础上，报告从四大核心应用领域——文本分析与知识发现、文化遗产数字化与活化、知识组织与服务、人机协同与教育创新——系统梳理了2024至2026年间的前沿实践与关键突破。报告进一步探讨了当前研究面临的诸多挑战，包括数据偏见、算法“黑箱”、伦理风险与版权争议，并对可解释性AI（Explainable AI, XAI）、多模态融合、人机协同及负责任AI等未来发展方向进行了展望。本研究认为，AI与人文学科的深度融合不仅是技术层面的工具革新，更是一场涉及研究方法、学术范式和思想价值的深刻变革。未来的发展关键在于构建开放、包容、批判性的跨学科对话机制，确保技术进步服务于深化人文理解、传承文化遗产和促进人类福祉的最终目标。

2. 引言

2.1 研究背景与意义

人工智能技术的飞速发展，正以前所未有的深度和广度重塑着社会结构、经济模式与知识生产体系。以大语言模型（LLMs）和生成式人工智能（Generative AI）为核心的新一代技术浪潮，标志着科学研究正从数据密集型的“第四范式”向智能驱动型的“第五范式”演进^[1]。在这一宏观背景下，人文学科（Humanities），包括文学、历史学、哲学、考古学、艺术史等，正迎来一场深刻的变革。传统上，人文学科的研究高度依赖于学者的智识洞察、细读文本的能力以及对复杂语境的深刻理解。而AI技术，尤其是其自然语言处理和内容生成能力，为人文学者提供了强大的计算工具和分析视角，使得处理大规模、非结构化的文化数据成为可能，极大地拓展了研究的边界和深度。这种“人工智能赋能人文学科”（AI for Humanities, AI4H）的新兴交叉领域，不仅是技术与人文学科的简单叠加，更是一种研究范式的重构、方法的创新和价值的回归 ^[1]。

AI4H的核心意义体现在多个层面。首先，在研究范式上，它推动了人文学科从传统的、基于个体学者智识的“小数据”分析，转向基于大规模计算和数据驱动的“大数据”探索，实现了从“经验直觉”到“数据实证”的补充与融合。其次，在研究方法上，AI技术，如文本分类、情感分析、主题建模、实体关系抽取和机器翻译等，能够自动化处理繁琐的数据预处理工作，使学者能更专注于高层次的理论思辨和意义阐释。特别是生成式AI的出现，使得人机协同创作、虚拟历史场景重建、交互式文化叙事成为可能，催生了全新的数字人文应用形态 ^[2]。再次，在知识组织与服务上，AI能够构建更智能、更语义化的知识图谱和数字馆藏，通过对话式问答系统等方式，极大地提升了文化遗产的 accessibility（可访问性）和 engagement（参与度），促进了知识的公共传播与普及 ^[3]。最后，AI4H的发展也引发了深刻的伦理反思。如何审视AI模型内置的偏见，如何界定生成内容的原创性与版权归属，以及如何确保技术发展始终“以人为中心”（human-centered） ^[4]，这些问题不仅是技术挑战，更是对人文学科核心关怀的回归与考验。因此，系统梳理和深度分析AI4H领域的最新研究进展，对于推动人文学科的创新发展、应对技术带来的社会挑战以及培养适应未来需求的复合型人才具有至关重要的理论和现实意义。

2.2 研究范围与核心问题

本综述聚焦于2024年至2026年期间，人工智能技术在人文学科领域的最新应用与前沿探索。这一时期正值以ChatGPT为代表的大语言模型技术爆发并向各行各业渗透的关键节点，因此本报告将大语言模型（LLMs）和生成式AI（Generative AI）作为核心分析对象，探讨它们如何重塑文本分析、知识发现、文化传承与创新等核心人文学科任务。研究范围广泛覆盖文学、历史学、考古学、艺术史、语言学、数字人文等多个学科领域，旨在提供一个跨学科、综合性的全景式分析。

基于此范围，本报告将重点围绕以下几个核心问题展开深度探讨：

1.技术驱动下的范式转型：以大语言模型和生成式AI为代表的技术，如何从根本上改变了人文学科的研究范式、方法论和知识生产模式？这种变革是渐进的还是颠覆性的？

2.前沿应用与关键突破：在2024-2026年间，AI4H领域涌现了哪些最具代表性和影响力的应用场景？这些应用在文本分析、文化遗产数字化、知识服务等方向上取得了哪些关键性突破？

3.人机协同的新模式：AI在人文学科中是作为工具、助手，还是研究伙伴？人机交互如何催生出新的学术创意、教学模式和文化体验？这种协同模式面临哪些挑战？

4.伦理、挑战与未来展望：AI4H在实践中面临哪些紧迫的伦理挑战和社会问题，如数据偏见、算法歧视、版权归属和学术诚信？未来的技术发展方向和研究议程应如何设定，以确保AI的发展符合人文学科的价值追求？

通过对上述核心问题的深入剖析，本报告旨在为相关领域的学者、研究生、政策制定者以及对技术与人文交叉议题感兴趣的社会公众，提供一份内容详实、视角多元、兼具理论深度与实践参考价值的深度综述。

3. 核心概念与理论基础

3.1 AI for Humanities的演进与内涵

“人工智能赋能人文学科”（AI for Humanities, AI4H）作为一个交叉学科领域，其内涵和外延随着AI技术的迭代而不断演变。从历史维度看，其演进大致可分为三个阶段。第一阶段是“人文计算”（Humanities Computing），始于20世纪中叶，主要利用早期的计算机技术进行文本索引、统计分析等基础工作，例如Roberto Busa于1949年开始构建的《托马斯著作索引》（Index Thomisticus）便是该领域的早期典范 ^[1]。这一阶段的特征是技术门槛高，应用范围有限，主要服务于语料库建设和量化研究的初步探索。第二阶段是“数字人文”（Digital Humanities, DH）的兴起与繁荣，约从21世纪初至今。DH强调利用数字工具、方法和视角来重新审视和解读传统的人文问题，研究领域从文本扩展到图像、声音、空间等多媒体数据，并注重数据可视化、GIS应用和数字策展等。这一阶段的AI更多扮演辅助角色，如图像识别用于艺术品分析，自然语言处理用于文本挖掘。第三阶段，即当前我们所处的“人工智能人文”（AI Humanities）新纪元，其核心驱动力是以大语言模型为代表的生成式AI的突破。这一阶段的显著特征是AI不再仅仅是处理数据的“工具”，而是能够生成内容、进行复杂推理、甚至模拟人类创造力的“伙伴”或“媒介”，从而引发人文学科研究范式的深刻变革 ^[5]。

当前AI4H的内涵，已经超越了“用AI分析人文数据”的层面，拓展至三个相互关联的实践领域^[6]。第一，人文学者使用AI工具开展研究。这是最普遍的应用形态，例如利用LLMs快速筛选和总结海量文献，使用生成式AI进行头脑风暴和创意写作，或通过AI辅助工具进行文本编码和数据分析。第二，利用AI为人文研究开发定制化资源。这涉及到利用AI技术处理和标注专属于特定人文领域的数据集，例如使用LLMs自动从古籍中提取实体和关系，构建领域知识图谱 ^[3]；或训练特定风格的生成模型，用于历史风格的字体和图像修复^[7]。第三，也是最具批判性和反思性的领域，即人文主义者分析并反思AI本身。人文学者运用其独特的批判性思维和方法论，审视AI工具的内在偏见、知识立场的局限性以及其社会文化影响，例如探讨AI模型在处理非西方文化时的“文化挪用”问题 ^[8]，或分析人机协同中的伦理与权力关系。这三个领域共同构成了AI4H的完整生态，体现了技术赋能与人文反思之间相辅相成的辩证关系。

3.2 关键技术：大语言模型与生成式AI

大语言模型（LLMs）是基于Transformer架构，在海量文本数据上进行预训练的深度学习模型。它们通过学习语言的统计规律和复杂结构，掌握了强大的自然语言理解和生成能力。以GPT-4、Claude、Llama等为代表的大语言模型，凭借其百亿甚至千亿级别的参数规模，展现出了前所未有的“涌现能力”（emergent abilities），如上下文学习、代码生成、逻辑推理和多语言翻译，成为当前AI4H领域最核心的驱动力^[9]。在AI4H中，LLMs的应用极大地降低了技术门槛。例如，传统上需要复杂编程和语言学知识才能进行的主题建模，现在可以通过简单的自然语言提问来近似实现。LLMs还能用于古文献的语义检索 ^[10]、文本的情感分析和风格识别，以及自动生成文献摘要和研究报告的初稿，极大地提升了研究效率。然而，LLMs也存在“幻觉”（hallucination） ^[11]、知识更新滞后和事实准确性不足等问题，其应用往往需要领域专家的严格审核和修正。

生成式人工智能（Generative AI）是一个更广泛的概念，它指的是能够根据输入数据创建全新内容（文本、图像、音频、视频等）的AI技术。除了大语言模型，还包括以Midjourney、Stable Diffusion为代表的文本到图像（Text-to-Image）生成模型，以Sora为代表的文本到视频（Text-to-Video）模型，以及各种音频生成和代码生成模型。生成式AI的出现，为人文学科带来了革命性的创作和体验工具。在文化遗产领域，研究者可以利用生成式AI来修复破损的艺术品图像^[12]，或根据历史描述生成虚拟的历史人物和场景，用于数字博物馆的沉浸式展示^[13]。例如，有项目通过WebXR和生成式AI角色，让用户能够与虚拟的历史人物进行互动，获得沉浸式的文化体验 ^[14]。此外，生成式AI还被用于创建参与式的文化叙事，通过让公众利用AI工具创作与文化遗产相关的艺术作品，来发掘和表达地方性的个人叙事，从而丰富文化遗产的内涵 ^[15]。尽管生成式AI的创作能力令人惊叹，但其“数据提取主义”的本质也引发了关于文化挪用、原创性缺失和强化刻板印象的深刻担忧 ^[8]。

3.3 基础理论：人机协同与可解释性

随着AI在人文学科中的应用日益深化，两个基础理论问题变得愈发重要：人机协同的模式与可解释性AI的必要性。

人机协同（Human-AI Collaboration）是AI4H的未来核心模式，而非简单的“AI取代人类”。人文学科的本质在于对复杂人类经验的理解和诠释，这需要直觉、共情、批判性思维和价值判断，这些正是当前AI的短板。因此，一种有效的协同模式是：人文学者负责提出研究问题、设定分析框架、解读结果并进行批判性反思；而AI则负责处理大规模数据、发现潜在模式、生成初步内容和加速重复性劳动。这种分工使得研究既能享受AI的“算力”优势，又能坚守人文的“智识”内核。例如，在研究中，AI可以快速分析数万份历史文献，发现某个词汇使用频率的变迁，而人文学者则需要解释这一变迁背后的社会文化动因。上海交通大学已开设《人工智能与人文社科》课程，旨在培养学生这种人机协同的思维和能力，让他们学会将AI视为“超级助手”，而非替代者 ^[16]。然而，人机协同并非没有挑战。研究表明，人们虽然信赖AI的建议，但会认为AI专家的责任感低于人类专家 ^[17]。如何设计责任明晰、信任度高的协同界面，是未来研究的重要方向。

可解释性AI（Explainable AI, XAI）是解决AI“黑箱”问题、建立用户信任的关键。当前主流的深度学习模型（包括LLMs）其决策过程往往不透明、难以理解，这被称作“黑箱”问题。在人文学科中，如果一个AI模型无法解释其分类或生成的依据，那么其结果的可靠性和学术价值就会大打折扣。可解释性AI旨在使AI模型的决策过程对用户透明、可理解。这对于人文学科尤为重要，因为人文研究的价值不仅在于结论，更在于论证过程。XAI技术可以分为全局解释（解释整个模型的行为）和局部解释（解释单个预测结果的原因）。例如，对于一段文本的情感分析，一个好的XAI系统应该不仅能给出“积极”或“消极”的标签，还能高亮显示导致该判断的关键词语或句子。XAI不仅是技术需求，更是伦理要求。欧盟发布的《可信人工智能伦理准则》中，透明度（即可解释性）是其七大核心要求之一 ^[18]。在AI4H领域，发展适用于人文数据的XAI方法，例如可视化模型关注的文本特征、或以自然语言生成解释，将是提升AI工具可信度和应用深度的关键。

4. 主要研究分类与前沿进展

人工智能技术正从多个维度深刻赋能人文学科的研究与实践。基于2024至2026年的最新研究，我们可以将主要进展归纳为以下四个核心领域：文本分析与知识发现、文化遗产数字化与活化、知识组织与服务、人机协同与教育创新。这些领域既相互独立又紧密联系，共同构成了AI4H发展的壮丽图景。

4.1 文本分析与知识发现

文本是人文研究的核心对象。AI技术，特别是大语言模型（LLMs），正在从根本上改变学者们处理和分析海量文本资料的方式，推动知识发现的效率与深度达到新的高度。传统的文本分析，如主题建模和情感分析，虽然有效，但通常需要复杂的预处理和领域知识。LLMs的出现极大地简化了这一流程。例如，研究者可以利用LLMs的上下文学习（In-context Learning）和思维链（Chain-of-Thought, CoT）提示技术，在不进行任何模型微调的情况下，直接对特定领域的文本进行分类、情感判断或信息抽取。一项研究显示，仅仅在提示中加上“让我们一步步思考”，就能显著提升LLMs在算术和符号推理任务上的零样本（zero-shot）能力，这被称为零样本思维链（Zero-shot-CoT） ^[19]。另一项研究则通过提供少量示例，利用CoT提示技术，让一个5400亿参数的模型在数学应用题（GSM8K）数据集上的准确率超越了微调后的GPT-3 ^[20]。这些技术为人文学者提供了一种低门槛、高效率的文本“显微镜”，能够快速洞察大规模文本集合中的宏观趋势和微观细节。

在古文献研究和跨语言文学分析领域，AI的应用展现了独特的价值。由于古文献往往存在残缺、模糊、异体字多等问题，传统的光学字符识别（OCR）技术识别率不高。而基于LLM的手写体转录（Handwritten Text Recognition, HTR）技术，通过在海量古籍图像和对应的转录文本上进行预训练，能够更好地理解古文字的形态和结构，实现更高精度的识别。更有研究探讨了利用LLMs进行古文献语义检索。传统基于关键词的检索难以捕捉古人的语义，而基于向量空间的语义检索模型，则能够理解用户自然语言查询的深层含义，并返回语义相关而非字面匹配的文献片段，极大地便利了文史研究者的学术探索^[10]。在跨语言研究方面，先进的LLMs（如GPT-4）在翻译复杂、含蓄的文学文本时，其译文质量已接近甚至超越了人类专家，能够更好地处理语言的细微差别和文化语境，为比较文学和跨文化研究提供了前所未有的便利。

技术维度	传统方法	LLMs赋能的方法	优势与影响	引用
文本分类	需要特征工程、选择并训练特定分类器（如SVM、RF）	提示工程（Prompt Engineering），如零样本/少样本分类	低门槛：无需机器学习知识；高效率：快速适应新任务和新领域	[9]
信息抽取	依赖规则或BiLSTM-CRF等序列标注模型，需要大量标注数据	生成式抽取，通过指令让模型输出结构化信息	高灵活性：可处理多样化的信息抽取任务；少样本能力：仅需少量示例即可工作	[21]
文本摘要	基于抽取的或基于编码器-解码器的抽象式摘要模型	基于解码器的生成式模型（如T5、BART、LLMs）	更高流畅度：生成更自然、连贯的摘要；更强语义融合：能更好地概括原文核心思想	[22]
逻辑推理	依赖专门设计的算法或知识图谱	通过思维链（CoT）等提示技术激发模型推理能力	涌现能力：在算术、常识和符号推理上表现出色，解决传统方法难以处理的问题	[20]

4.2 文化遗产数字化与活化

文化遗产的数字化保护与活化利用是AI4H中成果最为丰硕、最具视觉冲击力的领域。生成式AI和多模态模型的发展，为文化遗产的“重现”与“再创造”提供了强大的技术支持，使得静态的文化遗产“活”了起来。一个重要的方向是沉浸式与交互式体验（Immersive and Interactive Experiences）。研究者利用WebXR技术、生成式AI角色和3D建模，构建虚拟博物馆和历史场景，让用户能够“穿越”时空，与历史进行互动。例如，一个针对德国菲希特尔山脉地区的项目，构建了一个基于WebXR的数字时间旅行应用。用户可以在六个分别代表不同历史时期的场景中漫游，并与由生成式AI驱动的虚拟历史人物进行实时对话，这些角色能够根据用户的提问讲述故事、展示 artifacts（人工制品） ^[14]。这个项目利用了生成式AI创建动画肖像、语音合成和风格迁移等技术，将物理博物馆的展品与虚拟体验无缝连接，极大地丰富了访客的文化参与感。同样，中国香港的研究者也利用生成式AI，让参与者通过绘图机器人将他们对文化遗产的想象和情感表达转化为实体绘画，这种“参与式生成”模式赋予了文化遗产新的生命力 ^[23]。

另一个关键应用是文化内容的生成与修复（Content Generation and Restoration）。生成式AI在填补文化遗产的缺失部分、修复破损艺术品方面展现出巨大潜力。例如，一项研究整合了生成式AI、增强现实（AR）和数据科学，提出了一种综合性的文化遗产保护方案。其中，生成式AI模型可以根据现有的艺术品信息和风格，自动推演和生成缺失或严重损坏部分的视觉内容，而AR技术则将这些修复和重建的内容以沉浸式的方式叠加到真实的物理环境中，供公众欣赏和学习 ^[12]。此外，AI也被用于创造严肃游戏（Serious Games）来传递文化知识。一项探索性研究利用ChatGPT，在Co.Lab框架下开发了一个名为“Edgar à GoGo”的游戏原型。该游戏以瓦雷兹的《电子诗》为灵感，通过人机协同的方式，让AI根据特定的文化遗产材料生成游戏内容，从而降低了开发成本，使得小型文化项目也能制作出有教育意义的互动体验 ^[24]。然而，这种内容生成也伴随着挑战，研究指出，AI在生成高度细节化、准确反映文化特征的图像方面仍有不足，并且容易受到训练数据偏见的影响，可能无意中强化刻板印象 ^[15]。

4.3 知识组织与服务

在人文学科中，知识的组织、存储和检索是研究的基础。AI技术，特别是知识图谱（Knowledge Graphs）和大型语言模型，正在深刻改变数字人文项目的知识组织与服务模式，推动其从“数据”集合迈向“知识”和“智慧”的智能服务。传统的数字人文项目多依赖于关系型数据库或简单的元数据标准，信息之间的语义关联薄弱。而知识图谱通过将实体（如人物、地点、事件）作为节点，将关系（如“出生于”、“参与”）作为边，并以RDF（资源描述框架）等形式进行表达，构建了一个庞大的语义网络。这使得机器能够理解数据之间的深层联系，从而支持更智能的查询和推理。AI在其中扮演了关键角色，可以利用LLMs从非结构化的文本（如历史文献、传记）中自动抽取实体和关系，极大地加速了知识图谱的构建过程。

从专有标准到FAIR原则的互操作是当前知识组织领域的一个重要趋势。人文学科内部存在多种专用标准，例如文学领域广泛使用的TEI（文本编码倡议）标准，它非常适合编码文学文本的细节，但其元数据结构与通用的数据目录标准（如DCAT）不兼容，导致数据难以被发现和整合。一项研究提出了一种创新方法，利用LLMs来弥合这一鸿沟。该方法旨在将基于TEI的元数据自动映射并转换为符合FAIR原则（可发现、可访问、可互操作、可重用）的DCAT目录。在此过程中，LLMs被用于识别哪些TEI元数据可以映射，以及如何丰富和生成DCAT所需的描述信息，从而实现了项目级的数据和谐化，促进了跨领域数据的融合与利用 ^[3]。这种“模型即博物馆”（The Model is the Museum）的理念 ^[8]，将知识组织的过程从昂贵、专业门槛高的专家活动，转变为更易于通过自然语言引导的自动化流程，为人文学者提供了前所未有的数据洞察能力。

4.4 人机协同与教育创新

AI技术不仅改变了人文学科的研究方法，也对学术研究和教育本身提出了新的要求，催生了人机协同创作和人文教育范式创新的新浪潮。学术界日益认识到，AI并非要取代人文学者的工作，而是作为一种“认知增强工具”（cognitive augmentation tool），与学者形成共生关系。这种人机协同创作模式在多个领域均有探索。例如，在科学传播中，有研究探索利用LLMs将科学社区的原始文本数据转化为叙事事件。通过精巧的提示工程，LLMs能够从复杂的科学报告中自动提取关键情节，生成连贯、可读的叙事文本，而科学家则可以对生成结果进行审核和修订，以确保其准确性和可靠性。研究发现，像LLaMA 2这样规模较小的模型，在合适的提示下，也能胜任高质量的叙事事件生成任务 ^[25]。这种协同模式将学者从繁重的写作任务中解放出来，更专注于高层次的创意和思想。

与此同时，AI的崛起也对人文教育提出了双重挑战与机遇。一方面，ChatGPT等工具的出现使得传统的以知识记忆和考核为中心的教学模式受到巨大冲击，学术诚信问题凸显。但另一方面，这也倒逼教育者进行教学创新，将重点转移到培养学生的批判性思维、问题解决能力和AI素养上。已有高校敏锐地抓住了这一机遇。例如，香港中文大学（CUHK）的研究团队与中学合作，共同设计和评估了首个面向中学生的AI素养课程。该课程旨在提升学生对AI技术的理解、态度和动机，并取得了显著成效，学生的AI学习能力和积极性均有提高 ^[26]。上海交通大学则面向全校学生开设了《人工智能与人文社科》等通识核心课程，旨在打破专业壁垒，提升人文学子的科技素养，培养他们运用AI解决本领域问题的能力 ^[16]。这些实践表明，未来的教育方向不是禁止AI，而是要教学生如何批判性地、创造性地和负责任地使用AI。正如一些学者所倡导的，我们需要构建一种“以人为中心”的AI数字人文课程，应对技术带来的危机，并教育未来的公民如何参与塑造AI的社会 ^[4]。

5. 关键数据集与评估指标

在人工智能赋能人文学科（AI4H）的研究中，数据集和评估指标是衡量技术进展、确保研究质量、引导未来方向的两个核心支柱。一个高质量、领域相关的数据集是训练和评估AI模型的基础，而一套科学、全面的评估体系则是衡量模型能力、发现其局限性并推动其不断优化的关键。

5.1 关键数据集

近年来，随着AI应用的深化，人文学科领域涌现出一批标志性的基准数据集，它们极大地促进了特定任务的发展。

·文本与推理类：为了评估大语言模型（LLMs）的推理和伦理判断能力，研究者们开发了多个专用数据集。ETHICS数据集是一个重要的里程碑，它涵盖了正义、福祉、义务、美德和常识道德等五个维度的伦理概念，要求模型对文本场景中的道德判断进行预测。ETHICS数据集的出现，使得量化评估LLMs的道德观成为可能，并发现当前模型虽具备一定的道德预测能力，但仍不完整 ^[27]。在数学应用题方面，GSM8K（Grade School Math 8K）数据集因其高质量的8000多道小学数学应用题而成为评估LLM数学推理能力的“黄金标准”之一，许多研究都利用它来检验思维链（CoT）等技术的效果 ^[20]。

·文化遗产类：文化遗产领域的AI研究受益于多个开放的文化遗产数据集。例如，CIDOC CRM（国际文化遗产文献参考模型）本体定义了一个标准化的词汇表，用于描述文化遗产信息，是构建文化遗产知识图谱的重要基础。一项研究就利用CIDOC CRM作为案例，探讨了如何利用LLMs对文化遗产领域的术语进行分类 ^[28]。在图像和文本对方面，MS-COCO（Microsoft Common Objects in Context）数据集因其包含丰富的图像描述（captions）而被广泛用于训练和评估视觉语言模型。在数字人文领域，像TEI（Text Encoding Initiative）文档库这样的领域特定数据，虽然不是统一的基准，但为研究古文献语义检索等任务提供了宝贵的、结构化的原始素材^[10]。

下表总结了AI4H领域中几个关键的数据集：


数据集名称	主要任务	规模/特点	引用
ETHICS	伦理判断	涵盖5个伦理维度的道德情景判断，用于评估模型的伦理观。	[27]
GSM8K	数学推理	包含约8,000道小学数学应用题，用于评估模型的数学问题解决能力。	[20]
MS-COCO	视觉语言理解	包含超过33万张图片和500万条描述，用于图像-文本跨模态任务。	[29]
CIDOC CRM	知识组织	一个形式化的本体，用于描述文化遗产信息，是构建领域知识图谱的标准。	[28]
TEI文档库	古文献分析	大量的用TEI标准编码的文学和历史文本，为古文献计算分析提供数据。	[10]

5.2 评估指标与方法

对AI模型的评估是一个多维度、多层次的过程，尤其是在人文学科这样强调主观理解和创造性的领域。

·客观评估指标：对于有标准答案的任务（如文本分类、情感分析、信息抽取），通常采用自然语言处理（NLP）领域的标准指标，如准确率（Accuracy）、精确率（Precision）、召回率（Recall）和F1分数（F1-Score）。对于生成式任务（如文本摘要、机器翻译），则广泛使用BLEU（Bilingual Evaluation Understudy）、ROUGE（Recall-Oriented Understudy for Gisting Evaluation）和BERTScore等基于n-gram重叠或语义相似度的指标。然而，这些指标因其“黑箱”特性而备受批评，一个模型可能获得很高的BLEU分数，但其输出却可能是不合语法或偏离原意的。因此，这些指标更多是作为参考，而非唯一的评价标准。

·主观评估与人类评价：在人文学科中，对生成内容质量的评估高度依赖于人类专家的判断。人类评价（Human Evaluation）是当前评估LLM生成内容（如创意写作、学术论证）质量最可靠的方法。评估者通常会根据相关性（Relevance）、准确性（Accuracy）、流畅度（Fluency）、连贯性（Coherence）、创造性（Creativity）和忠实度（Faithfulness）等多个维度，对AI的输出进行打分或排序。例如，在一项比较AI和人类专家在项目评估中表现的实验中，研究人员让教职员工对AI生成和人类生成的叙事性退出调查数据摘要进行质量打分，结果发现AI生成的摘要在质量上获得了更高的评价 ^[30]。这表明，在特定任务上，AI已经能够达到甚至超越人类的初步分析水平。

·基准测试与综合评估：随着LLMs能力的快速发展，单一的指标或任务已不足以全面评估其能力。因此，基准测试（Benchmark）应运而生。一个基准测试通常包含多个任务和领域，旨在全面评估模型的能力。例如，MMLU（Massive Multitask Language Understanding）评估模型在57个不同学科上的知识掌握程度，而HellaSwag和PIQA则用于评估模型的常识推理能力。对LLMs的综合评估已成为一个独立的研究领域，研究者们正在努力构建更全面、更具挑战性的评估体系，以更好地理解模型的优势、劣势以及潜在的偏见和风险 ^[31]。对于AI4H而言，未来的评估体系需要将自动化的客观指标与领域专家参与的主观评价相结合，并开发出更能反映人文研究复杂性的新任务和新指标。

6. 研究挑战与未来展望

尽管人工智能为人文研究带来了前所未有的机遇，但其在人文学科中的应用仍处于探索的初级阶段，面临着一系列深刻的挑战。这些挑战不仅是技术层面的，更关乎伦理、方法论和学科认同。与此同时，技术本身的发展也为AI4H的未来描绘了广阔的前景。

6.1 主要研究挑战

1. 数据偏见与“算法殖民主义”：AI模型的性能高度依赖于其训练数据。当前主流的大语言模型大多在以英语为中心、源自互联网的庞大数据集上进行训练，这使其不可避免地继承了数据中存在的各种社会偏见，如性别、种族和文化的歧视。在人文学科中，这种偏见可能导致对非主流、少数族裔或女性作家研究的系统性忽视。更深层次的风险是“模型即博物馆”（The Model is the Museum）的隐喻所揭示的“算法殖民主义” ^[8]。AI模型通过其统计理性，可能将复杂的、充满矛盾的文化现象简化为同质化的、易于计算的“平均图像”（mean images），从而抹去历史的复杂性和地方性知识，成为一种新型的文化霸权和知识掠夺。

2. “黑箱”问题与可解释性困境：深度学习模型的决策过程往往是不可解释的“黑箱”。对于人文学者而言，一个无法解释其判断依据的AI工具是难以信赖的。例如，如果一个AI系统将某部小说归类为“现实主义”作品，但它无法说明其判断依据（是人物的塑造、情节的安排，还是语言的风格？），那么这个结论的学术价值就非常有限。可解释性AI（XAI）虽然取得了一定进展，但在处理如LLMs这样复杂的模型时，仍面临巨大挑战。如何在不牺牲模型性能的前提下，为其决策提供一个既对计算机科学家透明、也对人文学者有意义和可理解的解释，是AI4H领域亟待攻克的难题 ^[32]。

3. 事实性与“幻觉”问题：当前的大语言模型存在一个致命缺陷，即“幻觉”（Hallucination）——它们会生成看似合理但实际上与事实不符，甚至完全编造的内容 ^[11]。在人文学科研究中，事实的准确性至关重要。一次错误的“事实”生成，就可能导致严重的学术谬误。例如，一个LLM可能会编造出一本不存在的古籍，或者将一位历史人物的生平事迹张冠李戴。尽管可以通过检索增强生成（RAG）等技术来缓解，但彻底根除幻觉仍是一个巨大的挑战。这要求人文学者在使用AI工具时，必须扮演起严格的“事实核查员”和“质量控制员”角色，这无疑增加了研究的复杂性。

4. 伦理与法律风险：AI4H的应用引发了复杂的伦理和法律问题。首先是版权问题。当一个LLM学习了受版权保护的作品后生成的文本，其版权属于谁？是原作者、模型开发者，还是使用者？这个问题在学术界和司法界都存在巨大争议。其次是学术诚信问题。学生和研究者可能会滥用AI进行作弊或学术不端，这动摇了学术研究的根基。此外，AI生成内容的责任归属问题也日益凸显。如果一个基于AI的建议（如在医疗或法律领域）导致了损害，责任应如何界定？是开发者、使用者，还是AI系统本身？这些问题都需要法律界、伦理学界和技术界共同探索解决方案。

6.2 未来发展趋势展望

面对上述挑战，AI4H的未来发展将呈现出融合、深化和负责任的趋势。

1. 多模态融合与人机交互：未来的AI4H研究将不再局限于文本，而是向着多模态（Multimodality）的方向深度发展。融合文本、图像、声音、视频和三维模型的多模态大模型，将能够提供更全面、更沉浸的文化遗产体验。例如，一个系统能够在用户观看一幅画的同时，听到由AI生成的与此画风格和时代背景相符的音乐，并通过对话式界面回答用户关于画中细节和象征意义的问题。这种人机交互也将更加自然和智能，从简单的问答发展为复杂的、有情感和共情的协作关系。

2. 可解释性AI（XAI）的深化应用：为了解决“黑箱”问题，XAI将成为AI4H领域的标配技术。未来的研究将致力于开发更适用于人文数据的XAI方法。例如，通过可视化技术展示模型在阅读一段文本时关注的视觉区域（类似于人类阅读时的扫视轨迹），或者通过自然语言生成总结性的解释，来说明模型为何做出某个特定的分类判断。XAI不仅是技术工具，更是学术对话的媒介，它能够帮助人文学者理解AI的“思考”方式，并在此基础上进行批判性反思。

3. 人机协同模式的成熟：人机协同将从一种实验性的工作方式，转变为成熟、高效的研究范式。未来的开发者和研究者将设计出更多专门为人机协同优化的软件和平台，例如支持学者在AI辅助下进行“非线性”思考和写作的编辑器，或能够根据学者的反馈不断学习和调整的智能研究助手。这种协同模式将促进跨学科的深度融合，催生出传统单一学科无法想象的研究成果。

4. 负责任AI与人文主义关怀：未来的AI4H将更加关注“负责任的AI”（Responsible AI）^[33]。这不仅仅是技术问题，更是一种哲学立场和价值追求。研究者将致力于开发能够减少偏见、尊重文化多样性、保护隐私和版权的AI技术。一个核心的理念是“人文主义人工智能”（Humanistic AI）^[6]，它倡导将人文学科的批判性思维、伦理关怀和对人类经验的深刻理解，注入到AI的设计、开发和应用的每一个环节。AI4H的未来，不应是技术决定论的单行道，而应是人文学者与技术人员共同塑造一个更具智慧、更富同情心、更公正的数字未来的过程。

7. 结论

人工智能，特别是以大语言模型和生成式AI为代表的技术，正在以前所未有的力量重塑人文学科的研究版图。本报告通过对2024至2026年期间前沿研究的系统梳理，揭示了AI4H正从多个维度——从文本分析的深度、文化遗产的活化、知识组织的效率到人机协同的教育创新——引发一场深刻而全面的范式转型。AI不再仅仅是人文学者的辅助工具，更日益成为激发新思想、催生新方法、构建新体验的强大合作伙伴。

然而，这场变革并非坦途。本报告深入分析了当前AI4H面临的核心挑战，包括源于训练数据的社会偏见、算法固有的“黑箱”特性、生成内容的事实准确性问题，以及复杂的版权与伦理风险。这些问题共同构成了AI4H未来发展道路上必须逾越的障碍，它们要求技术界、人文学界、法律界与政策制定者之间展开更紧密、更富有建设性的跨学科对话与协作。

展望未来，人工智能赋能人文学科的前景广阔而充满希望。技术的发展趋势将推动多模态融合、深化可解释性AI的应用、成熟人机协同的模式，并最终导向构建更加负责任、更具人文主义关怀的技术生态。成功的关键在于保持一种批判性的、以人为本的立场，确保技术进步始终服务于深化我们对人类自身文明的理解。最终，AI4H的理想图景并非是技术对人文的“接管”，而是在持续的互动与碰撞中，共同迈向一个知识更丰盈、智慧更通达、文化传承更 vibrant 的新纪元。

8. 参考文献

[1] 人工智能驱动的数字人文研究：范式转型、方法重构与价值回归.https://tsg.library.hn.cn/CN/Y2026/V0/I1/7

[2] August Chao, and WeiChun Pan. "From Data to Narrative: A Generative AI Pipeline for Cultural Heritage Audio Guides", 2025 IEEE International Conference on Consumer Electronics - Taiwan (ICCE-Taiwan) (2025): 771-772. URL:https://www.aminer.cn/pub/68fffd27163c01c8502ed64e

[3] Adriana Morejon, Borja Navarro-Colorado, Carmen Garcia-Barcelo, Alberto Berenguer, David Tomas, and Jose-Norberto Mazon. "Automatic Metadata Extraction Leveraging Large Language Models in Digital Humanities", Electronics 14.24 (2025). URL:https://www.aminer.cn/pub/697101479be8eb7c4b4d417e

[4] Jon Chun, and Katherine Elkins. "The Crisis of Artificial Intelligence: A New Digital Humanities Curriculum for Human-Centred AI.", International Journal of Humanities and Arts Computing 17.2 (2023): 147-167. URL:https://www.aminer.cn/pub/656da6e6939a5f4082de8192

[5] Shichao Luo, and Yang Wang. "From Digital Humanities to Artificial Intelligence Humanities: AI Applications in Knowledge Organization and Future Visions.", Lecture Notes in Computer Science (2025): 494-503. URL:https://www.aminer.cn/pub/696efe269be8eb7c4be473e6

[7] Russo Guido, Momtaz Yahya, and Maqsood Sohail. "Artificial Intelligence in the Digital Humanities", Journal of Artificial Intelligence Research and Innovation 1.1 (2025): 042-045. URL:https://www.aminer.cn/pub/68a96498163c01c850246af4

[8] Gabriel Menotti. "The Model is the Museum: Generative AI and the Expropriation of Cultural Heritage", AI & SOCIETY 40.7 (2025): 5593-5597. URL:https://www.aminer.cn/pub/68a57354163c01c850c3d11d

[9] Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie, and Ji-Rong Wen. "A Survey of Large Language Models", Computing Research Repository abs/2303.18223 (2023). URL:https://www.aminer.cn/pub/642a43bc90e50fcafd9b1555

[10] 王昊贤, 周子茗, 丁菲菲, and 韦成府. "Digital Humanities&Large Language Models:Practice and Research in Semantic Retrieval of Ancient Documents", 农业图书情报学报 (2024): 89-101. URL:https://www.aminer.cn/pub/678fc57cae8580e7ff31513e

[11] Lei Huang, Weijiang Yu, Weitao Ma, Weihong Zhong, Zhangyin Feng, Haotian Wang, Qianglong Chen, Weihua Peng, Xiaocheng Feng, Bing Qin, and Ting Liu. "A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions", ACM Transactions on Information Systems 43.2 (2025). URL:https://www.aminer.cn/pub/654d967f939a5f40826a2c8d

[12] Sakshi C. Mogre, Jay S. Nikam, Punit Damani, and Abira Banik. "Generative AI for Cultural Heritage Preservation Using AR and Data Science", 2025 International Conference on Machine Learning and Autonomous Systems (ICMLAS) (2025): 1068-1073. URL:https://www.aminer.cn/pub/680c1c16163c01c850042e67

[13] Jan Gemeinhardt, Michael Zöllner, and Celina Jahn. "Generative AI Tool Pipeline for Creating Artificial Historical Characters for Cultural Heritage XR", Communications in computer and information science (2024): 41-46. URL:https://www.aminer.cn/pub/6662744101d2a3fbfc9c76fc

[14] M. Zoellner, and J. Gemeinhardt. "WebXR Cultural Heritage Tour with Generative AI Characters.", EUROGRAPHICS WORKSHOP ON GRAPHICS AND CULTURAL HERITAGE, GCH 2024 (2024). URL:https://www.aminer.cn/pub/67d8efec163c01c850c3662e

[15] Zhiting He, Jiayi Su, Li Chen, Tianqi Wang, and Ray Lc. ""I Recall the Past": Exploring How People Collaborate with Generative AI to Create Cultural Heritage Narratives", PROCEEDINGS OF THE ACM ON HUMAN COMPUTER INTERACTION 9.2 (2025). URL:https://www.aminer.cn/pub/677752aaae8580e7fff3ddd9

[16] 关于秋季学期开设《人工智能与人文社科》、《生命的设计与调控:人工智能应用与展望》课程的选课推介.https://jwc.sjtu.edu.cn/info/1398/115201.htm

[17] Suzanne Tolmeijer, Markus Christen, Serhiy Kandul, Markus Kneer, and Abraham Bernstein. "Capable but Amoral? Comparing AI and Human Expert Collaboration in Ethical Decision Making", CHI Conference on Human Factors in Computing Systems (2022). URL:https://www.aminer.cn/pub/6287043d5aee126c0f5bf678

[18] Reference 18. https.aminer.cn/pub/6456389bd68f896efacf69ac

[19] Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. "Large Language Models Are Zero-Shot Reasoners", NEURIPS 2022 (2022). URL:https://www.aminer.cn/pub/628d9e805aee126c0f979789

[20] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, brian ichter, Fei Xia, Ed H. Chi, Quoc V Le, and Denny Zhou. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models", NEURIPS 2022 (2022). URL:https://www.aminer.cn/pub/61f753205aee126c0f9c20e3

[21] Matthew Wilkens, and Yang Xiaoyan. "Analysis of the Digital Humanities Culture Analytics Field and Application Prospect of Large Language Models—Interview with Professor Matthew Wilkens", Digital Humanities Research 3.2 (2023). URL:https://www.aminer.cn/pub/6553a0e7939a5f40824cc0fd

[22] Enkelejda Kasneci, Kathrin Sessler, Stefan Kuechemann, Maria Bannert, Daryna Dementieva, Frank Fischer, Urs Gasser, Georg Groh, Stephan Guennemann, Eyke Huellermeier, Stepha Krusche, Gitta Kutyniok, Tilman Michaeli, Claudia Nerdel, Juergen Pfeffer, Oleksandra Poquet, Michael Sailer, Albrecht Schmidt, Tina Seidel, Matthias Stadler, Jochen Weller, Jochen Kuhn, and Gjergji Kasneci. "ChatGPT for Good? on Opportunities and Challenges of Large Language Models for Education", Learning and Individual Differences 103 (2023). URL:https://www.aminer.cn/pub/645d0325d68f896efa90b4be

[23] Ray Lc. "THE PRESENT IS IN THE FUTURE: Participatory Generative AI Co-Created Visions As Intangible Cultural Heritage", 17TH INTERNATIONAL SYMPOSIUM ON VISUAL INFORMATION COMMUNICATION AND INTERACTION, VINCI 2024 (2024). URL:https://www.aminer.cn/pub/6746aac1ae8580e7ffc731c4

[24] Vittorio Murtas, and Vincenzo Lombardo. "Designing Cultural Heritage Serious Games with Generative AI: from Structured Frameworks to Playable Prototypes.", Games and Learning Alliance (2026): 225-234. URL:https://www.aminer.cn/pub/6985e2679be8eb7c4bd1f494

[25] Valentina Bartalesi, Emanuele Lenzi, and Claudio De Martino. "Using Large Language Models to Create Narrative Events", PeerJ Computer Science 10 (2024). URL:https://www.aminer.cn/pub/6718a9c401d2a3fbfc663ece

[26] Thomas K. F. Chiu, Ching-Sing Chai, Irwin King, Savio Wong, and Yeung Yam. "Creation and Evaluation of a Pre-tertiary Artificial Intelligence (AI) Curriculum.", IEEE Transactions on Education 65.1 (2022): 30-39. URL:https://www.aminer.cn/pub/6007ffa991e011d056eee78e

[27] Dan Hendrycks, Collin Burns, Steven Basart, Andrew Critch, Jerry Li, Dawn Song, and Jacob Steinhardt. "Aligning AI with Shared Human Values.", ICLR 2021 (2021). URL:https://www.aminer.cn/pub/5f2bf2bf91e011b36ba9d171

[28] 期刊详情.https://www.aminer.cn/open/journal/detail/5eba53afedb6e7d53c0ffb7b

[29] Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, and Mohamed Elhoseiny. "MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models.", ICLR 2024 (2024). URL:https://www.aminer.cn/pub/6442336c4c80727584270e42

[30] Staci S Reynolds, Elaine D Kauschinger, Allen Cadavero, Stefanie Conrad, Jacquelyn M McMillian-Bohler, and Michelle Webb. "Faculty Perceptions of AI-versus Human-Summarized Narrative Exit Survey Data Across Three Nursing Programs.", Nurse Education in Practice 90 (2025): 104648. URL:https://www.aminer.cn/pub/69222106163c01c8504bb20d

[31] Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu, Linyi Yang, Kaijie Zhu, Hao Chen, Xiaoyuan Yi, Cunxiang Wang, Yidong Wang, Wei Ye, Yue Zhang, Yi Chang, Philip S. Yu, Qiang Yang, and Xing Xie. "A Survey on Evaluation of Large Language Models", ACM Transactions on Intelligent Systems and Technology 15.3 (2024). URL:https://www.aminer.cn/pub/64a78f1fd68f896efa01eae2

[32] Alejandro Barredo Arrieta, Natalia Diaz-Rodriguez, Javier Del Ser, Adrien Bennetot, Siham Tabik, Alberto Barbado, Salvador Garcia, Sergio Gil-Lopez, Daniel Molina, Richard Benjamins, Raja Chatila, and Francisco Herrera. "Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges Toward Responsible AI", Information Fusion 58 (2020): 82-115. URL:https://www.aminer.cn/pub/5db024d03a55ac0353cde528

[33] Davinder Kaur, Suleyman Uslu, Kaley J. Rittichier, and Arjan Durresi. "Trustworthy Artificial Intelligence: A Review", ACM Computing Surveys 55.2 (2023). URL:https://www.aminer.cn/pub/627ce38d5aee126c0f6cd9a0

本文部分内容由AI辅助生成