
人工智能(AI)在近数十年取得突破性进展,在教育、医疗、工业与知识生产等领域展现变革性潜力。在科学研究中,AI 已成为核心辅助工具,AlphaFold、大语言模型、强化学习等技术广泛应用于结构预测、实验自动化、文献分析与学术写作,相关成果屡获诺贝尔奖等顶级学术认可。尽管 AI 在科研中的应用持续普及,但大规模、长时序、跨学科的实证测量仍较为有限,AI 对科研人员职业轨迹与科学整体探索格局的动态影响机制尚不清晰。
现有研究表明,AI 可为科研人员带来个体收益,但可能加剧学术不平等;同时,AI 相关研究的引用模式呈现出领域集中化趋势。然而,鲜有研究同时从个体层面(生产力、影响力、职业发展)与集体层面(知识广度、学术互动、研究多样性)系统评估 AI 的双重效应,也未区分传统机器学习、深度学习与生成式 AI 三阶段的差异影响。基于此,本研究提出核心问题:AI 工具如何影响科研人员的个体学术表现?AI 的普及如何改变科学共同体的整体研究范围与互动模式?二者之间是否存在冲突?
本研究依托千万级论文数据,采用自然语言处理、文本嵌入、生存分析等方法,量化 AI 在自然科学领域的扩散趋势,评估其对科研人员职业发展的作用,并测量 AI 对科学知识覆盖广度与学术互动强度的影响,最终揭示 AI 时代科研个体与集体目标的内在张力,为科学政策与 AI 技术研发提供启示。
研究方法
2.1 数据来源与样本筛选
本研究核心数据来自 OpenAlex 数据库,补充验证数据来自 Web of Science。研究选取 1980—2025 年英语发表、标题与摘要完整的自然科学论文,聚焦生物学、医学、化学、物理学、材料科学、地质学六大学科,排除计算机科学、数学等以 AI 方法研发为主的领域,最终得到4129.8433 万篇有效论文,覆盖 537.7346 万名研究人员。
2.2 AI 发展阶段划分
依据技术里程碑,将 AI 在科研中的应用划分为三个阶段:
传统机器学习时代(1980—2014):以反向传播、SVM、PCA 等方法为代表; 深度学习时代(2015—2022):以 ResNet、CNN、GAN 等深度模型突破为标志; 生成式 AI 时代(2023— 至今):以大语言模型(LLM)等生成式技术广泛应用为起点。
2.3 AI 辅助论文识别模型
采用两阶段微调 BERT 模型,分别基于论文标题与摘要训练,最终集成输出 AI 辅助论文判定结果:
第一阶段:以顶级 AI 期刊 / 会议论文为正样本,随机抽取领域论文为负样本,完成粗训练; 第二阶段:基于第一阶段结果扩展高置信度 AI 相关出版物,构建精准样本集,完成精调; 验证:经领域专家标注检验,模型 F1 得分为 0.875,专家一致性 Fleiss’ κ=0.964,识别结果可靠。
2.4 核心指标与分析方法
- 个体层面指标
年均发文量、年均被引量、团队规模、初级研究者晋升为项目负责人的时间、退出学术领域概率;采用生存分析与出生 — 死亡模型拟合职业转型时间。 - 集体层面指标
采用 SPECTER 2.0 将论文嵌入 768 维向量空间,以知识广度(Knowledge Extent) 衡量研究主题覆盖范围,以知识熵衡量研究分布均衡性;以后续互动率(Follow-on Engagement) 衡量引用文献间的相互关联程度;采用基尼系数衡量引用分布不均等性。

研究结果
3.1 AI 在自然科学领域的普及趋势
AI 辅助研究在六大自然科学学科中呈现持续加速渗透态势。1980—2025 年,AI 相关论文占比与 AI 使用人员占比均实现数量级增长,其中地质学 AI 论文数量增长 10.70 倍,生物学增长 51.89 倍;研究人员采用率在地质学增长 135.46 倍,物理学增长 362.16 倍。从发展阶段看,生成式 AI 时代的普及速度显著高于深度学习与机器学习时代,各学科月均增长率持续提升。
在 AI 方法使用上,传统机器学习阶段以 SVM、PCA 为主;深度学习阶段以 CNN、GAN 占比最高;生成式 AI 时代,大语言模型快速跻身高频方法前列,反映出 AI 技术迭代与科研应用的同步演进。整体而言,AI 已从计算机科学溢出成为自然科学各领域的通用工具,且渗透速度不断加快。

3.2 AI 对科研人员个体学术表现的提升效应
AI 工具显著提升科研人员的学术产出与影响力。在控制学科、发表时段等因素后,AI 辅助论文的年均引用量比非 AI 论文高 98.70%,且在各 AI 发展阶段均保持稳定优势;AI 相关论文在 Q1 顶刊中的占比显著更高。在个体层面,使用 AI 的科研人员年均发文量为不使用者的3.02 倍,年均被引量为4.84 倍,该效应在六大学科中一致存在,且在核心高产科研人员群体中依然稳健。
AI 同时加速科研人员职业发展进程。本研究将未担任项目负责人的研究者定义为初级研究者,以最后一作者为项目负责人标识。结果显示,使用 AI 的初级研究者成为负责人的概率提升 13.64%,退出学术界的概率更低。出生 — 死亡模型拟合表明,AI 使用者从初级到成熟研究者的平均转型时间为7.33 年,较非使用者(8.70 年)缩短 1.37 年,且该效应在各学科普遍存在。此外,AI 辅助研究团队规模平均缩小 19.29%,主要体现为初级成员数量减少,团队结构更精简。

3.3 AI 导致科学共同体整体研究广度收缩
尽管 AI 提升个体表现,却使科学共同体的知识覆盖范围显著收窄。基于 SPECTER 2.0 嵌入与知识广度指标,AI 相关研究的整体知识广度中位数较传统研究降低4.63%,该结果在六大学科中均显著,且在超 200 个子领域中超过 70% 呈现收缩态势。知识熵结果显示,AI 研究的主题分布更不均衡,高度集中于特定核心问题,而非均匀探索多元方向。
进一步分析表明,研究主题的数据可得性是 AI 集中化的核心驱动因素:数据越丰富的领域,AI 应用越密集;而数据稀缺、探索性强的基础问题被边缘化。AI 并未推动科学走向更广泛的未知探索,而是聚焦于已有数据支撑的成熟问题,形成科学研究的 “趋同效应”。

3.4 AI 降低学术互动并加剧引用分布不均
AI 研究显著降低学术后续互动强度。本研究以引用同一篇原始论文的文献之间的相互引用比例衡量后续互动,结果显示,AI 论文引发的后续互动比非 AI 论文低22%。AI 相关引文呈现 “星型结构”:仅围绕原始论文单点聚集,缺乏跨文献的关联、对话与拓展,难以形成网络化、递进式的新兴领域。
同时,AI 研究的引用马太效应更显著。AI 论文中,22.20% 的顶尖论文获得 80% 引用,54.14% 的论文获得 95% 引用;引用分布基尼系数为 0.754,显著高于非 AI 论文的 0.690。少数 “明星论文” 垄断领域注意力,大量研究获得关注不足,学术资源与声誉分配更不均等。
对引文对距离的分析显示,未相互引用的 AI 相关论文在向量空间中的中位距离更大,而最小距离更小,表明研究更易出现无意识重复,知识重叠增加而创新关联减少,进一步制约科学整体拓展。
讨论
核心发现:个体与集体的悖论
本研究通过千万级数据证实,AI 在科学领域形成双重效应:对个体,AI 是高效的 “生产力放大器”,显著提升发文量、引用量与职业晋升速度;对集体,AI 是 “探索收窄器”,降低知识广度、学术互动与研究多样性,形成 “个体成功、集体趋同” 的悖论。这一冲突源于 AI 的数据依赖特性:当前 AI 擅长优化现有数据、自动化成熟流程,而非开拓缺乏数据的新方向与基础问题。
理论与实践启示
从科学演进视角看,重大科学突破往往依赖新数据、新观测与新实验,而当前 AI 仅优化认知与分析环节,未同步拓展感知与实验能力。长期来看,过度依赖数据驱动的 AI 可能使科学陷入局部最优陷阱,放缓颠覆性创新速度。
在科研政策层面,应警惕 AI 带来的研究 “数据霸权”,支持数据稀缺但具有基础价值的领域;在 AI 工具研发层面,应推动 AI 向数据获取、实验设计、未知探索方向扩展,而非仅停留在已有数据的分析与生成;在学术评价层面,应平衡高产高引与原创探索的激励,缓解个体与集体目标的冲突。
研究局限
本研究存在若干局限:第一,模型仅能识别显性 AI 使用,无法捕捉未标注的隐性 AI 应用;第二,研究聚焦自然科学,未覆盖社会科学、人文等领域,结论普适性受限;第三,基于观测数据,无法完全确立 AI 使用与科研表现的因果关系;第四,生成式 AI 时代时序较短,长期影响仍需持续追踪。
结论
AI 工具在自然科学领域的加速普及,为科研人员带来显著的个体学术收益,使其发文量、影响力与职业发展速度大幅提升。但在科学共同体层面,AI 导致研究主题收缩、知识广度降低、学术互动减少、引用不均加剧,使科学更倾向于自动化成熟领域而非探索新方向。本研究揭示了 AI 时代个体激励与集体科学进步的核心冲突,建议未来科研政策与 AI 技术研发应兼顾个体效率与集体探索,推动 AI 从 “数据优化工具” 向 “科学拓展引擎” 转型,以实现可持续、多元化的科学创新。
夜雨聆风