学术地图探索 06 | 懂AI的人反而更不懂自己

欢迎来到「学术地图探索」。本专栏聚焦认知神经科学、发展心理学与人工智能交叉前沿，强调对文献的深度解读和批判性思考。每一篇文献，都是探索人类心智与机器智能边界的一块拼图。本期我们讨论：当我们在使用AI时，我们是变得更聪明了，还是只是变得更自信了？

文献名片

题目: AI makes you smarter but none the wiser: The disconnect between performance and metacognition (AI让你更聪明，却没有让你更清醒：认知表现与元认知的惊人脱节)

发表期刊: Computers in Human Behavior (IF = 8.9)

第一作者: Daniela Fernandes (阿尔托大学)

关键词: Human-AI interaction (人智交互); Metacognition (元认知); Overconfidence (过度自信); Generative AI (生成式AI)

原文链接: https://doi.org/10.1016/j.chb.2025.108779

投稿时间: 2025.3.13 (Received)，2025.8.5 (Revised)，2025.8.20 (Accepted)

省流版

这篇发表在Computers in Human Behavior上的研究，通过两项大规模实验（N=698）发现，使用AI能显著提升我们在逻辑推理任务中的客观表现，但同时也带来了副作用：

📈表现提升，认知失察

使用AI的参与者不仅高估了自己的表现，而且这种过度自信的偏差程度，比没有使用AI的人更大。

🎭AI 抹平了达克效应

经典的达克效应（能力越低的人越容易高估自己）在使用AI后消失了。AI将所有人的表现都拉高到了一个相近的水平，但也导致所有人都产生了相似的、不切实际的自信。

🤔AI素养的悖论

越懂AI的人，在使用AI时反而对自己的表现判断越不准确。他们更自信，但这种自信与他们的实际正确率关联更弱。

全文约5100字，预计阅读时间12-15min

01 研究背景和贡献

我们正在经历一场认知外包的革命。当我们将复杂逻辑推理、信息检索甚至创意生成交给生成式AI时，一种普遍的分工模式逐渐形成：AI负责推导答案，我们负责接受结果。但问题在于，当我们越来越依赖AI完成认知任务时，我们是否还能清晰地感知到哪些是我做到的，而哪些是AI帮我做到的？我们对于自身能力的判断，是否会因为AI的存在而产生偏差？

这正是元认知所要回答的问题。元认知是人类监控、评估和调节自身认知过程的能力，它决定了我们在何时坚持自己的观点，何时应当寻求帮助，以及如何从经验中不断学习。在当前这个与AI协同工作越来越普遍的环境下，元认知的准确性直接影响了我们能否合理判断AI输出的可靠性，能否在AI犯错时及时干预，以及能否在与AI的协作中获得真正的进步。如果我们的元认知受到了AI的影响，我们就可能在不知不觉中高估与AI协作时自己的表现，并将AI的能力视为自己能力的一部分。

尽管已经有大量工作探讨了人机协同过程中对于表现的提升，但较少有研究深入到元认知层面进行探索。考虑到当前AI的飞速发展以及AI协作的越来越普遍，需要有研究深入探究AI如何影响我们对自己认知的判断，以及这种影响在不同能力水平的人群中是否存在差异。

来自阿尔托大学、慕尼黑大学等机构的研究团队，通过两项大规模实验 (N = 698)，首次系统性地揭示了AI使用与人类元认知之间的复杂关系。他们让参与者在ChatGPT辅助下完成法学院入学考试的逻辑推理题，并从元认知准确性（能否准确预估整体表现）、元认知敏感性（能否区分每次回答的对错）以及达克效应（能力与自我评估的错位）三个维度，深入剖析了AI对元认知的影响。研究发现，AI确实让我们更加聪明，客观表现显著提升。但是也让我们更不清醒，过度自信被系统性放大。有趣的是，更加了解AI技术的人，反而受到的影响更大。这项研究不仅揭示了AI使用与元认知之间的复杂关系，更对如何设计下一代人智交互系统，以帮助我们保持清醒的自我认知，提供了关键启示。

02 实验设计：如何测量AI辅助下的自我认知？

为了严谨地考察AI对元认知的影响，研究者设计了两项递进式的在线实验。

参与者：两项研究通过Prolific平台招募英语流利的美国居民。研究1共分析246名参与者（平均年龄39.85岁），他们在ChatGPT辅助下完成所有任务，其结果与Jansen等人（2021）公开的3543名无AI参与者数据（历史对照组）进行比较。研究2则招募了452名参与者，随机分配到AI辅助组（245人）和无AI对照组（207人），并对两组均给予小额金钱激励（约0.5英镑），以鼓励其认真进行自我评估。

任务与流程：核心任务为20道法学院入学考试逻辑推理题（与历史对照组使用的题目完全相同）。如图1所示，AI组界面左侧显示题目，右侧嵌入ChatGPT-4o对话窗口，参与者必须至少向AI提问一次才能提交答案，但可自由决定交互深度。每道题回答后，参与者需用滑块（0～100）报告对本题的信心评分。实验开始前和结束后，参与者还需分别预估自己在AI帮助下（或无AI时）能答对多少题（0～20），以及自己对AI系统能力的评估、任务难度感知等。

Fig1. 在线研究应用程序的示意图

测量指标：客观表现（答对题数）；元认知准确性（预估表现与实际表现之差）；元认知敏感性（每道题的信心评分能否区分回答正确与否，用ROC曲线的AUC值衡量）。此外，研究者使用SNAIL量表评估参与者的AI素养，该量表包含三个维度：技术理解（如对AI工作原理的熟悉度）、批判性评估（如能否判断AI输出的可靠性）和实践应用（如日常使用AI的频率和场景）。研究还收集了参与者的提示词记录，用于定性分析交互模式。

统计方法：除了常规的t检验、相关分析和四分位数对比外，研究者构建了分层贝叶斯模型，将参与者的潜在能力、元认知偏差和元认知噪声作为潜变量，同时纳入AI组与无AI组的数据，以检验达克效应的变化。该方法能更精细地剥离偏差与噪声在自我评估中的不同作用。

03 主要结果

1) AI增强人类表现，而非人机协同

研究首先验证了AI的增强效果。在研究一中，使用AI的参与者平均正确数为12.98题，显著高于无AI基准组的9.45题（Cohen‘s d = 1.23）。然而，表现的提升伴随着严重的元认知脱节。参与者平均预估自己能做对16.50题，即高估了约3.52题，这一高估偏差的效应量（d = 0.93）远大于无AI组的对应效应量（d = 0.29），说明AI组的过度自信程度更为显著。并且从平均值来看，人机组合的表现（约65%）并未超越AI单独回答的水平（68.25%），这意味着目前的协作模式仅仅是AI增强人类，未达到理想的人机协同状态。

Fig2.研究一的表现分数分布对比。蓝色曲线代表使用ChatGPT的参与者，黄色曲线代表未使用AI的对照组。垂直虚线为ChatGPT的平均表现

研究二的结果完美地复制了这一模式。AI组平均正确数为13.31题，优于无AI组的9.71题，但AI组平均预估17.13题，存在巨大高估。即使提供了金钱激励，这种过度自信依然存在。

Fig3. 研究二的表现分数分布对比。蓝色曲线代表使用ChatGPT的参与者，黄色曲线代表未使用AI的对照组。垂直虚线为ChatGPT的平均表现

2) 元认知敏感性：信心与正确性的弱关联

元认知准确性衡量的是整体预估的偏差，而元认知敏感性则衡量参与者能否在试次层面，根据信心程度区分自己的回答是对是错。研究通过ROC曲线分析（AUC值）来量化这种敏感性。

在两项研究中，AI组的平均AUC值约为0.62，虽显著高于随机水平（0.5），但明显低于通常被认为是可接受敏感性的0.7基准。这意味着，虽然参与者对自己的答案总体上很有信心，但他们的信心程度并不能很好地区分自己究竟答对了还是答错了——即便是答错的题，他们依然给出了相近的高信心评分。

图3. A.每个参与者的ROC曲线；B. AUC值的分布，显示大部分参与者的AUC集中在0.6左右

3) AI抹平了达克效应

经典的达克效应描绘了这样一种现象：能力最差的人，反而最会高估自己；而能力最强的人，则倾向于低估自己。研究团队使用分层贝叶斯模型，将本次的AI组数据与无AI的对照组数据进行了联合建模分析，以探究AI是否改变了这一效应。

模型的关键参数有两个：元认知偏差（b）和元认知噪声（σ）。偏差代表一个人整体高估或低估自己的倾向。噪声则代表一个人评估自己表现时的混乱程度。经典的达克效应，不仅需要存在偏差（b>0），还需要存在噪声（σ>1），这种噪声使得低能力者的自我评估更加不准确。

结果清晰地显示，对于无AI组，σ的估计值远大于1，符合达克效应的特征。而对于AI组，σ的估计值则集中在1附近。这意味着，使用AI后，低能力者与高能力者在评估自身表现时的混乱程度差异消失了。AI将所有参与者的表现拉到相近水平的同时，也使得所有人的自我评估方式趋同，从而导致达克效应消失。但这并非低能力者觉醒了，而是所有人的表现和评估方式被AI拉平了。正如论文作者所言，这支持了他们的增强假说，即AI的稳定输出抹平了个体间的技能差异，导致一种普遍的、高水平的过度自信。

Fig5.贝叶斯模型参数后验分布对比。A. 偏差参数b，显示AI组偏差更大；B. 噪声参数σ，显示AI组σ接近1，而非AI组远大于1；C. 模型预测的预期表现与实际表现关系，AI组（蓝色）的曲线更平坦，呈现均匀的过度自信

4) 懂AI，却不懂自己

研究者使用SNAIL量表测量了参与者的AI素养，并将其细分为技术理解、批判性评估和实践应用三个维度。结果显示了一个令人深思的悖论，即技术理解得分越高的参与者，其元认知准确性反而越低。他们对自己的表现评估偏差更大，同时也表现出更高的平均信心。批判性评估维度也与更高的表现估计值相关。这意味着，对AI运作方式更了解的人，并没有因此更冷静地审视自己的表现，反而陷入了更深度的过度自信。这或许是因为，对技术原理的了解让他们以为熟悉AI的工作流程就等于掌握了答题的能力，从而将AI的正确答案归功于自己的判断。

5) 浅尝辄止的AI使用

研究者为了理解为什么元认知会失效，进一步分析了参与者的聊天记录。结果发现，绝大多数参与者与AI的交互非常浅层。平均每道题只发送1.15个提示，46%的参与者在所有题目中最多只使用过一次提示。定性分析也显示，近60%的参与者表现出对AI的高度信任，会不加批判地直接采纳AI的答案，而只有21%的参与者将AI作为验证自己想法的补充工具。这种浅层互动模式，很可能是导致元认知监控缺失的直接原因。

Tab1. 每道题中使用的最大提示次数分布，显示多数人使用频率极低

04 结果讨论

1) 认知增强，元认知外包

这项研究最核心的启示是，当我们把认知任务外包给AI时，我们可能也无意中将元认知功能一同外包了。AI的流畅输出创造了一种知识幻觉，让我们误以为得出正确答案的推理过程源于自身，从而剥夺了我们进行自我反思和错误检验的机会。这验证了研究的增强假说：AI虽然提升了认知表现，但也抹平了个体在元认知能力上的差异，导致一种普遍的、高水平的过度自信。

2) AI素养不能保证清醒

研究结果对“只要提升AI素养就能解决问题”的简单观点提出了挑战。更高的技术理解，反而与更差的自我评估相关。这表明，现有的AI素养教育可能过于侧重如何使用AI，而忽视了如何在与AI协作中审视自己。真正的AI素养，或许应该包含对自身认知局限的深刻理解，以及对AI辅助下自我表现进行校准的能力。

3) 对交互设计的启示

面对AI带来的元认知挑战，研究提出了一系列设计原则。单纯提供解释或不确定性可视化可能不足以唤醒用户的自我监控。研究者建议引入“认知迫使策略”，例如要求用户在采纳AI答案前，先用简单的语言反向解释AI的逻辑。这种微任务能迫使用户进行深度加工，打破对AI输出的无意识接受，从而校准知识幻觉。

05 未来展望与收获

这项研究为我们理解人智交互提供了一个全新的批判性视角。

1) 对AI教育设计的启示

未来的AI教育不应止步于教会人们如何写提示词。更关键的是，要培养人们在AI辅助环境下的元认知能力，即教会人们如何区分“我的能力”和“AI的能力”，如何判断何时该依赖AI，以及如何从与AI的协作中进行有效的学习。

2) 在法律、医疗、金融等高风险决策领域

在法律、医疗、金融等高风险决策领域，AI辅助已经越来越普遍。这项研究敲响了警钟：一个在AI帮助下表现良好的专业人士，很可能严重高估了自己在没有AI时的判断力。这种过度自信可能导致灾难性的错误，尤其是在AI系统失效或给出错误建议时。

3) 研究局限性

首先，研究以LSAT逻辑推理题为核心任务。尽管该任务在元认知与达克效应研究中具有良好的基准价值，但其结构化、封闭性的特点限制了结论的外部效度。论文作者也指出，这类题目可能与ChatGPT的训练数据存在重叠，且无法反映写作、创意生成等开放性任务中元认知偏差的真实面貌。未来研究应引入更多元的任务类型，以检验现有结论的跨领域适用性。

其次，两项研究均为单次实验室任务，无法捕捉长期使用AI对元认知能力的累积影响。论文明确指出，在Bastani等人（2024）所考察的学习情境中，元认知准确性对于实现持续的表现提升至关重要。因此，未来需要纵向研究设计，以追踪个体在反复与AI交互过程中，元认知监控能力如何随时间演变。

最后，在交互设计层面，本研究要求参与者每题至少向AI提问一次，但交互深度完全由参与者自主决定。这一设定或许无法代表真实世界中更主动或更被动的AI使用模式。论文建议未来研究系统性地操控提示频率与交互深度，以直接检验更深度的人机交互是否能够改善元认知敏感性，为界面设计提供实证依据。

这篇研究提醒我们，评估AI对人类认知的影响，不能只停留在"表现是否提升"这一维度。当客观表现的增益与元认知准确性的下降同时发生时，我们面对的是一种更为复杂的权衡：AI在帮助我们解决问题的同时，也可能系统性地削弱我们对自身能力边界的感知。

正如论文作者所强调的，这一发现对人机交互系统的设计具有直接意义——未来的AI界面不应仅以提升任务表现为目标，更应将支持用户的元认知监控纳入核心设计原则，例如通过实时反馈、认知迫使策略等手段，帮助用户在与AI协作时保持对自身表现的准确判断。

在AI能力持续快速演进的背景下，如何在认知增强与元认知校准之间找到平衡，将是人机交互研究领域值得长期关注的核心命题。

我是桐，欢迎来公众号找我一起探讨！希望我们能一起进步！

Note: 部分内容使用DeepSeek、Hunter Alpha协助总结。