AI 介入的时间点,正在改变我们的思考
原文题目:Investigating the Effects of LLM Use on Critical Thinking Under Time Constraints: Access Timing and Time Availability
中文译名:在时间限制下使用 LLM 对批判性思考的影响:AI 介入时机与任务可用时长
作者:Jiayin Zhi, Harsh Kumar, Mina Lee
来源:CHI 2026
时间:2026-03,arXiv:2603.08849v1
说明:本文为论文摘要与 Introduction 部分的中文编译稿。
大语言模型对批判性思考的影响,已经引发了越来越多关注。但这种影响并不一定是单向的:它既不总是负面的,也不总是正面的。尤其是一个关键因素常常被忽略:任务中的时间条件。
这里的时间条件既包括 AI 在任务中什么时候开放,也包括任务本身留给参与者多少时间。
在一项 393 人参与的组间实验中,研究者考察了两类时间条件如何影响批判性思考任务中的 LLM 使用。这个任务要求参与者阅读多份材料,并基于这些材料,为一个真实世界情境做出有理由的决策。
研究者操控了两个因素。
第一是 AI 介入时机。AI 不是简单地「能用」或「不能用」,而是在任务的不同时段开放。研究者把它分成四种情况:
第二是 任务可用时长。参与者到底有多少时间完成任务?研究者设置了两种情况:时间不足是 10 分钟,用来制造真实的时间压力;时间充足是 30 分钟,允许参与者更从容地阅读、比较和思考。
研究发现了一种「时间反转」现象:当参与者处于时间压力下时,从一开始就能使用 LLM,或者全程都能使用 LLM,会提升他们的任务表现;但当任务时间充足时,同样的早期或全程 LLM 介入,反而会降低表现。
相反,那些先独立开始任务的参与者,也就是只在后期使用 LLM 或完全不使用 LLM 的人,则呈现出相反模式:他们在任务时间充足时表现更好。
这些发现说明,时间条件会根本性地影响 LLM 到底是在增强还是削弱批判性思考。因此,在设计 LLM 支持系统、评估人机协作中的认知任务时,不能只看有没有 AI,也要看 AI 什么时候介入,以及人有没有足够时间自己思考。
批判性思考,是指一个人能够面对多样且有时相互冲突的信息,通过分析、评估和综合,形成有理由的判断。这种能力对我们的工作和生活都很基础。
在今天的线上信息环境中,无论是面对互相冲突的新闻,还是基于零散文件做判断,人们经常会遇到需要批判性思考的情境。我们需要把这些经过推理得出的结论,用在不同目的上:解决一个问题、决定一个行动,或回答一个具体问题。
这个过程包括:从相关来源中提取有论证价值的信息,分析信息来源是否可信,避免偏见,并且简洁地表达自己的推理过程。
随着生成式 AI,尤其是大语言模型,越来越多地被整合进信息技术中,批判性思考也越来越容易受到它们的影响。事实上,在用户带给主流 LLM 聊天机器人的任务中,批判性思考是最经常被要求的能力。
已有一些用户研究为 AI 使用和批判性思考之间的关系提供了初步洞察。例如,有研究收集了知识工作者在不同工作任务中使用生成式 AI 时如何进行批判性思考的案例。也有混合方法研究考察普通用户如何感知自己的批判性思考能力,发现使用 AI 工具可能会降低他们的认知投入。
举例来说,AI 直接生成的摘要,可能会让用户不再需要自己理解原始资料,也不再需要自己评估证据。
不过,这些方法还不足以建立因果关系,也不足以客观测量实际表现。因此,AI 使用到底会带来怎样的表现后果,仍然不清楚。
除了用户研究和自我报告之外,我们还需要使用能够评估批判性思考表现的实验任务,来判断 LLM 的影响到底是如何实际显现的。
此外,LLM 对批判性思考的影响,可能并不是统一的负面或正面,而是取决于 LLM 被提供时所处的时间条件。
对于需要持续推理的认知任务来说,有两类时间限制对人机协作尤其重要。
第一,是 AI 介入时机。近期研究显示,在解决数学问题和创意写作中,较晚阶段使用 LLM 可能带来好处。不过,对于批判性思考来说,我们也有理由期待早期使用 LLM 可能有益。它可以作为一种前期支撑,处理一些准备性工作,比如收集可用信息、理解基本概念,从而可能释放认知资源,让人投入更深入的思考。
第二,是 任务可用时长。在实践中,人们经常面临时间压力,不管这种压力来自明确的截止日期,还是来自隐含的期待。已有研究表明,时间压力会影响认知表现,让人从审慎推理转向更依赖经验捷径的处理方式。
这两个时间维度在现实中本来就是相互作用的。但过去研究往往只单独考察其中一部分条件,而且分散在不同领域里。这样的研究图景仍然留下了重要空白:在真实任务中,当 AI 介入时机和任务可用时长同时发生作用时,时间限制究竟如何塑造 LLM 对批判性思考的影响?
在这项研究中,研究者考察了 LLM 如何在两类时间限制下影响参与者的批判性思考任务表现:第一,LLM 的介入时机;第二,任务可用时长。
研究者测试了四种 LLM 介入时机:Early、Continuous、Late 和 No LLM access。也就是说,LLM 分别只在任务开始时可用、全程可用、接近结束时可用,或完全不可用。
对于任务可用时长,参与者要么在时间不足的条件下完成任务,要么在时间充足的条件下完成任务。
基于这些时间条件,研究者提出了两个研究问题:
RQ1:在不同任务可用时长下,LLM 介入时机会如何影响批判性思考任务表现?
RQ2:在相同 LLM 介入时机下,任务可用时长会如何影响批判性思考任务表现?
为了回答这些问题,研究者进行了一项预注册的 4 × 2 组间实验,参与者人数为 393 人。
实验采用了 iPAL 框架,也就是 International Performance Assessment of Learning。这个框架用于评估真实情境中的批判性思考表现。
研究者使用了一项批判性思考表现评估任务。这个任务要求参与者基于一组特征不同的材料,为一个公共生活中的真实世界场景做出有理由的决策。
参与者需要在这些材料中浏览、分析,并从证据中推理;他们还需要评估信息来源,并把相互冲突的观点综合起来,写成一个有理由的书面决策。这个过程能够捕捉批判性思考中非线性、相互往返的心理过程。
在时间不足或时间充足的条件下,参与者被随机分配到四种 LLM 介入时机之一,并完成任务。研究者主要根据任务中的短文来评估表现。
此外,研究者还测量了参与者在三个方面的表现:回忆,也就是记住给定材料;评估,也就是判断来源材料的特征;以及理解,也就是基于证据推理来理解材料。这些指标用来捕捉可能影响批判性思考的认知活动。
任务结束后,参与者还完成了一份批判性思考自评。
总体而言,研究结果表明,LLM 使用对批判性思考任务表现的影响,根本上取决于 LLM 介入时机和任务可用时长。
对于第一个研究问题,在时间不足的条件下,从一开始就能使用 LLM,也就是 Early 和 Continuous LLM access,会提升参与者的短文表现;相比之下,先独立工作的参与者,也就是 Late 和 No LLM access,表现较弱。
但在时间充足的条件下,这个模式发生了明显反转:那些先独立工作的参与者,表现出更好的短文成绩。
此外,在时间充足时,从一开始就能使用 LLM,也就是 Early 和 Continuous LLM access,会损害参与者的回忆表现。这说明,AI 从一开始介入,可能会阻碍人对原始材料的内化。
对于第二个研究问题,时间充足会显著提升先独立工作者的短文表现和回忆表现;但对那些从一开始就能使用 LLM 的参与者来说,时间变多带来的帮助很小。
与此同时,参与者的自我评估在不同条件下差异很小。这说明,自评可能很难发现 LLM 在不同时间条件下对批判性思考造成的影响。
研究者进一步分析了参与者和 LLM 的互动记录,以理解这些结果背后的机制。
这项研究表明,在讨论 LLM 对批判性思考的益处或危害时,考虑时间限制非常重要。
具体来说,研究作出了以下贡献:
▪ 第一,提供了关于 LLM 对批判性思考影响的丰富实证发现。它不再只是简单比较「使用 LLM」和「不使用 LLM」,而是进一步区分不同的 AI 介入时机和任务可用时长。
▪ 第二,为需要批判性思考的任务如何设计 LLM 支持提供建议。
▪ 第三,为人机协作研究提供启示,强调研究者需要考虑时间限制。
相关工作
批判性思考及其评估
批判性思考,是指通过分析、综合和评估信息来形成有理由的决策。它涉及更高阶的认知过程,并在学习中发挥重要作用。
在布鲁姆分类法中,这些高阶过程与记忆、理解和应用等较低阶活动有关。个体需要先内化并理解信息,才能把这些信息作为进一步思考的基础。
教育学和心理学研究者长期关注如何测量批判性思考。总体来说,主要有三种方法:标准化测试、自我报告量表,以及表现评估。
标准化测试通常会给参与者一个短场景,然后提出问题。例如,Watson-Glaser Critical Thinking Appraisal 这类多项选择测试,会先呈现短文,再让参与者回答关于推理、假设识别或逻辑缺陷的问题。Halpern Critical Thinking Assessment 这类混合形式,则结合了多项选择题和简短开放回答。
举例来说,参与者可能会读到一个关于新药的简短场景,然后被问:「这个推理中的缺陷是什么?」这种问题会明确引导参与者关注一个预先设定好的问题。
不过,这类评估有一定局限。它们无法充分捕捉真实的批判性思考,因为参与者是在被明确提示之后识别问题,而不是独立发现问题。它们也更强调确定性的逻辑判断,并且和真实信息环境有距离。在真实情境中,批判性思考往往需要人跨越多个信息来源,进行分析、评估和综合。
自我报告量表则要求参与者评价自己的批判性思考。例如,Critical Thinking Self-Assessment Scale 会让参与者评价类似这样的陈述:「我会检查一个论证背后理由的逻辑强度。」
已有研究显示,自我报告存在风险。参与者往往会高估自己的能力,在评估自身表现时,也可能表现出较差的元认知准确性。
表现评估试图回应这些局限。它会把参与者置于一个真实感更强的决策场景中,给他们一组经过设计的文档,并要求他们写出论证性短文来解释自己的推理。
iPAL,也就是 International Performance Assessment of Learning,是一种较新的表现评估框架,用来回应早期框架中主观评分的挑战。它已经在教育学和心理学研究中的不同人群里得到广泛验证,显示出能够捕捉批判性思考的多个方面,并具有良好的评分者一致性。
已知群体验证也支持它的构念效度:接受过批判性思考训练的参与者,在表现上通常会优于控制组。这个框架已经被用于从日常情境到高等教育、行政、教育和经济学等专业领域的实证研究。
这个框架具有较强的生态效度,因为它模拟了高密度的信息环境,类似真实世界中的公共参与场景。研究者观察到的不是参与者在被提示之后是否能识别一个逻辑缺陷,而是他们在不知道自己正在接受批判性思考评估的情况下,是否能够定位、分析、评估和综合相互冲突的信息来源,并形成和表达有理由的决策。
因此,这种方法适合捕捉批判性思考中真实、非线性的多个面向。
此外,由于所有论证信息都存在于这个被构建出来的信息环境中,评分也变得更客观。评分主要基于参与者综合和呈现的论点数量与质量,而不是对修辞或写作技巧进行整体判断。
这种方法也减少了与评估目标无关的变异,因为它尽量降低了参与者既有背景知识的干扰。评估测量的是参与者如何基于给定证据进行推理,而不是他们原本已经知道什么。
LLM 对批判性思考的影响
随着 LLM 变得越来越普遍,它们对批判性思考的影响也受到越来越多关注。近期用户研究提供了一些有价值的初步洞察。这些研究主要基于用户在个人和专业情境中的自我报告经验。
例如,有研究发现,普通用户使用 AI 工具越频繁,越倾向于报告自己批判性思考能力下降。也有研究考察知识工作者在使用生成式 AI 时如何进行批判性思考,发现对生成式 AI 的信心越高,批判性思考的实际运用越少;而对自身能力的信心越高,批判性思考的实际运用越多。
不过,这些早期研究主要依赖用户如何感知自己的批判性思考能力和行为,而不是客观表现指标。实际行为可能与用户自我感知不同。尤其是在复杂推理中,元认知盲区很常见。
目前更不清楚的是,LLM 使用到底如何影响需要批判性思考的任务表现,因为这方面的实验证据仍然有限。
与本研究最接近的一项实验研究,考察了 LLM 如何影响日常情境中的信息搜索和在线推理。该研究比较了使用 LLM 和使用传统搜索引擎来撰写园艺建议的参与者。结果发现,使用 LLM 的参与者报告的学习深度更低,花在任务上的时间更少,产出的建议也更稀疏。
不过,这个任务风险相对较低,也不一定要求参与者评估相互冲突的信息来源,或综合彼此竞争的论点。此外,该研究把学习作为单一构念,通过自我报告评分来测量;在缺乏受控信息环境的情况下,表现也可能受到参与者既有背景知识的影响。
本研究试图回应这些空白,进一步考察 LLM 对批判性思考的影响。研究使用表现评估框架,在一个受控信息环境中客观评估批判性思考。在这个环境里,参与者需要处理和推理一组新的文档,这些文档在相关性、可信度和立场上各不相同。参与者需要基于这些材料解决一个公共决策情境,从而尽量减少背景知识带来的混淆。
人机协作中的时间限制
基于既有文献,研究者识别出两类会影响思考和学习中人机协作的时间限制:LLM 的介入时机,以及完成任务可用的时间。
第一,是 LLM 介入时机。
近期研究显示,较晚阶段接触 LLM,可能有助于思考和学习结果。在数学教育中,有研究发现,当学生先独立尝试解题,然后在练习过程中再获得 LLM 解释时,LLM 解释对测试表现最有帮助。
在创意写作中,也有研究发现,与在整个任务过程中持续使用 LLM 相比,在给定任务时间的后半段使用 LLM,会更好地保留想法的原创性。
不过,也有理由期待早期 LLM 介入可能带来好处,尤其是在批判性思考任务中。LLM 可以作为一种初始支撑,处理较低阶的认知活动,比如信息检索和初步理解。这些活动往往更常发生在任务早期。这样做可能释放认知资源,让人把更多精力投入高阶思考活动。
因此,对于批判性思考来说,LLM 的最佳介入时机仍然是一个需要实证回答的问题。
第二,是 任务可用时长。
心理学、管理学和组织行为研究早已表明,时间压力会影响人类认知。例如,有研究发现,在时间压力下,人们在推理任务中的表现会受损,表现出有限的深思熟虑能力,并更依赖启发式处理。
在人机交互研究中,也有研究考察了时间压力如何影响参与者是否同意 AI 建议;还有研究同时考察了时间压力、AI 建议和人类决策的先后顺序。
不过,这些研究主要关注的是,在离散选择任务中,参与者是否同意 AI 推荐。这和需要持续推理的开放式思考和学习任务不同,背后的机制也不一样。
在实践中,这两个时间维度本来就会相互作用:AI 介入时机,总是在任务可用时长的范围内发生。
然而,过去研究往往把它们分开考察,还有许多组合没有被探索。因此,本研究考察了不同任务可用时长下 LLM 介入时机的影响,也反过来考察了在相同 LLM 介入时机下任务可用时长的影响,希望系统理解时间限制如何塑造批判性思考中的人机协作。
夜雨聆风