证人证言可靠性:从心理学批判到AI时代新解-夜雨聆风

证人证言可靠性:从心理学批判到AI时代新解

作者：马皑肖俊泽刘晓倩曾钰泽

百年前心理学对证人证言盲信的批判，开启了证言科学研究的先河。在技术飞速发展的今天，AI 为证言可靠性评估带来了全新可能，也提出了新的伦理与实践命题。

法庭科学的终极使命是运用科学方法鉴定与固定证据，进而服务于司法判决，保证审判结果的客观公正。在不同类型的证据中，证人证言作为重要的言辞证据通常被认为是真实且客观的，我国古代亦有“眼见方为实，传言未必真”的谚语支撑这一观点。然而，尽管民间乃至司法界都这样认为，心理学家们却提出了另外的看法。

缘起：《在证人席上》的科学启迪

1908年，德裔美籍心理学家闵斯特伯格（H. Münsterberg）的著作《在证人席上——心理学与犯罪论文集》（On the Witness Stand: Essays on Psychology and Crime，以下简称《在证人席上》）面世，颠覆了人们传统上对证人证言的认知，也触碰了法学界的“底线”，甚至引发了法学家们的“众怒”。闵斯特伯格言辞犀利地批驳了司法诉讼过程中对证人证言盲目信任的现象，并归纳了可能歪曲证人证言的影响因素。

首先，闵斯特伯格提醒人们，证言不可靠并非例外而是常态。即使是一名精神正常的证人秉持客观公正的信念去陈述，也会由于感知错觉、记忆重构、事后暗示等而产生“真诚的错误证言”。其次，他强调个体的回忆表述经过大脑的加工，常常不是对原本事件的完整再现，而是一种重新建构，遵循“事件发生→编码→存储→提取”的基本脉络。其中每一步都会被大脑重新加工、填补甚至扭曲。时间越久、情绪越强烈、受到的暗示越多，记忆越偏离事实。再次，书中提出了诉讼情境也会“污染”证人证言的颠覆性观点，这是法学界从未考虑到且“无法接受”的。警察的重复讯问、律师的诱导性提问、共同目击者的证言、媒体的报道、指认时列队辨认的形式等，都会干扰证人的原有记忆。最后，闵斯特伯格尖锐地指出：司法领域对诸如血迹、指纹等客观物证用科学方法进行检验，而对最易出错且主观性极强的言辞证据却仅凭经验采信，这必然导致司法不公。

针对闵斯特伯格在书中的“慷慨陈词”，学界与实务界的回应是“你凭什么这么说，你的论据是什么，你的观点由何而来？”在证人证言是否可信的探索中，闵斯特伯格借助了在当时作为自然科学领域新兴的心理学思维与方法。1879年，冯特（W. Wundt）在莱比锡大学创建了人类第一个心理学实验室，用实验法研究人类意识，标志着科学心理学的诞生。科学心理学将人类意识的研究纳入科学实验的范畴，遵循自然科学范式，强调可观察、可重复、可证伪。它将研究对象锚定在那些具有客观属性的目标上，例如大脑功能、神经系统、生理反应等。作为冯特的弟子，闵斯特伯格将实验心理学的研究范式引入司法领域，用实验数据说话，而非简单地凭借感性与经验。例如他曾设计了一项“速度知觉”实验以证明在汽车事故中，证人的感官直觉具有极大的不确定性。该实验用转动的黑盘指针模拟车辆运动，要求受试者估测其速度。结果显示，对于同一客观速度，受试者的回答竟涵盖了从“蜗牛爬”到“特快列车”的离谱跨度。经过一系列实验研究后他提出：目击证人对“车速”的判断是受目击者距离远近、过往经验和运动状态等因素影响的主观重构^[1]。闵斯特伯格凭借其开创性的理念成为了司法心理学之父，也撼动了司法领域过于依赖感性经验与逻辑思辨判断证人证言的传统。

证人证言如果无法做到客观真实，对审判结果的影响将是巨大的。在现实世界里，耳听未必为实，眼见未必是真，证人信誓旦旦的证词没准会要了无辜者的性命。闵斯特伯格的历史价值在于用确凿的实验数据提醒我们关注目击者证言中隐含的巨大司法风险，用自然科学的方法提醒公众谨言，警示法官慎思。

核心挑战：证言为何难以真实

闵斯特伯格为整个司法界敲响警钟后，心理学和法学界相继有学者投入证人证言可靠性的研究中。如今，已形成了这样的共识：证言的可靠性可能远低于人们的心理预期，从事件发生到法庭作证的整个过程中，诸多内外部因素共同构成了证言失真的风险。更为重要的是，这并非偶然的个体偏差，而是根植于人类认知系统的固有局限，现代心理学通过实验对其进行了系统揭示。

感知阶段

人类对事件的感知本质上是对事件客观属性的选择性加工，受客观环境因素和目击者主观状态的影响，这在源头上为证言的失真埋下了伏笔。

事件的固有特征直接限定了感知的范围与精度，即便目击者全力关注，也难以突破这些客观约束。首先，并非所有的事件信息都能引发目击者同等程度的关注。例如在抢劫案中明晃晃的凶器、车祸中飞溅的碎片，往往比嫌疑人的发型、衣着等细节更容易被精准感知。马歇尔（J. Marshall）及其同事在1971年的实验发现，位于视野中心、颜色鲜艳、处于运动状态或功能关键的高显著细节，能引发更多注意力资源投入，记忆的准确性与完整性显著高于边缘细节^[2]。其次，事件暴力程度通过情绪唤醒影响感知效果。克里福特（B. R. Clifford）和斯科特（J. Scott）1978年的研究显示，观看暴力事件视频的被试，因强烈的情绪冲击导致感知范围收窄、细节捕捉能力下降，其回忆准确性明显低于观看非暴力事件的对照组^[3]。

如果说事件属性是感知的“硬约束”，那么目击者的主观状态则是过滤信息的“软滤镜”，可通过注意力分配、认知预期等方式扭曲感知结果。例如情境压力的大小将影响个体的注意力分配。耶克斯—多德森定律（Yerkes-Dodson law）表明，适度压力能提升感知效率，但暴力事件引发的极端压力会导致注意力高度聚焦于威胁源，即武器聚焦效应（weapon focus effect），这一现象已被多项模拟犯罪实验重复验证。此外，文化上的“预期与偏见”也会影响感知。在奥尔波特（G. W. Allport）和博斯特曼（L. J. Postman）的实验中，被试依次传递并描述“黑人持剃刀”的照片，在最终描述中逐渐演变为“黑人疯狂挥舞剃刀威胁白人”^[4]，文化预期让感知被刻板印象扭曲了。布鲁纳（J. S. Bruner）和博斯特曼（L. E. O. Postman）的扑克牌实验发现，过往经验形成的认知预期会主动抗拒不符合常识的客观信息：当给被试呈现涂成红色的黑桃A时，被试仍倾向于报告看到的是黑桃A^[5]。

记忆加工

如果说感知是对信息的选择性接收，记忆则是对信息的创造性重构。个体记忆在编码、存储和提取的三个阶段均存在被扭曲的风险：编码阶段会受感知偏差的影响，存储阶段则遵循“遗忘曲线”的规律，提取阶段易受外部线索干扰。

记忆的重构特性在事后信息影响下表现得尤为突出。洛夫特斯（E. F. Loftus）让被试观看多车事故录像后询问“车辆A违反停车让行标志时车速有多快？”，53%的人报告看到了该标志，而在问题中未提及标志的对照组报告看到该标志的比例仅35%。在另一项实验中，被试被问及“白色跑车途经谷仓时速度有多快？”，一周后有17%的人声称看到了并不存在的谷仓，而对照组仅有3%。简单的提问暗示便诱发了虚假记忆^[6]。这种“记忆折中”现象在群体性目击场景中更为常见，当目击者接触到同伴的错误描述或媒体报道后，往往会在自身记忆与外部信息之间形成混合记忆，心理学称之为“记忆从众（memory conformity）”。

记忆的真相：破碎与重构

从实验室到法庭，大量证据表明证言失真并非个体诚信问题，而是人类认知系统在感知、记忆与表达过程中的必然局限。这些局限通过可重复的心理学实验被量化与揭示，人类也不断在司法实践中面对和解决这些挑战。

实践演进：辨别真伪的科学方法

古往今来，人们试图通过各种方法验证那些或主观或客观出现的“伪证言”。这些方法的本质是试图用理性的标尺去丈量变幻莫测的人心。从古代衙门里察言观色的“直觉艺术”，到近代审讯中的“心理分析”，再到当前实验室中借助电生理设备的“生理解码”，这些方法的演进历程不仅是简单的工具迭代，更是辨别证人证言内在逻辑的范式转型。

古代司法中的“直觉判断”

在现代心理学介入之前，古代司法官员并非对伪证束手无策，他们基于大量的断案经验，摸索出了一套实用的“读心术”，其原理是利用嫌疑人在压力下的生理应激反应来推断其供述是否属实。中国古代法学与法医学经典《折狱龟鉴》《洗冤集录》中各记载了生动案例：北宋陈述古利用罪犯“做贼心虚”的心理，通过检验手掌是否有墨迹这一特征锁定了真凶；南宋宋慈利用嫌疑人对苍蝇生物特性的认知（对血腥味敏感）进行施压，命众嫌疑人将镰刀暴晒于烈日之下，进而击溃嫌疑人心理防线。这些方法都是审判者通过制造特定的高压情境诱发嫌疑人的恐惧与焦虑，观察其不可控的生理反应进行判断。然而，这种诱导式的“直觉判断”高度依赖审判者个人的洞察力，缺乏标准化流程。更糟糕的是，无辜者也可能因紧张而表现出类似撒谎的“虚假表现”，因此难以成为鉴别证言真伪的通用标准。

认知访谈技术

随着20世纪实验心理学的介入，辨别真伪的方法迎来了从“拷问记忆”向“挖掘记忆”的科学飞跃，其代表是费舍尔（R. P. Fisher）等人开发的认知访谈技术^[7]。在一桩典型的肇事逃逸案中，调查员并未施压，而是引导目击者运用逆序回忆法，从事故发生后倒着向前叙述。这种反直觉的叙述方式成功打破了证人脑中固有的脚本化思维，帮助其敏锐捕捉到了“车尾灯破损”“车牌含字母K”等微观细节。这一技术基于认知心理学中的“编码特异性原则”，即记忆是与相应的环境和情绪线索绑定的。通过帮助证人进行“情境复原”和“多角度回忆”，关闭其大脑的逻辑填补功能，迫使证人调用最原始的感知记忆。尽管该方法对询问者的专业素养要求极高且耗时较长，但实证数据显示，该方法能将有效信息提取量提升35%~50%。同时，它标志着司法领域的讯问谈话风格从诱导性向科学性转型。

序列列队辨认

认知访谈是为了获取更准确的信息，序列列队辨认方法则帮助我们在验证环节对证言的可靠性进行验证。1984年，一名受害者在指认强奸犯时，因面对传统的“同时列队”（多张照片并排展示），陷入了“相对判断”的误区。这种辨认方式导致被害人并非在确认真凶，而是在潜意识中寻找“这组人里最像”凶手的那个人。这种诱导性的程序设计导致无辜者罗纳德被错误指认并蒙冤入狱长达11年，直至1995年通过DNA技术找到了真凶才得以昭雪。据此，心理学家韦尔斯（G. L. Wells）推动了序列列队辨认法的普及，要求目击者每次只能看一张照片并立刻做出判断^[8]。这种改变迫使证人将眼前的视觉刺激直接与脑海中的记忆痕迹进行比对，阻断了代偿性选择。尽管这可能会因标准变严而降低对真凶的识别率，但尽可能规避了因证言错误而导致冤假错案的可能。

列队辨认的科学

标准内容分析

在某些案件中，言辞证据可能成为主要证据。因此，心理学家们开始深入语言的微观结构，试图用标准化的内容分析（criteria-based content analysis, CBCA）来寻找真相。源于真实体验的陈述与编造的谎言在认知质量上存在本质差异。在多起缺乏旁证的性侵案件中，心理学家发现受害者的陈述虽然在时间线上跳跃甚至混乱，但却对独特的气味、触感等感官细节记忆犹新。这种“非结构化”的特征恰恰证实了记忆的真实性。因为编造的谎言为了取信于人，往往“逻辑严密”且时间线完整。标准化内容分析技术利用这种“不完美即真实”的规律，对证言进行半定量打分，对证言进行科学评估，特别适用于历史陈述案件。不过，作为一种主观评分工具，它依然面临被高智商说谎者通过模拟真实特征进行“反侦察”的风险。

电生理测试

近年来，随着电生理技术的发展，为突破主观语言的局限，现代法庭科学开始引入眼动追踪（eye tracking）、事件相关电位（event-related potential, ERP）等技术，试图直接从神经层面来鉴别谎言。研究发现，当嫌疑人看到其熟悉的作案工具或场景时，大脑会在约300毫秒后产生一个无法伪装的特异性电位，瞳孔也会出现微小的放大反应。言语可以经过逻辑的修饰与编造，但源自潜意识的生理与神经反应是很难被意识所控制的^[9]。这种方法将证言评估的维度从“心理”推向了“生理”，极大地提高了客观性。虽然目前该技术仍受限于设备复杂度和个体生理差异，但作为侦查阶段的辅助工具，它仍能发挥排除嫌疑人、确认关键情节等重要作用。更重要的是，这些技术手段的引入表明证言可靠性研究向自然科学迈出了坚实的一步。

当前，鉴别证人证言可靠性的手段正变得越来越精确。然而，现有技术依然主要依赖人类专家的操作与解读，这就可能导致新的认知偏差的出现。同时，当实务经验丰富的专家逐渐减少，能获取的数据量爆发式增长，“深度伪造”技术不断污染涉案人员的感官信息时，这种纯粹依赖“资深专家”的辨别方式存在高度的局限性。幸运的是，人工智能（artificial intelligence, AI）技术的飞速发展为解决这些问题提供了全新思路。

未来图景：AI时代的证言心理学

随着人工智能技术的迭代，尤其是机器学习、自然语言处理、多模态数据融合等领域的突破性发展，证人证言可靠性研究可能在未来迎来真正的技术赋能红利。

首先，多模态技术的发展将极大提升证言真伪的识别率。传统证言真伪判断多依赖证人的非语言行为（如表情、肢体动作）与语言逻辑，但人类观察者受自身认知偏差影响，难以捕捉到欺骗行为背后的细微信号。而多模态AI模型通过整合音频、视觉、文本等多维度数据，可实现对证词的全方位、精细化解析，显著提升欺骗检测的准确性。2025年，巴尔迪瓦斯（R. I. A. Baldivas）团队研发的LegalEye多模态机器学习模型，采用神经网络与后期融合技术，跨多种语言对法庭证言的多维度特征进行分析，将虚假证言的欺骗检测率提升到了85%~97%^[10]。

其次，自然语言处理技术的深度应用，也在推动标准内容分析走向精细化。证人证言的语言表达背后，隐藏着记忆编码、认知负荷、情绪状态等诸多心理信号，传统研究依赖人工编码分析，不仅效率低下，还容易掺杂主观判断。‌格林斯潘（R. L. Greenspan）团队开发的自动化模型对4541名成年证人的言语自信度陈述进行了高、中、低三级分类，准确率达到71%^[11]。该模型还创新性地提出“自信熵”指标，用以衡量证人自信陈述的模糊程度，其对证言准确性的预测效果，与证人自我报告的自信度相当，为证言评估提供了全新的量化维度。

最后，机器学习技术也帮助我们突破“语言与表情”的局限。2025年，古斯塔夫松（P. U. Gustafsson）等人的研究揭示了一个重要规律：真实证言与虚假证言对应的认知负荷存在差异，这种差异会通过声音特征的细微变化体现。该研究团队以51名证人的3337份陈述样本为基础，采用支持向量机（SVM）模型进行分析，最终实现了对证言准确性的有效预测，准确率优于随机水平20%~40%。该团队提出：响度、停顿时长是判断证言真伪的关键声学指标^[12]。

同时，我们也应该认识到：技术的发展也是一把双刃剑。AI在赋能证人证言研究的同时，也潜藏着不容忽视的风险与伦理争议。2024年的一项研究发现：与AI对话的目击者产生的虚假记忆数量竟是对照组的3倍。更可怕的是，这种“AI植入”的错误记忆极其顽固，目击者在一周后不仅没能纠正，反而对这些虚假细节深信不疑，其自信度显著高于其他组别^[13]。这揭示了该技术的核心风险，即在司法实践中盲目轻信AI技术可能诱导证人产生虚假记忆，进而酿成冤假错案。不仅如此，AI评估过程需要收集证人的表情、声音、文本等敏感数据，如何保护证人隐私、避免数据泄露与滥用，同样是亟待解决的伦理难题。

因此，AI时代的证人证言研究必须走“技术创新与规范约束”并行之路，其核心趋势是实现“人机协同”，而非“人机替代”。AI作为工具，可弥补人类在信息处理、细微信号识别上的认知局限，而人类则需把控伦理方向、解决复杂的司法适配等问题。唯有如此，才能在未来让科学技术真正成为守护司法公正的坚实力量，使证言评估更精准、更客观、更公平，真正实现“明察秋毫”的终极目标。

马皑：教授，中国政法大学社会学院，北京102249。chinafzxl@163.com

肖俊泽：讲师，国际关系学院心理学院，北京100080。

刘晓倩，副教授；曾钰泽，讲师：中国政法大学社会学院，北京102249。

Ma Ai: Professor, School of Sociology, China University of Political Science and Law, Beijing 102249.

Xiao Junze: Lecturer, School of Psychology, University of International Relations, Beijing 100080.

Liu Xiaoqian, Associate Professor; Zeng Yuze, Lecturer: School of Sociology, China University of Political Science and Law, Beijing 102249.

[1]Münsterberg H. On the witness stand: Essays on psychology and crime. New York: Doubleday, Page & Company, 1908.

[2]Marshall J, Marquis K H, Oskamp S. Effects of kind of question and atmosphere of interrogation on accuracy and completeness of testimony. Harvard Law Review, 1971: 1620-1643.

[3]Clifford B R, Scott J. Individual and situational factors in eyewitness testimony. Journal of Applied Psychology, 1978, 63(3): 352.

[4]Allport G W, Postman L J. The psychology of rumor. New York: Henry Holt and Company, 1947.

[5]Bruner J S, Postman L E O. On the perception of incongruity: A paradigm. Journal of Personality, 1949,18(2): 206-223.

[6]Loftus E F, Miller D G, Burns H J. Semantic integration of verbal information into a visual memory. Journal of Experimental Psychology: Human Learning and Memory, 1978, 4(1): 19-31.

[7]Fisher R P, Geiselman R E. Memory-enhancing Techniques for Investigative Interview. Springfield, IL: Charles C Thomas, 1992.

[8]Wells G L, Olson E A. Eyewitness testimony. Annual Review of Psychology, 2003, 54(1): 277-295.

[9]马皑. 犯罪心理学. 北京: 中国政法大学出版社, 2014.

[10]Baldivas R I A, Sreenivasan N, Kang S Y, et al. LegalEye: multimodal court deception detection across multiple languages. Behavioral Sciences, 2025, 15(12): 1707.

[11]Greenspan R L, Lyman A, Heaton P. Assessing verbal eyewitness confidence statements using natural language processing. Journal of Experimental Psychology: General, 2024, 153(5): 1024-1041.

[12]Gustafsson P U, Lachmann T, Laukka P. Machine learning predicts accuracy in eyewitnesses’ voices. Journal of Nonverbal Behavior, 2025, 49(1): 155-169.

[13]Chan S, Pataranutaporn P, Suri A, et al. Conversational AI powered by large language models amplifies false memories in witness interviews. ArXiv: 2408.04681.

关键词：法庭科学证人证言记忆扭曲人工智能■