乐于分享
好东西不私藏

心理学报 | AI监管碰上你的暗黑人格,你还会诚实吗?

心理学报 | AI监管碰上你的暗黑人格,你还会诚实吗?

文献引用

王健树姜啸威,陈亚楠王明辉杜峰. (2026). 从显性威慑到隐性内化:AI监管和黑暗三联征人格对诚实行为的影响心理学报58(3), 381−398.


研究背景

随着生成式人工智能从被动工具演变为具有主动影响力的社会代理,AI越来越多地在内容审核、金融评估等场景中扮演“监管者”角色。然而,传统伦理监管模式基于理性人假设,认为个体对奖惩的反应是均质的,这忽视了人格特质这一关键调节变量,导致“一刀切”的监管策略效率低下,甚至产生“合规性悖论”——表面遵守规则,内在道德认同却受到侵蚀。
其中,黑暗三联征(自恋、马基雅维利主义、精神病态),作为预测道德偏差行为的稳健特质,广泛存在于一般人群中。探索这三类人格特质如何在不同AI监管策略下影响人类诚实行为,是构建个性化、高效化的AI伦理监管体系的关键。

研究变量

【AI监管】:AI对人类行为的监视与管理。包括3种类型:(1)显性监管(AI明确告知人类其行为处于实时监控之下, 并清晰说明违规将面临的惩罚后果)、(2)隐性激励(AI不直接告知规则,但通过设计好的奖励机制对人类的诚实行为进行持续强化。(3)社会激励(AI 在人类走出行为后,即时提供道德语料反馈——如“您的诚实体现了您高尚的品格, 值得敬佩!”)。
【黑暗三联征人格】:具有反社会倾向的人格特质群。包括3种类型:(1)马基雅维利主义(精于成本−收益计算和印象管理,具有高度的工具理性和机会主义,持有愤世嫉俗的世界观和实用主义道德观)、(2)精神病态(冲动,不易于恐惧,对奖励的神经反应可能异常,情感冷漠,缺乏道德情感)、(3)自恋(关注自我形象,追求优越感和特殊对待,自我膨胀但脆弱,对自我增强的强烈需求)。
【诚实行为】:个体如实表达信息、不刻意欺骗与隐瞒,言行符合客观事实的道德行为。

研究目的

  • 分别探究3种不同类型的【AI监管】对【诚实行为】的影响
  • 分别探究3种【黑暗三联征人格】在不同类型的【AI监管】与【诚实行为】之间的调节作用

研究假设

假设H1a:【AI显性监管】能够显著增加高马基雅维利主义者和高精神病态者的【诚实行为】。
假设H1b:【AI显性监管】对高自恋者【诚实行为】的影响可能不如前两者显著。
假设H2:【AI隐性激励】可增加【诚实行为】并产生一定的内化效果,但高马基雅维利主义者在激励撤除后,【诚实行为】减少得明显,内化效果差、高精神病态者的内化效果差、高自恋者的内化效果较好。
假设H3a:【AI社会激励】对整体【诚实行为】的增加有限,对高自恋者和高精神病态者基本无效。
假设H3b:【AI社会激励】对高马基雅维利主义者的【诚实行为】具有轻微的效果。

假设的推理逻辑

假设H1a

  • 高马基雅维利主义者→精于成本−收益计算↗AI显性监管→提供明确的惩罚威胁信号→提高违规的预期社会成本↘采取策略性合规(表面遵守以规避惩罚)→诚实行为增加

  • 高精神病态者→冲动性、低恐惧性↗AI显性监管→提供即时的、确定的惩罚威胁→产生较强的外部约束力↘决策更易受即时的、显著的后果驱动→诚实行为增加

假设H1b

  • 高自恋者→关注自我形象↗AI显性监管形象→在匿名AI监管情境中,形象维护动机减弱↘诚实行为不增加

假设H2

  • AI隐性激励→满足胜任需要、潜在的自主需要→促进道德内化→诚实行为增加

  • 高马基雅维利主义者→高度的工具理性和机会主义↗AI隐性激励→将奖励视为纯粹的外部工具→行为动机停留于外在调节水平→难以促进道德内化↘诚实行为增加、但易于恢复原状

  • 高精神病态者→情感淡漠、对奖励的神经反应可能异常↗AI隐性激励→高层次需要无法满足→难以促进道德内化↘诚实行为增加、但易于恢复原状

  • 高自恋者→追求优越感和特殊对待↗AI隐性激励→满足胜任需要→促进道德内化↘诚实行为增加并保持

假设H3a

  • AI社会激励→通过语言强化道德特质与自我的关联→提升道德认同的中心性→产生道德行为→诚实行为增加

  • 高自恋者→自我膨胀但脆弱、强烈的自我增强需要→拥有积极的道德自我观↗AI社会激励→忽视或贬低泛泛的道德反馈→引发防御性反应↘诚实行为不增加

  • 高精神病态者→情感冷漠、缺乏道德情感↗AI社会激励→无法激发内在道德动机↘诚实行为不增加

假设H3b

  • 高马基雅维利主义者→愤世嫉俗,实用主义↗AI社会激励→进行表面的策略性调整→维持基本诚信的印象↘诚实行为增加

理论支撑:
  • 社会规范理论
  • 自我决定理论
  • 道德认同理论

研究框架

实验1

  • 旨在考察【AI显性监管】分别与三种【黑暗三联征人格】对【诚实行为】的主效应与交互作用
混合实验设计:2(AI显性监管:存在 vs. 不存在) × 2(人格特质:高 vs. 低),AI监管是被试内变量,人格特质是被试间变量)
样本1(46名被试,线下实验,大学生)完成120个试次(存在、不存在各60试次)

实验2

  • 旨在考察【AI监管条件】分别与三种【黑暗三联征人格】对【诚实行为】的主效应与交互作用
混合实验设计:3(AI监管条件:存在且可见 vs. 存在但不可见 vs. 不存在) × 2(人格特质:高 vs. 低),AI监管条件是被试内变量,人格特质是被试间变量),使用广义线性混合模型(GLMM)进行分析
样本1(46名被试,线下实验,大学生)再次完成120个试次(存在且不可见)

实验3

  • 旨在同时考察【AI隐性激励】与【AI社会激励】分别与三种【黑暗三联征人格】对【诚实行为】的主效应与交互作用)

实验3a

  • 旨在考察【AI隐性激励】分别与三种【黑暗三联征人格】对【诚实行为】的主效应与交互作用
采用“基线−激励−内化”三阶段范式
混合实验设计:3(AI隐性激励:不激励 vs. 激励 vs. 不激励) × 2(人格特质:高 vs. 低), AI隐性激励是被试内变量,人格特质是被试间变量)
样本2(60名被试,线下实验,大学生)

实验3b

  • 旨在(1)考察【AI社会激励】分别与三种【黑暗三联征人格】对【诚实行为】的主效应与交互作用)
采用“基线−激励−内化”三阶段范式
混合实验设计:3(AI社会激励:不激励 vs. 激励 vs. 不激励) × 2(人格特质:高 vs. 低),AI社会激励是被试内变量,人格特质是被试间变量)
样本3(62名被试,线下实验,大学生)
  • 旨在(2)考察对比【AI隐性激励】与【AI社会激励】的效应
采用“基线−激励−内化”三阶段范式
混合实验设计:2(AI激励类型:隐性激励 vs. 社会激励) × 3(阶段:基线 vs. 激励 vs. 内化) × 2(人格特质:高 vs. 低),AI激励类型是被试间变量,阶段是被试内变量,人格特质是被试间变量),使用广义线性混合模型(GLMM)进行分析
样本2&样本3(共122名被试,线下实验,大学生)

研究工具

【黑暗三联征】

Jones 和 Paulhus (Jones & Paulhus, 2014)提出的黑暗三联量表(Short Dark Triad, SD3),27题,3个维度,5点计分。应用于实验1、实验2、实验3a、实验3b。

【诚实行为】

抛硬币任务(coin flip task) (Batson et al., 2002),120个试次。应用于实验1、实验2、实验3a、实验3b。

实验操纵

【AI显性监管】:通过指导语明确告诉被试:实验中会有一位AI监管助手随机巡视,如果屏幕右上角出现了一个AI头像则说明您当前正在受到监督。在有监管的试次中,如果被试做出不诚实行为,会受到金币惩罚并以红色字体呈现,而在无监管的试次中,无论被试是否做出不诚实行为,均不会被惩罚。仅应用于实验1。
【AI隐性监管】:在实验开始前,被试被告知,AI系统可能会在部分试次中对其进行监管,但他们无法在具体的试次中通过任何视觉线索(如AI头像)得知自己当前是否正被监管。只有当被试做出不诚实行为并恰好处于被监管的试次时,被试才会通过受到金币惩罚这一结果,反推自己刚刚受到了监管。仅应用于实验2。
【AI隐性激励】:若被试在连续5个试次中均做出诚实行为,则会额外获得50金币的奖励。然而,该奖励机制的存在并未向被试明确说明,而是需要被试通过实验中的反馈逐步探索与推断。仅应用于实验3a。
【AI社会激励】:如果被试做出诚实行为,将会给予鼓励的道德语料反馈,如果被试做出不诚实行为,则会给予引起被试反思的道德语料反馈。仅应用于实验3b。

研究结论

(1)【AI显性监管】会增加整体的诚实行为。但是,相比于高自恋者,【AI显性监管】对高马基雅维利主义者与高精神病态者的诚实行为增加幅度更大。

(2)【AI隐性激励】会增加整体的诚实行为,但是,【AI隐性激励】对高马基雅维利主义者的诚实行为的维持效果不佳。

(3)【AI社会激励】难以增加整体的诚实行为,而且完全无法影响高自恋者的诚实行为。

(4)对于增加与维持个体的诚实行为,【AI隐性激励】比【AI社会激励】更有效。


研究意义

理论意义

(1)展示了在不同外部监管与激励情境下, 人格特质如何动态地调节行为适应策略, 从而极大地丰富了人格−情景交互理论。

(2)打破了传统理性人监管假设,将人格特质确立为AI伦理监管效果的关键调节变量。

(3)创新性地提出“人格校准的道德计算框架”,主张通过AI捕捉行为模式推断用户人格参数,动态调整监管策略,为智能、自适应的算法治理提供了理论蓝图。

(4)划定了传统道德认同理论在匿名数字化情境下的应用边界,揭示了社会激励失效的心理机制。

实践意义

(1)针对高马基雅维利主义者,必须以显性威慑与透明规则为核心,清晰量化违规成本。

(2)针对高精神病态者,应侧重强规则约束与即时、高频的经济奖惩,利用其对即时信号的敏感性。

(3)针对高自恋者,需避免无效的道德说教,转向显性规则与可公开的声誉激励(如独特徽章、特权),以满足其自我增强需求。

(4)整体设计:建议AI系统采用“显性规则为基础,经济激励为引导,个性化反馈为补充”的混合动态模式。


研究不足与展望

(1)样本局限性:样本量相对有限且集中于大学生群体,未来需在更广泛、更多样的人群中进行验证。

(2)统计方法:部分分析中对人格变量进行中位数分组,损失了信息。未来可更多采用保留连续变量特性的回归分析方法。

(3)生态效度:实验室掷硬币任务与现实世界的复杂道德决策存在差距,结论的推广需谨慎。

(4)测量单一性:人格测量依赖自陈量表,未来可结合行为观察、神经影像学等技术,获取更客观、多维的人格及决策指标。

(5)模型深化:提出的“人格校准的道德计算框架”尚处于概念阶段,未来需开发具体算法,探索其在真实AI系统中的部署与应用。