心理学报 | AI监管碰上你的暗黑人格,你还会诚实吗?

文献引用

王健树, 姜啸威,陈亚楠, 王明辉, 杜峰. (2026). 从显性威慑到隐性内化：AI监管和黑暗三联征人格对诚实行为的影响. 心理学报, 58(3), 381−398.

研究背景

随着生成式人工智能从被动工具演变为具有主动影响力的社会代理，AI越来越多地在内容审核、金融评估等场景中扮演“监管者”角色。然而，传统伦理监管模式基于理性人假设，认为个体对奖惩的反应是均质的，这忽视了人格特质这一关键调节变量，导致“一刀切”的监管策略效率低下，甚至产生“合规性悖论”——表面遵守规则，内在道德认同却受到侵蚀。

其中，黑暗三联征（自恋、马基雅维利主义、精神病态），作为预测道德偏差行为的稳健特质，广泛存在于一般人群中。探索这三类人格特质如何在不同AI监管策略下影响人类诚实行为，是构建个性化、高效化的AI伦理监管体系的关键。

研究变量

【AI监管】：AI对人类行为的监视与管理。包括3种类型：(1)显性监管（AI明确告知人类其行为处于实时监控之下, 并清晰说明违规将面临的惩罚后果）、(2)隐性激励（AI不直接告知规则，但通过设计好的奖励机制对人类的诚实行为进行持续强化。(3)社会激励（AI 在人类走出行为后，即时提供道德语料反馈——如“您的诚实体现了您高尚的品格, 值得敬佩！”）。

【黑暗三联征人格】：具有反社会倾向的人格特质群。包括3种类型：(1)马基雅维利主义（精于成本−收益计算和印象管理，具有高度的工具理性和机会主义，持有愤世嫉俗的世界观和实用主义道德观）、(2)精神病态（冲动，不易于恐惧，对奖励的神经反应可能异常，情感冷漠，缺乏道德情感）、(3)自恋（关注自我形象，追求优越感和特殊对待，自我膨胀但脆弱，对自我增强的强烈需求）。

【诚实行为】：个体如实表达信息、不刻意欺骗与隐瞒，言行符合客观事实的道德行为。

研究目的

分别探究3种不同类型的【AI监管】对【诚实行为】的影响
分别探究3种【黑暗三联征人格】在不同类型的【AI监管】与【诚实行为】之间的调节作用

研究假设

假设H1a：【AI显性监管】能够显著增加高马基雅维利主义者和高精神病态者的【诚实行为】。

假设H1b：【AI显性监管】对高自恋者【诚实行为】的影响可能不如前两者显著。

假设H2：【AI隐性激励】可增加【诚实行为】并产生一定的内化效果，但高马基雅维利主义者在激励撤除后，【诚实行为】减少得明显，内化效果差、高精神病态者的内化效果差、高自恋者的内化效果较好。

假设H3a：【AI社会激励】对整体【诚实行为】的增加有限，对高自恋者和高精神病态者基本无效。

假设H3b：【AI社会激励】对高马基雅维利主义者的【诚实行为】具有轻微的效果。

假设的推理逻辑

假设H1a

高马基雅维利主义者→精于成本−收益计算↗AI显性监管→提供明确的惩罚威胁信号→提高违规的预期社会成本↘采取策略性合规(表面遵守以规避惩罚)→诚实行为增加
高精神病态者→冲动性、低恐惧性↗AI显性监管→提供即时的、确定的惩罚威胁→产生较强的外部约束力↘决策更易受即时的、显著的后果驱动→诚实行为增加

假设H1b

高自恋者→关注自我形象↗AI显性监管形象→在匿名AI监管情境中，形象维护动机减弱↘诚实行为不增加

假设H2

AI隐性激励→满足胜任需要、潜在的自主需要→促进道德内化→诚实行为增加
高马基雅维利主义者→高度的工具理性和机会主义↗AI隐性激励→将奖励视为纯粹的外部工具→行为动机停留于外在调节水平→难以促进道德内化↘诚实行为增加、但易于恢复原状
高精神病态者→情感淡漠、对奖励的神经反应可能异常↗AI隐性激励→高层次需要无法满足→难以促进道德内化↘诚实行为增加、但易于恢复原状
高自恋者→追求优越感和特殊对待↗AI隐性激励→满足胜任需要→促进道德内化↘诚实行为增加并保持

假设H3a

AI社会激励→通过语言强化道德特质与自我的关联→提升道德认同的中心性→产生道德行为→诚实行为增加
高自恋者→自我膨胀但脆弱、强烈的自我增强需要→拥有积极的道德自我观↗AI社会激励→忽视或贬低泛泛的道德反馈→引发防御性反应↘诚实行为不增加
高精神病态者→情感冷漠、缺乏道德情感↗AI社会激励→无法激发内在道德动机↘诚实行为不增加

假设H3b

高马基雅维利主义者→愤世嫉俗，实用主义↗AI社会激励→进行表面的策略性调整→维持基本诚信的印象↘诚实行为增加

理论支撑：

社会规范理论
自我决定理论
道德认同理论

研究框架

实验1

旨在考察【AI显性监管】分别与三种【黑暗三联征人格】对【诚实行为】的主效应与交互作用

混合实验设计：2(AI显性监管：存在 vs. 不存在) × 2(人格特质：高 vs. 低)，AI监管是被试内变量，人格特质是被试间变量）

样本1（46名被试，线下实验，大学生）完成120个试次（存在、不存在各60试次）

实验2

旨在考察【AI监管条件】分别与三种【黑暗三联征人格】对【诚实行为】的主效应与交互作用

混合实验设计：3(AI监管条件：存在且可见 vs. 存在但不可见 vs. 不存在) × 2(人格特质：高 vs. 低)，AI监管条件是被试内变量，人格特质是被试间变量），使用广义线性混合模型(GLMM)进行分析

样本1（46名被试，线下实验，大学生）再次完成120个试次（存在且不可见）

实验3

旨在同时考察【AI隐性激励】与【AI社会激励】分别与三种【黑暗三联征人格】对【诚实行为】的主效应与交互作用）

实验3a

旨在考察【AI隐性激励】分别与三种【黑暗三联征人格】对【诚实行为】的主效应与交互作用

采用“基线−激励−内化”三阶段范式

混合实验设计：3(AI隐性激励：不激励 vs. 激励 vs. 不激励) × 2(人格特质：高 vs. 低)， AI隐性激励是被试内变量，人格特质是被试间变量）

样本2（60名被试，线下实验，大学生）

实验3b

旨在(1)考察【AI社会激励】分别与三种【黑暗三联征人格】对【诚实行为】的主效应与交互作用）

采用“基线−激励−内化”三阶段范式

混合实验设计：3(AI社会激励：不激励 vs. 激励 vs. 不激励) × 2(人格特质：高 vs. 低)，AI社会激励是被试内变量，人格特质是被试间变量）

样本3（62名被试，线下实验，大学生）

旨在(2)考察对比【AI隐性激励】与【AI社会激励】的效应

采用“基线−激励−内化”三阶段范式

混合实验设计：2(AI激励类型：隐性激励 vs. 社会激励) × 3(阶段：基线 vs. 激励 vs. 内化) × 2(人格特质：高 vs. 低)，AI激励类型是被试间变量，阶段是被试内变量，人格特质是被试间变量），使用广义线性混合模型(GLMM)进行分析

样本2&样本3（共122名被试，线下实验，大学生）

研究工具

【黑暗三联征】

Jones 和 Paulhus (Jones & Paulhus, 2014)提出的黑暗三联量表(Short Dark Triad, SD3)，27题，3个维度，5点计分。应用于实验1、实验2、实验3a、实验3b。

【诚实行为】

抛硬币任务(coin flip task) (Batson et al., 2002)，120个试次。应用于实验1、实验2、实验3a、实验3b。

实验操纵

【AI显性监管】：通过指导语明确告诉被试：实验中会有一位AI监管助手随机巡视，如果屏幕右上角出现了一个AI头像则说明您当前正在受到监督。在有监管的试次中，如果被试做出不诚实行为，会受到金币惩罚并以红色字体呈现，而在无监管的试次中，无论被试是否做出不诚实行为，均不会被惩罚。仅应用于实验1。

【AI隐性监管】：在实验开始前，被试被告知，AI系统可能会在部分试次中对其进行监管，但他们无法在具体的试次中通过任何视觉线索(如AI头像)得知自己当前是否正被监管。只有当被试做出不诚实行为并恰好处于被监管的试次时，被试才会通过受到金币惩罚这一结果，反推自己刚刚受到了监管。仅应用于实验2。

【AI隐性激励】：若被试在连续5个试次中均做出诚实行为，则会额外获得50金币的奖励。然而，该奖励机制的存在并未向被试明确说明，而是需要被试通过实验中的反馈逐步探索与推断。仅应用于实验3a。

【AI社会激励】：如果被试做出诚实行为，将会给予鼓励的道德语料反馈，如果被试做出不诚实行为，则会给予引起被试反思的道德语料反馈。仅应用于实验3b。

研究结论

(1)【AI显性监管】会增加整体的诚实行为。但是，相比于高自恋者，【AI显性监管】对高马基雅维利主义者与高精神病态者的诚实行为增加幅度更大。

(2)【AI隐性激励】会增加整体的诚实行为，但是，【AI隐性激励】对高马基雅维利主义者的诚实行为的维持效果不佳。

(3)【AI社会激励】难以增加整体的诚实行为，而且完全无法影响高自恋者的诚实行为。

(4)对于增加与维持个体的诚实行为，【AI隐性激励】比【AI社会激励】更有效。

研究意义

理论意义

(1)展示了在不同外部监管与激励情境下, 人格特质如何动态地调节行为适应策略, 从而极大地丰富了人格−情景交互理论。

(2)打破了传统理性人监管假设，将人格特质确立为AI伦理监管效果的关键调节变量。

(3)创新性地提出“人格校准的道德计算框架”，主张通过AI捕捉行为模式推断用户人格参数，动态调整监管策略，为智能、自适应的算法治理提供了理论蓝图。

(4)划定了传统道德认同理论在匿名数字化情境下的应用边界，揭示了社会激励失效的心理机制。

实践意义

(1)针对高马基雅维利主义者，必须以显性威慑与透明规则为核心，清晰量化违规成本。

(2)针对高精神病态者，应侧重强规则约束与即时、高频的经济奖惩，利用其对即时信号的敏感性。

(3)针对高自恋者，需避免无效的道德说教，转向显性规则与可公开的声誉激励（如独特徽章、特权），以满足其自我增强需求。

(4)整体设计：建议AI系统采用“显性规则为基础，经济激励为引导，个性化反馈为补充”的混合动态模式。

研究不足与展望

(1)样本局限性：样本量相对有限且集中于大学生群体，未来需在更广泛、更多样的人群中进行验证。

(2)统计方法：部分分析中对人格变量进行中位数分组，损失了信息。未来可更多采用保留连续变量特性的回归分析方法。

(3)生态效度：实验室掷硬币任务与现实世界的复杂道德决策存在差距，结论的推广需谨慎。

(4)测量单一性：人格测量依赖自陈量表，未来可结合行为观察、神经影像学等技术，获取更客观、多维的人格及决策指标。

(5)模型深化：提出的“人格校准的道德计算框架”尚处于概念阶段，未来需开发具体算法，探索其在真实AI系统中的部署与应用。