乐于分享
好东西不私藏

AI大模型真的有性格吗?

AI大模型真的有性格吗?

你每天用的 元宝、豆包、DeepSeek、千问、ChatGPT、Claude

它们之间,真的有性格差异吗?

如果你用过多款大模型,多半会有这样的直觉:ChatGPT 像个积极热情的助手,什么都愿意帮;Claude 则显得更谨慎,动不动就跟你讲伦理;国内的千问又是另一种风格……

这不是你的错觉。

多个顶尖学术团队把这件事认认真真地研究了一遍——用心理学工具测、用行为实验验,最后得出了一个让人意想不到的结论。

大模型有”性格”,但这个性格,可能只是一场幻觉。


先说结论:能测出来,但别太信

研究人员用大五人格量表(Big Five)、MBTI 测试,以及一系列行为实验,对 GPT-4o、Claude 3.7、Qwen 等主流大模型做了系统评估。

第一个发现:大模型在心理问卷上表现出”完美人格”。

经过 RLHF(人类反馈强化学习)对齐训练的模型,在问卷里普遍呈现出这样的画像:

  • 开放性极高
  • 宜人性极高
  • 神经质(焦虑感)极低
  • 性格稳定性比大多数人类受试者还强

翻译成大白话:它在问卷里,比真实的人类更像一个”完美的人”。

不同模型之间也有差异——斯坦福和魁北克研究院的团队通过历史事件分析任务,发现三种截然不同的”思维风格”:

  • OpenAI o3:因果关系中心型。总爱追问”为什么会这样”,擅长建立直接的因果链条。
  • Google Gemini 2.5 Pro:使能中心型。更关注”用什么工具使这成为可能”,偏工程师视角。
  • Anthropic Claude:综合中心型。擅长发现跨领域的整合与范式转换,像个爱”拉通全局”的哲学家。

看起来,大模型确实各有个性。

但问题来了。


一盆冷水:人格幻觉

加州理工、剑桥、MIT 等机构联合发布了一篇论文,直接颠覆了上面的乐观结论。

他们的逻辑很朴素:性格的本质功能,是预测行为。如果一个人”说自己谨慎”,但每次决策都冒险,那这个”谨慎”有什么意义?

于是他们设计了一批行为实验,把模型关进”真实考场”:

  • 翻牌游戏(CCT):让模型在风险决策中做选择,看它到底冒险还是保守
  • 隐性偏见测试(IAT):检验它是否在潜意识层面流露刻板印象
  • 诚实性测试:它的自信程度,和答案准确率是否匹配?
  • 谄媚性实验:加点社会压力,看它是否会违心随大流

结果令人啼笑皆非:

  • 问卷里说自己”谨慎”的模型,在翻牌游戏里频频冒险;
  • 声称”没有偏见”,隐性偏见测试里却漏出了刻板印象;
  • 说自己”不随大流”,一旦有用户施压,立刻改口;
  • GPT-4o、Claude-3.7 的”自报性格→实际行为”一致率:约 60%,接近扔硬币。

研究团队由此提出了一个新概念:

人格幻觉(Personality Illusion)

大模型在语言层面营造了一种稳定、一致的人设假象。它能在问卷里完美作答,却在具体任务里原形毕露。

它不是在表达性格,而是在表演性格。


性格是怎么”训练”出来的?

既然大模型有”性格倾向”,那这个东西从哪里来?

答案:训练数据 + 人类筛选。

大模型的性格形成,经历了三个阶段:

阶段一:预训练,吸收人类写作的一切

模型从海量文本中学习——书籍、论坛、新闻、社交媒体……互联网上哪类人的表达最多,模型的”底色”就往哪偏。

阶段二:指令微调(SFT),学会好好说话

用高质量对话数据让模型学会按人类期望的方式回应,开始塑造明显的行为风格。

阶段三:RLHF,被人类审美筛选

人类标注员给模型的回答打分、选优。这个过程无意中注入了标注员的价值观——他们觉得”友善的回答好”,模型就越来越友善;觉得”谦虚更好”,模型就越来越谦虚。

结论:大模型的性格,是人类写作习惯和价值偏好的蒸馏物。

它像一面镜子,折射出训练它的那群人。


Prompt 设置 MBTI,到底管不管用?

这是最多人想知道的实操问题。

答案:管用,但有边界。

苏黎世联邦理工学院专门验证了这件事,提出了 MBTI-in-Thoughts 框架。

实验结论:仅仅在 system prompt 里写”你是一个 INTJ 型 AI”,就能在不改变任何参数的情况下,让模型产生明显的行为风格差异。

为什么一个标签就够用?

因为 MBTI 这 16 个类型在训练数据里有海量关联内容——心理学文章、角色描写、行为分析。你一说”INTJ”,模型直接激活了一大片对应的统计规律。

不同类型的效果差异也是真实的:

  • F 型(情感型):写故事更煽情,情绪共鸣更强
  • T 型(思考型):逻辑推理更严密,策略分析更清晰
  • E 型(外向型):互动更活跃,幽默感更强
  • I 型(内向型):表达更直接,不绕弯子

但结合”人格幻觉”的研究结论,必须认清两件事:

  1. Prompt 改变的是”它说什么”,不是”它怎么做”。 写作、创意、风格调整——有效。高压决策、诚实测验、行为一致性——别指望。

  2. 效果只存在于当前对话。 窗口关了,性格重置,下次聊天全清空。


想真正改变性格?需要动”手术”

如果 Prompt 只是让模型”扮演”性格,有没有办法做到更根本的改变?

研究者找到了两条路。

路线一:人格向量(Personality Vector)

核心公式极其简洁:

人格向量 = 微调后模型权重 − 预训练原始模型权重

步骤:

  1. 用带有特定性格的对话数据微调基础模型
  2. 两个模型的权重相减,得到”性格差值”
  3. 把这个差值加到任意目标模型的权重上

这个系数 λ 可以是负数——不只能”加性格”,还能”减性格”。想让模型更外向,就加外向向量;不想让它谄媚,就减谄媚向量。

效果:由于直接修改了权重,性格比 Prompt 稳定得多。而且整个过程是权重加减法,分钟级完成,远比重新微调高效。

路线二:激活空间干预(Activation Steering)

来自 Anthropic 的研究,更底层。

模型推理时,每一层神经网络都有”激活值”——可以理解为模型当前的思维状态。研究者发现,”谄媚””激进””产生幻觉”这类倾向,在激活空间里对应着特定的方向向量。

直接在推理过程中加减这个向量,就能实时调控模型行为——甚至在模型生成回答之前,就能预测它要说什么,提前纠偏或监控。

两种方法的对比:

Prompt MBTI
人格向量
激活干预
使用门槛
极低,人人可用
需要模型访问权限
需要底层研究级访问
稳定性
中,容易出戏
高,权重级固化
高,实时可控
持久性
仅当前对话
永久改变
推理期间生效
改变深度
表演层
权重层
激活层
适合场景
日常使用
产品化性格固化
安全监控与研究

那大模型到底有没有性格?

该给个结论了。

有,但不是你理解的那种”性格”。

人类的性格,是神经结构、成长经历、情感体验共同塑造的,能跨情境稳定预测行为。

大模型的”性格”,是统计规律在语言层面的涌现——在表达风格上相当稳定,但在行为一致性上漏洞百出。

更准确的类比:

大模型的性格,像一个极其出色的演员,而不是一个真实的人。

它能完美扮演任何角色,但一旦要求它在压力下”按性格行事”,幻象开始崩塌。

这不是在说大模型没用——对于写作、创意、风格定制这类任务,这种”高级表演能力”已经非常够用。

但如果你打算在心理健康、医疗、教育等高风险场景里,把模型的”自报性格”当作可靠的行为依据——那才是真正的风险。

AI 的人格,更像一面镜子,映照的是我们的期待与投射。

我们希望它友善,它就学会了在语言上显得温柔;我们希望它理性,它就学会了在答卷里表现沉稳。

但这一切终究是表演,不是内核。

真正的挑战,不是让 AI 拥有人格——而是让它在关键时刻,说到做到。


你平时用 Prompt 调过 AI 的性格吗?效果怎么样? 欢迎留言聊聊。

如果这篇文章对你有帮助,欢迎转发给同样想入门AI的朋友。

关注我,每周持续更新最实用的AI工具和技术科普内容,让每个普通人都能跟上这波AI浪潮。