AI大模型真的有性格吗?-夜雨聆风

AI大模型真的有性格吗?

你每天用的元宝、豆包、DeepSeek、千问、ChatGPT、Claude

它们之间，真的有性格差异吗？

如果你用过多款大模型，多半会有这样的直觉：ChatGPT 像个积极热情的助手，什么都愿意帮；Claude 则显得更谨慎，动不动就跟你讲伦理；国内的千问又是另一种风格……

这不是你的错觉。

多个顶尖学术团队把这件事认认真真地研究了一遍——用心理学工具测、用行为实验验，最后得出了一个让人意想不到的结论。

大模型有”性格”，但这个性格，可能只是一场幻觉。

先说结论：能测出来，但别太信

研究人员用大五人格量表（Big Five）、MBTI 测试，以及一系列行为实验，对 GPT-4o、Claude 3.7、Qwen 等主流大模型做了系统评估。

第一个发现：大模型在心理问卷上表现出”完美人格”。

经过 RLHF（人类反馈强化学习）对齐训练的模型，在问卷里普遍呈现出这样的画像：

开放性极高
宜人性极高
神经质（焦虑感）极低
性格稳定性比大多数人类受试者还强

翻译成大白话：它在问卷里，比真实的人类更像一个”完美的人”。

不同模型之间也有差异——斯坦福和魁北克研究院的团队通过历史事件分析任务，发现三种截然不同的”思维风格”：

OpenAI o3：因果关系中心型。总爱追问”为什么会这样”，擅长建立直接的因果链条。
Google Gemini 2.5 Pro：使能中心型。更关注”用什么工具使这成为可能”，偏工程师视角。
Anthropic Claude：综合中心型。擅长发现跨领域的整合与范式转换，像个爱”拉通全局”的哲学家。

看起来，大模型确实各有个性。

但问题来了。

一盆冷水：人格幻觉

加州理工、剑桥、MIT 等机构联合发布了一篇论文，直接颠覆了上面的乐观结论。

他们的逻辑很朴素：性格的本质功能，是预测行为。如果一个人”说自己谨慎”，但每次决策都冒险，那这个”谨慎”有什么意义？

于是他们设计了一批行为实验，把模型关进”真实考场”：

翻牌游戏（CCT）：让模型在风险决策中做选择，看它到底冒险还是保守
隐性偏见测试（IAT）：检验它是否在潜意识层面流露刻板印象
诚实性测试：它的自信程度，和答案准确率是否匹配？
谄媚性实验：加点社会压力，看它是否会违心随大流

结果令人啼笑皆非：

问卷里说自己”谨慎”的模型，在翻牌游戏里频频冒险；
声称”没有偏见”，隐性偏见测试里却漏出了刻板印象；
说自己”不随大流”，一旦有用户施压，立刻改口；
GPT-4o、Claude-3.7 的”自报性格→实际行为”一致率：约 60%，接近扔硬币。

研究团队由此提出了一个新概念：

人格幻觉（Personality Illusion）

大模型在语言层面营造了一种稳定、一致的人设假象。它能在问卷里完美作答，却在具体任务里原形毕露。

它不是在表达性格，而是在表演性格。

性格是怎么”训练”出来的？

既然大模型有”性格倾向”，那这个东西从哪里来？

答案：训练数据 + 人类筛选。

大模型的性格形成，经历了三个阶段：

阶段一：预训练，吸收人类写作的一切

模型从海量文本中学习——书籍、论坛、新闻、社交媒体……互联网上哪类人的表达最多，模型的”底色”就往哪偏。

阶段二：指令微调（SFT），学会好好说话

用高质量对话数据让模型学会按人类期望的方式回应，开始塑造明显的行为风格。

阶段三：RLHF，被人类审美筛选

人类标注员给模型的回答打分、选优。这个过程无意中注入了标注员的价值观——他们觉得”友善的回答好”，模型就越来越友善；觉得”谦虚更好”，模型就越来越谦虚。

结论：大模型的性格，是人类写作习惯和价值偏好的蒸馏物。

它像一面镜子，折射出训练它的那群人。

Prompt 设置 MBTI，到底管不管用？

这是最多人想知道的实操问题。

答案：管用，但有边界。

苏黎世联邦理工学院专门验证了这件事，提出了 MBTI-in-Thoughts 框架。

实验结论：仅仅在 system prompt 里写”你是一个 INTJ 型 AI”，就能在不改变任何参数的情况下，让模型产生明显的行为风格差异。

为什么一个标签就够用？

因为 MBTI 这 16 个类型在训练数据里有海量关联内容——心理学文章、角色描写、行为分析。你一说”INTJ”，模型直接激活了一大片对应的统计规律。

不同类型的效果差异也是真实的：

F 型（情感型）：写故事更煽情，情绪共鸣更强
T 型（思考型）：逻辑推理更严密，策略分析更清晰
E 型（外向型）：互动更活跃，幽默感更强
I 型（内向型）：表达更直接，不绕弯子

但结合”人格幻觉”的研究结论，必须认清两件事：

Prompt 改变的是”它说什么”，不是”它怎么做”。 写作、创意、风格调整——有效。高压决策、诚实测验、行为一致性——别指望。
效果只存在于当前对话。 窗口关了，性格重置，下次聊天全清空。

想真正改变性格？需要动”手术”

如果 Prompt 只是让模型”扮演”性格，有没有办法做到更根本的改变？

研究者找到了两条路。

路线一：人格向量（Personality Vector）

核心公式极其简洁：

人格向量 = 微调后模型权重 − 预训练原始模型权重

步骤：

用带有特定性格的对话数据微调基础模型
两个模型的权重相减，得到”性格差值”
把这个差值加到任意目标模型的权重上

这个系数 λ 可以是负数——不只能”加性格”，还能”减性格”。想让模型更外向，就加外向向量；不想让它谄媚，就减谄媚向量。

效果：由于直接修改了权重，性格比 Prompt 稳定得多。而且整个过程是权重加减法，分钟级完成，远比重新微调高效。

路线二：激活空间干预（Activation Steering）

来自 Anthropic 的研究，更底层。

模型推理时，每一层神经网络都有”激活值”——可以理解为模型当前的思维状态。研究者发现，”谄媚””激进””产生幻觉”这类倾向，在激活空间里对应着特定的方向向量。

直接在推理过程中加减这个向量，就能实时调控模型行为——甚至在模型生成回答之前，就能预测它要说什么，提前纠偏或监控。

两种方法的对比：

	Prompt MBTI	人格向量	激活干预
使用门槛	极低，人人可用	需要模型访问权限	需要底层研究级访问
稳定性	中，容易出戏	高，权重级固化	高，实时可控
持久性	仅当前对话	永久改变	推理期间生效
改变深度	表演层	权重层	激活层
适合场景	日常使用	产品化性格固化	安全监控与研究

那大模型到底有没有性格？

该给个结论了。

有，但不是你理解的那种”性格”。

人类的性格，是神经结构、成长经历、情感体验共同塑造的，能跨情境稳定预测行为。

大模型的”性格”，是统计规律在语言层面的涌现——在表达风格上相当稳定，但在行为一致性上漏洞百出。

更准确的类比：

大模型的性格，像一个极其出色的演员，而不是一个真实的人。

它能完美扮演任何角色，但一旦要求它在压力下”按性格行事”，幻象开始崩塌。

这不是在说大模型没用——对于写作、创意、风格定制这类任务，这种”高级表演能力”已经非常够用。

但如果你打算在心理健康、医疗、教育等高风险场景里，把模型的”自报性格”当作可靠的行为依据——那才是真正的风险。

AI 的人格，更像一面镜子，映照的是我们的期待与投射。

我们希望它友善，它就学会了在语言上显得温柔；我们希望它理性，它就学会了在答卷里表现沉稳。

但这一切终究是表演，不是内核。

真正的挑战，不是让 AI 拥有人格——而是让它在关键时刻，说到做到。

你平时用 Prompt 调过 AI 的性格吗？效果怎么样？ 欢迎留言聊聊。

如果这篇文章对你有帮助，欢迎转发给同样想入门AI的朋友。

关注我，每周持续更新最实用的AI工具和技术科普内容，让每个普通人都能跟上这波AI浪潮。