
大家好,我是年糕!断更一周,现在又回来啦。
过去半年高频使用各类主流 AI 模型时,我有一个强烈的感觉:
不同模型,真的会给人留下不同的“性格印象”。
一开始我以为这只是错觉。直到我开始反复对比它们在不同任务里的表现,才发现这种印象并不只是“玄学体验”,而更像是一种稳定的交互感知。
当然,模型并没有真正意义上的人格。它们不是人,也不具有人类意义上的自我、意图和性格。
但从用户角度看,一个模型如果长期表现出相对稳定的回答方式、风险偏好、表达习惯和任务取向,我们就会容易把它体验成“像某种人”。
# 01
所谓“模型像什么样的人”,到底是什么?
先说明一点:这里借用 MBTI,更多是一种传播上的比喻,而不是严谨的人格评估工具。
如果换一种更准确的说法,我真正想描述的,不是“模型的人格”,而是它们在不同任务中反复呈现出来的稳定行为倾向。
比如:
有些模型更喜欢先拆解问题,再给结论;
有些模型更擅长先顺着你的语境,把话说圆;
有些模型会主动指出你的前提可能有问题;
有些模型则更关注怎么让你“顺利把事情做完”;
这些差异累积起来,就会让用户形成一种非常具体的感觉:
“这个模型像一个冷静的分析师。”
“那个模型像一个表达欲很强的创作者。”
“还有的像一个谨慎、克制、边界感很强的工程师。”
所以,与其说我在判断模型的“人格”,不如说我在识别它们的默认行为模式。
# 02
我感受到的几类模型差异
在日常使用里,我对不同模型的印象大致如下。
这里强调一下,这不是严格的能力排名,而是我基于特定任务类型、产品版本和使用习惯形成的经验判断。
GPT:一个平衡分析与现实可行性的协作者
GPT 给我的长期感受,是它比较擅长在“逻辑正确”和“现实可行”之间找平衡。
它能比较快地识别问题结构、拆分变量、进行多因素权衡,再给出一个既不空泛、也不太脱离场景的建议。这种感觉在深度分析、复杂决策、方案比较这类任务里尤其明显。
它不一定总是最有情绪感染力的那个,但在“把问题想清楚,再把方案落下来”这件事上,常常很稳。
Gemini:一个更注重表达完成度的创作者
Gemini 在一些表达型任务里,经常给我一种更重视语言包装和整体氛围的感觉。
它不只是把意思说出来,而是会努力把它说得更顺、更完整、更容易被接受。这种特质在文案、创意构思、表达优化一类任务中,会比较明显。它还有一个优点是,自主写出来的代码“审美”最佳。
但相应地,在一些带有情绪或立场的问题里,它有时也会显得更愿意顺着用户语境推进,而不是主动拉开距离、校正前提。
Claude:一个边界清晰、表达自然的工程师型协作者
Claude 给我的最深印象,是“稳”。
尤其在代码、文档、流程类任务里,它常常表现出很强的规范意识、边界意识和系统性思维。很多时候,它优先考虑的不是眼前最快的办法,而是更低风险、更可维护、更适合长期使用的方案。
DeepSeek:一个在特定任务里很锐利的理科生
在数学、算法和部分编程任务中,DeepSeek 有时会展现出很直接、很敏锐的推导能力,给人的感觉是切入快、思路清晰、局部很锋利。
但在更复杂的跨领域问题,或者更长链路的任务协调中,我个人目前还是更信任 GPT 或 Claude 的整体稳定性。
豆包:像一个更轻松、低门槛的陪伴型助手
豆包给我的感觉,是更易接近、更轻松、更像日常场景中的陪伴型助手。
它的优势不是高复杂度推理,而是让人更愿意随手打开、随口去问,没什么压力。这种能力看似不“硬核”,但从产品角度看,其实也非常重要。
# 03
比“人格”更重要的,是模型在默认优化什么
如果只停留在“这个像 INTJ,那个像 INFJ”,讨论就容易停在趣味层面。
比起给模型贴人格标签,我后来总结了一个更接近本质的框架来理解它们。
我把这个框架简单概括为一个“模型行为三角”。它不代表模型的全部能力,而是帮助我理解:一个模型在默认状态下,更常优先优化什么。
我观察到,很多模型的倾向大致落在三个目标之间:
可靠性 / 正确性:强调事实边界、风险控制、规范性、可解释性;
任务效能 / 情境适配:强调在具体场景中快速、贴合、低摩擦地解决问题;
关系体验 / 交互顺滑:强调共情感、亲和感、表达舒适度和持续对话意愿。
从这个角度看,很多所谓“人格差异”,其实不是人格,而是默认优化目标的差异。
这个视角对我最大的帮助是:
我不再寻找一个“全能模型”,而是开始按任务调度模型。
深度分析、复杂决策,我更愿意找 GPT。
表达优化、创意构思,我更愿意找 Gemini。
代码、文档、规范输出,我更愿意找 Claude。
当然,我也很喜欢把自己的一个观点发送给不同的模型,综合来获得答案,互相弥补,看是否存在漏思考的点。这不只是“提问”,而更像是在做一种“智能协作调度”。
# 04
一个让我印象很深的例子
我曾遇到过一个很典型的场景:当时的问题是,如何引导一个非技术用户快速清除浏览器里的 localStorage 数据,解决眼前的使用故障。
Claude 给出的首选建议,不是先解决用户此刻碰到的难题——临时指导用户打开控制台执行脚本,而是建议从产品层面增加一个清除按钮,或者提供一个更标准化的清理入口。
这个例子让我印象很深,因为它默认更倾向优先考虑:长期可维护性、普通用户可操作性和系统层面的安全边界,但实际,它忽略了用户此刻期望很快解决眼前的问题的急切心情。
从这个角度看,其实它很像“人机”,但恰恰也是这样一个模型,很多人又会觉得和他进行角色扮演,聊天是“最像人的”。
但其实,“有人味”与“偏安稳”并不矛盾。因为这两者其实属于不同层面。
“有人味”更多是表达层的特征,比如语气自然、情绪细腻、角色感稳定、回应有分寸;
“安稳”更多是决策层的特征,比如风险偏好更低、方案更规范、默认优先长期正确性。
也就是说,一个模型完全可能在表达上非常像人,在判断上却依旧非常克制。
甚至某种意义上,用户之所以觉得它“像人”,不是因为它实际更随性,而是因为它在边界感、语气控制和一致性上,更像一个成熟稳定的协作者。
# 05
模型的差异从何而来
如果继续往下问,这些差异是怎么形成的?
我想是几种因素叠加后的结果:
预训练数据分布:模型读过什么,会影响它最自然的表达方式和知识组织方式;
后训练与对齐方法:模型被奖励什么、约束什么,会影响它的风险偏好、边界感和回应姿态;比如:Google 对 Gemini 的设定极其强调“无害”和“令人愉悦”。它的对齐准则里,优先级最高的是“不要冒犯用户”。
产品壳层与系统提示:同一个底层模型,在不同产品里可能呈现出完全不同的气质;
用户反馈与持续迭代:上线后,模型还会被不断调制,逐渐靠近真实场景中的产品目标。
所以,我们最终感受到的,与其说是“模型的人格”,不如说是一种由训练、产品和交互共同塑造出来的稳定行为印象。并且部分特质,可能并不是在最初设计时就定下来的。
# 06
Prompt究竟能改变多少?
这就引出了一个非常现实的问题:
当一个模型存在比较稳定的默认倾向时,我们到底应该靠 Prompt 去“改造”它,还是直接换模型?
Prompt 更容易改变的是表层输出形式,比如说话方式、展开顺序、表达风格;而对那些由后训练、安全策略、系统提示和产品机制共同塑造出来的默认偏好,它往往只能部分调节,很难彻底改写。
比如,一个更重边界和规范的模型,即使被要求“像客服一样亲切”,也常常还是会优先考虑低风险和长期正确性;
反过来,一个更重表达与互动顺滑的模型,即使被要求“绝对理性”,也可能还是会显得更柔和、更愿意顺着语境说话。
也就是说,基础模型决定能力基线与默认倾向,Prompt 和工作流设计决定这些能力如何被激发、组织和交付。
承认不同模型的默认优势,再把它们编排进合适的流程里,或许才是更高效的。
# 07
为什么我自己更习惯与某些模型协作?
写到这里我也意识到,这篇文章其实不只是在分析模型,也是在反映我自己。
我之所以喜欢 GPT,未必只是因为它“能力强”,还有一个原因是它的行为方式更贴近我的工作偏好:我希望协作者既能帮我清洗的拆解问题,探索本质;既有逻辑强度,也不脱离现实场景。
同时,我也一直没有舍弃 Gemini 的使用,因为我喜欢它总是能补充一些人文视角的观点,让思考更有关怀和温暖感。
换句话说,人与模型之间的“契合感”,并不只来自能力匹配,也来自思维方式和工作方式的匹配。
从这个意义上说,选择模型,其实也是在选择一种更适合自己的认知接口。
不知道你最喜欢的模型是什么?原因是什么呢?欢迎一起在评论区讨论!
求点赞

求分享

求喜欢

夜雨聆风