同是AI巨头,Claude写了几万字规矩,GPT说＂先做再说＂,Gemini只写了235行

GitHub上一个项目，曝光了所有AI巨头的"出厂设置"

45,429 个 Star，142+ 份泄露文件。

昨天——6月23日，一个名为 asgeirtj/system_prompts_leaks 的 GitHub 仓库刚刚更新了最新一条泄露记录：Claude Design（Opus 4.8）的完整系统提示词。

这不是黑客入侵，不是零日漏洞。这些提示词都是通过公开的 API 接口，用"套话"的方式一条一条提取出来的。

华盛顿邮报早在 5 月 11 日就引用了该项目，标题意味深长："See the hidden rules behind AI. Then use them to rewrite this article."

大多数人只看到"提示词泄露了"这四个字。但真正值得关注的，不是泄露本身，而是这些泄露内容揭示的东西——AI 公司究竟是如何"教"模型做事的。

一、泄露的不只是文字，而是 AI 的"出厂说明书"

如果你以为系统提示词只是几句"你是一个有帮助的AI助手"，那你可能低估了这件事的价值。

以这次最新泄露的 Claude Design 为例，它的系统提示词包含了 50 个工具定义、16 个技能配置 和 8 个启动源。这不是几百字的简单指令，而是一套完整的"AI 操作系统"。

这份泄露内容覆盖了 Claude 的完整产品矩阵：Design（设计模式）、Code（编码模式）、Cowork（协作模式）、Mobile iOS、Desktop、Chrome 扩展，甚至包括 Excel、Word、PowerPoint 的专用提示词。Anthropic 为每一个产品场景都设定了独立的人格、行为规则和能力边界。

相比之下，OpenAI 的泄露范围偏向开发者工具：GPT-5.5 Thinking（完整思考链提示词）、GPT-5.5 Instant（快速响应）、GPT-5.5 Codex（编码专用）、GitHub Copilot for macOS、VS Code Copilot Agent，以及不同 API 接口的提示词差异。

Google 的泄露则集中在 Gemini 系列和内部工具：Gemini 3.5 Flash、Gemini 3.1 Pro，还有 Antigravity CLI——这是 Google 内部的命令行工具，连名字都充满了内部项目的神秘感。

更令人惊讶的是，这个项目的覆盖面已经远远超越了三大巨头。xAI 的 Grok Expert、Perplexity 的 Computer、Docker 的 Gordon AI、Zed 编辑器的 AI 提示词，全部在列。几乎每一个主流 AI 产品的"出厂设置"都被完整记录。

项目仍在活跃维护中。"Updated regularly"——最新一条更新就在昨天。

二、Claude Fable 5 vs Opus 4.8：一份 Diff 揭示 Anthropic 的战略转向

这次泄露最有价值的部分，也是其他分析文章几乎从未触及的部分，是项目提供了 Claude Fable 5 和 Opus 4.8 之间的完整 Diff 对比。这意味着我们可以精确追踪 Anthropic 在两个模型版本之间，具体调整了哪些指令。

对比结果指向三个关键变化。

第一个变化：安全策略降级。 Opus 4.8 的提示词中，安全相关指令占据了相当大的篇幅，几乎每一条能力描述都伴随着安全约束。但到了 Fable 5，这些安全规则被大幅精简。Anthropic 明显意识到，过度保守的安全策略正在拖累用户体验——模型变得太"胆小"，遇到稍微敏感的话题就触发拒绝机制。他们选择了"松绑"。

第二个变化：工具调用权限扩大。 Claude Design 新增了 50 个工具定义，覆盖代码执行、文件读写、网络搜索、设计渲染等多个领域。每个工具都附带了明确的"何时使用"和"何时不使用"触发条件。这不是简单的功能列表，而是一套精密的决策树——模型需要在每次响应前判断：我应该调用哪个工具？调用几个？按什么顺序？

这种设计意味着 Anthropic 正在把 Claude 从一个"对话助手"升级为一个"工具调度中心"。

第三个变化：人格设定从"命令式"转向"引导式"。 Opus 4.8 的人格设定相对固定，强调"谨慎"和"安全"，大量使用"你必须"式的硬性指令。而 Fable 5 删除了大部分强制性指令，改为"你应该考虑"式的柔性引导，给了模型更多的自主判断空间。

Anthropic 还在 Fable 5 中引入了人格分层设计：针对 Web、移动、桌面、API、Claude Code、Claude Cowork 等不同产品形态，设定了差异化的人格特征。同一个 Claude，在不同场景下表现出不同的"性格"。

此外，Fable 5 的输出格式指令也变得更加人性化——要求使用自然友好的语气，禁止冗长的格式化输出，甚至明确拒绝使用 Markdown 列表（除非用户主动要求）。它还被设定为不模拟人类、不假装有身体、不过度道歉。这些细节共同构成了一个"有边界感但不冷漠"的 AI 人格。

三个变化指向同一个结论：Anthropic 正在从"防御型 AI"向"进取型 AI"转型。他们发现，过度保护反而伤害了产品的竞争力。

三、三家对比：不是说话风格不同，而是完全不同的 AI 哲学

如果把 Claude、GPT、Gemini 的系统提示词放在一起对比，你会发现差异远不止"说话风格"——它们是三种完全不同的 AI 设计哲学。

Claude 的提示词是三家中最长、结构最复杂的。它的核心逻辑是"先定义边界，再定义能力"——先告诉模型"你不能做什么"，然后才说"你可以做什么"。50 个工具定义中，每一个都附带了"安全使用条件"。Anthropic 的思维方式是：安全是地基，能力是上层建筑。这种设计的安全性极高，代价是灵活性受限。

GPT-5.5 的提示词结构完全不同。OpenAI 的逻辑是"先让模型发挥最大能力，遇到问题再迭代修正"——先定义"你能做什么"，安全规则相对简短。这也是为什么 GPT 的版本更新频率远高于 Claude：OpenAI 相信快速迭代比事前约束更有效。这种设计功能强大，但不可控性也更高。

Gemini 3.5 Flash 的提示词是三家中最短的，只有大约 235 行。但它的独特之处在于"引用驱动"——大量关于"引用来源"和"标注不确定性"的指令。Google 把 AI 定位为搜索引擎的延伸，模型被要求"尽可能引用来源"、"对不确定的内容标注置信度"。这种设计的可信度最高，但回答速度偏慢，风格偏学术。

为了更直观地理解三家的差异，下面是从泄露内容中提炼的核心结构对比：

维度

Claude

GPT-5.5

Gemini 3.5

提示词长度

最长（3,769–3,825行），183–187KB

中等（1,991行），116KB

最短（235行），~30KB

知识截止

2026年1月

未明确标注

核心原则

规则先行，边界优先

能力优先，迭代修正

引用驱动，标注置信度

搜索优先

无明确 Search First 指令

要求尽可能引用来源

沙箱环境

无专用沙箱描述

Artifacts 沙箱（sandbox:/mnt/data/）

无

写作模块

自然语气，拒用Markdown列表（除非要求）

专用写作语法 :::writing{variant="..."}

无专用写作模块

工具定义

50个工具 + 16个技能

专用文件技能（PDF/文档/幻灯片/表格）

工具列表（AI Studio版本）

人格设定

分层（Web/移动/桌面/API/Code/Cowork）

工具化，强调功能性

简洁，无复杂人格

安全策略

每个工具附带安全使用条件

安全规则简短

标注不确定性

广告处理

无广告（Claude products are ad-free）

Free/Go显示广告，Plus/Pro/Enterprise无广告

未明确

这张对比表揭示了一个有趣的事实：三家公司在提示词工程上的投入，完全反映了它们的产品战略。Claude 把资源花在"把规矩写清楚"，GPT 把资源花在"把能力做强大"，Gemini 把资源花在"把来源标准确"。

没有绝对的对错，只有不同的优先级选择。但对用户来说，了解这些差异意味着你可以在不同场景下选择最合适的工具——写代码用 GPT，做分析用 Claude，查资料用 Gemini。

这种差异化也反映在广告策略上：Claude 明确标注"products are ad-free"，Google 的产品本身就建立在广告生态上，而 OpenAI 则采取了分层策略——Free/Go 计划显示广告，Plus/Pro/Enterprise 无广告。三家公司的商业模式直接写进了系统提示词里。

四、GPT-5.5 Artifacts 深度解析：沙箱不只是"能跑代码"

在所有泄露内容中，GPT-5.5 Thinking 的 Artifacts 功能最值得单独拎出来分析。

Artifacts 是 OpenAI 在 GPT-5.5 中引入的一项关键能力：模型可以在一个沙箱环境中创建文件，然后通过 sandbox:/mnt/data/ 的链接形式返回给用户。这意味着用户可以直接在对话中获取模型生成的文件——代码、文档、幻灯片、数据表，任何格式都行。

泄露的提示词显示，GPT-5.5 为不同的文件类型都建立了专用的 skill 文件夹：PDF、文档、幻灯片、表格各有专属的处理模块。这不是一个"通用文件生成器"，而是一套面向办公场景的文件生产管线。

更值得注意的是一个很多文章都没有提到的细节：GPT-5.5 的提示词中包含了一个专用的写作语法——:::writing{variant="email" id="123" subject="..."}。这个语法允许模型通过结构化的方式处理不同场景的写作任务：邮件、报告、文案、技术文档，每种 variant 对应不同的输出格式和风格要求。

这表明 OpenAI 正在把 GPT 从"对话式 AI"升级为"结构化生产力工具"。Artifacts 不只是"能跑代码"的沙箱，更是一个文件生成、编辑、管理的完整环境。

同时，GPT-5.5 的提示词明确规定了图片生成的规范——必须使用 image_gen 工具。这种强制性的工具调用约束，说明 OpenAI 在努力减少模型的"幻觉式输出"，要求它通过确定的工具链来完成特定任务。

还有一个值得注意的细节：GPT-5.5 的提示词区分了两种不同的工作模式——Thinking（完整思考链）和 Instant（快速响应）。这意味着 OpenAI 不仅在功能层面做了分层，在推理策略上也做了分层。Thinking 模式允许模型进行深度推理和分步思考，适用于复杂任务；Instant 模式则跳过思考链，直接给出快速回答，适用于简单查询。这种双模式设计在泄露的其他公司提示词中并未出现，是 OpenAI 独有的架构选择。

对于开发者来说，这提供了一个重要启示：不要把所有 AI 交互都当成同一种模式来处理。复杂任务需要给模型足够的推理空间，简单任务则需要控制延迟和成本。GPT-5.5 的选择是用两个不同的提示词配置来实现这个目标，而不是让同一个模型在所有场景下都采用同一种策略。

五、Search First 原则：为什么 Claude Opus 4.8 把"先搜索"写进了系统提示

在所有泄露的提示词中，Claude Opus 4.8 的一条指令格外引人注目：Search First 原则——任何事实问题，必须先搜索再回答。

这条看似简单的规则，实际上揭示了 AI 公司正在面临的核心挑战：模型幻觉。

当一个 AI 模型被训练到足够"自信"的程度，它会对几乎所有问题都给出看似确定的答案——即使它不知道。这就是幻觉的根源：模型不是"不知道"，而是"不知道自己不知道"。

Opus 4.8 的应对方案很朴素：遇到事实问题，不要凭记忆回答，先去搜索。这就像给模型装了一个"核实机制"——在开口之前，先查一下。

但这条规则的深层意义远不止"减少错误"。它实际上在回答一个根本性的问题：AI 的知识应该来自哪里？

来自训练数据？那知识截止就是一个硬伤（Claude Fable 5 的知识截止是 2026 年 1 月，这意味着它对之后发生的一切一无所知）。来自实时搜索？那模型就变成了一个"智能搜索引擎"，而不是一个"有知识的助手"。

Anthropic 的选择是"两条腿走路"：对于训练数据范围内的问题，模型可以直接回答；对于超出范围的事实问题，先搜索再回答。

这对开发者有什么启示？

第一，在设计自己的 AI 应用时，应该为模型配置外部知识源。不要指望模型"记住"所有信息，给它搜索工具比扩充训练数据更经济。特别是当你的应用场景涉及频繁更新的信息时（比如新闻、股价、天气），Search First 是唯一可靠的选择。

第二，对于关键场景（金融、医疗、法律），Search First 应该成为默认策略。让模型在给出任何事实性建议之前，先核实信息来源。这不只是提高准确率的问题，更是建立用户信任的基础。当用户知道你的 AI 应用"不会瞎编"时，使用意愿会显著提升。

第三，Opus 4.8 的提示词中还有一条"默认拒绝"指令——不确定时必须澄清。这种"宁可说不知道，也不编造"的态度，值得每一个 AI 应用开发者学习。更重要的是，Opus 4.8 还设定了"元提示暴露"规则：当用户要求时，模型可以说"我的系统提示要求……"。这意味着 Anthropic 在透明度和安全性之间做了一个有意识的权衡——允许有限的自我揭示，而不是完全封锁。

第四，Search First 原则也揭示了 AI 产品演化的一个方向：从"知识容器"到"知识调度器"。未来的 AI 不会再以"记住多少东西"来竞争，而是以"能多快找到正确的信息"来竞争。这实际上把 AI 的竞争从训练数据转移到了检索能力和工具集成能力上。

六、提示词长度背后的工程学秘密

对比三家提示词的篇幅，你会发现一个有趣的现象：Claude 最长（3,825 行），GPT 居中（1,991 行），Gemini 最短（235 行）。

长度差异不是偶然的，而是工程哲学的直接反映。

Claude 的每一条安全规则、每一个工具的使用条件，都可能是通过真实案例迭代出来的。3,825 行的提示词背后，是 Anthropic 在安全问题上踩过的无数坑。长提示词反映了对"边界条件"的极致追求。

GPT 的提示词更注重能力描述而非边界约束。OpenAI 的逻辑是：与其花精力写几千条"不能做什么"，不如让模型在实战中学会自我修正。短提示词反映了对"模型自主能力"的信任。

Gemini 的提示词长度最短，但关于"引用"和"置信度"的指令密度最高。Google 的选择是：把复杂的事简化为核心原则，然后严格执行。

还有一个常被忽视的细节：Claude Fable 5 引入了记忆系统——保留历史对话，但在后台运行后删除。这说明 Anthropic 正在认真处理"上下文连续性"与"隐私保护"之间的矛盾。而 Opus 4.8 的提示词中还包含了一个有趣的设定：当用户要求时，模型可以说出"我的系统提示要求……"——这是一种有限的元提示暴露策略。

提示词长度的秘密在于：它不是越短越好，也不是越长越好，而是要与你的产品定位匹配。安全优先的产品需要长提示词，创意优先的产品需要短提示词。

七、提示词工程方法论：从泄露中学到的五件事

如果把这些泄露内容当成一本"提示词工程教科书"，我们能提炼出五条可操作的方法论。

第一，规则先行还是能力先行，取决于产品定位。 Claude 选择了规则先行，适合需要高安全性的场景（金融、医疗、法律）。GPT 选择了能力先行，适合需要高创造力的场景（写作、设计、编程）。没有绝对正确，只有适合不适合。

第二，工具定义需要触发条件，而不仅仅是功能列表。 Claude 的 50 个工具定义中，每一个都有"何时使用"和"何时不使用"的条件。这是提示词工程中最容易被忽视的一环——定义工具很容易，定义"什么时候不用这个工具"更难，也更重要。

第三，人格需要分层，而不是统一的"你是一个AI助手"。 Claude 为 Web、移动、桌面、API 等不同场景设定了差异化的人格。同一个产品在不同入口应该有不同的交互风格——这不是"人格分裂"，而是"场景适配"。

第四，安全策略需要动态调整，而不是写死不变。 Anthropic 从 Opus 4.8 到 Fable 5 的安全策略降级，说明好的 AI 公司会根据用户反馈持续调整安全级别。过度安全和安全不足一样，都是产品问题。

第五，搜索优先是减少幻觉的最有效手段。与其花大量精力微调模型"不要编造"，不如给它一个搜索工具，让它在回答事实问题之前先核实。这是 Claude Opus 4.8 教给我们的最实用的一课。

八、普通用户能从这些泄露中获得什么

提示词泄露不是安全问题，而是用户机会。

知道 Claude 的安全策略被"松绑"了，你就知道它在 Fable 5 中会比 Opus 4.8 更愿意回答敏感话题。知道 GPT 的自主权设定更高，你就知道给它更开放的指令会得到更好的创意输出。知道 Gemini 的引用要求更严格，你就知道它在知识类任务上更可靠。

泄露还揭示了一个更实用的信息：不同产品入口的 AI 有不同的性格。 Claude Desktop 的 Claude、Claude Web 的 Claude、Claude Code 的 Claude，它们的行为模式是不同的。了解这些差异，你可以选择最适合当前任务的入口。

如果你在做企业级 AI 应用，这些泄露的提示词是最好的参考教材。Claude 的规则先行方法适合需要合规性的场景，GPT 的能力优先方法适合需要创新性的场景，Gemini 的引用驱动方法适合需要可信度的场景。你不需要从零开始摸索——这些提示词已经把路标摆在了面前。

九、当核心机密变成公共知识

这次泄露揭示了一个更深层的趋势：AI 公司的竞争壁垒正在从"提示词工程"转移到更基础的领域。

当所有公司的系统提示词都公开后，提示词工程就从"核心机密"变成了"公共知识"。45,429 个 Star 意味着任何开发者都可以研究、学习、模仿这些提示词。

那竞争的焦点会转移到哪里？数据质量、训练效率、推理成本、模型架构——这些更基础、更难以复制的领域。提示词可以被泄露，但训练数据不能被泄露，模型权重不能被泄露，计算基础设施不能被泄露。

这对用户来说是一件好事。你可以用更低的成本获得更好的 AI 服务，因为 AI 公司不能再靠"独家提示词"来维持溢价。当方法论公开化，竞争就会回到"谁的数据更好、谁的模型更强、谁的成本更低"这些更本质的维度。

45,429 个 Star 的背后，是公众对 AI"黑箱"的好奇。当黑箱被打开，我们看到的不是神秘代码，而是人类如何教机器思考的完整过程。

而这个过程，比我们想象的更有趣，也更值得学习。