与AI聊了一下午,我终于搞懂什么叫上下文-夜雨聆风

与AI聊了一下午,我终于搞懂什么叫上下文

最近在学习AI Agent产品的过程中深刻体会到，有些基础概念不懂、模棱两可，真的会严重限制你的工具使用能力！

比如，你是否会经常遇到，模型一说就对、一干就废。

废话多、兜圈圈、答非所问、原地打转。

很多时候，上面刚说过的话，它瞬间遗忘，用中文聊着聊着，突然开始飙英文！

反复确认过的正确方案，它转头就用了一个已经pass掉的方案，毫无契约精神可言！

模型到底是笨、是傻，还是怎么滴了？

后来疯狂学习发现，有一个叫上下文（Context）的东西，它会决定你模型的能力发挥到什么水平，那些你看到的令人啼笑皆非的现象，大部分（小部分确实跟模型本身的能力有关）都可以通过组织合适的上下文，来让模型避免掉。

为什么需要给模型喂上下文呢？

因为我们现在使用的AI产品（基于LLM大模型），都是基于预测下一个token来实现输出的，每一轮对话，模型是没有记忆的，不知道过往发生过什么，需要你在对话前提供足够的背景信息来辅助模型预测。

这些背景信息主要包含：你的角色/身份、过往的经历/经验、当前的任务/要求，以及一些为了完成任务必要的工具/接口/项目环境等等这些，这些所有信息的集合，构成了我们刚才所说的上下文（Context），只有喂给模型恰到好处的上下文，模型才能把他的能力发挥到极致。

为研究上下文做的两件事

为了深度学习什么叫上下文、如何用好上下文，我做了两件事情：

上下文的三层结构

2.1 Claude告诉我，这些各式各样的记忆文件，整体上可以分成三个层级结构：

2.2 我让它基于这个分析框架，把前面那4个产品的所有记忆文件对号入座，分门别类：

表格背后有三个值得关注的结构性结论：

结论一：产品越”工程化”，System 和 Memory 层越收缩。OpenClaw 和 Hermes 把三层都铺满了，因为它们要扮演一个有自我认知、认识用户、会记事的 Agent；Codex 和 Claude Code 把 System 层内嵌进模型或配置文件，把 Memory 层交给 git 和文件系统，只剩 Task 层可见——这是”工具”而非”伴侣”的设计哲学。

结论二：SKILL.md 是三层框架里唯一稳定落在 Task 层的文件，且四款产品全有。这说明”告诉 AI 当前任务怎么做”是 Agent 最基础、最不可省略的需求，无论产品定位如何都绕不过去。

结论三：AGENTS.md 和 CLAUDE.md 的跨层特性，揭示了一个设计权衡。文件越少越易维护，但容易把不同性质的内容混在一起；文件越细越 MECE，但认知负担高。OpenClaw 用 6 个文件做到了最干净的分离，代价是用户需要维护更多文件。

三层结构的作用机制

2.3 这些三层结构主要通过注意力（Attention）与服从性（Obedience）机制来作用于模型：

这是我最近看到的解释上下文（Context） & 注意力|服从性最详尽易懂的总结了！

2.4 然后我又让它把上下文三层结构与注意力|服从性做一个矩阵分析的图表：

图中三个椭圆的形状本身就在编码信息：椭圆的宽窄 = 注意力的不确定性区间，椭圆的高矮 = 服从性的弹性范围。

好嘛，这理解能力太逆天了！

2.5 最后，我把自己掌握的有关大模型训练&Agent编排的相关提示信息告诉它，让它分析一下这个流程的不同阶段，分别是如何作用于大模型注意力&服从性的。

至此，我结束了对话，基本上对Context这个话题的认知，又上升了一个台阶。

后记

虽然作为非技术人员，我们无需对这些概念做过度研究，但是能够系统的了解和熟悉，这些概念及其对大模型的作用机制，对于我们更好的掌握AI Agent使用技巧是非常有帮助的。

至少你再去面对类似Codex、Claude Code、OpenClaw、Hermes这些工具的时候，内部的各类记忆文件分别起什么作用、应该如何编写等等，会有一些心得。

进一步说，如果你还是不懂如何自己维护、编写这些文件！

那么就继续跟大模型聊，你告诉大模型，你的角色/身份、过往的经历/经验、以及各类你自己的工作环境，让大模型帮你起草、编写、修改。

一直修改到你满意为止，然后把这些信息，分门别类的整理写入以上这些工具的记忆文件。

未来就是在实际工作应用中逐步完善更新、迭代。你会慢慢的发现，你的AI Agent会越来越懂你！