企业AI的上下文管理实战-夜雨聆风

企业AI的上下文管理实战

MIT 在 2025 年发布了一项令人震惊的数据：95% 的企业 AI 项目从未真正上线。不是模型不够强，不是算力不够多，而是——AI 拿到的”上下文”是错的。

模型回答了正确的问题，但回答的是错误的问题。因为没人告诉它，你们公司说的”收入”指的是确认收入而非毛预订量，没人告诉它 EMEA 区域有特殊的业务规则，也没人告诉它那个数据字段在三月就已经废弃了。

这就是 Agent 上下文管理的本质问题——不是模型能力不足，而是企业缺少一套系统性的方法，把”机器可读的业务上下文”持续交付给 AI。

一、什么是 Agent 上下文管理？

先说清楚一件事：上下文管理不等于 Prompt Engineering。

Prompt Engineering 是每次对话前组装信息——你手动拼凑一段提示词塞给模型。这在单次交互中有效，但在企业级场景下会立刻崩溃：

每个团队各自维护自己的”上下文”，导致全公司有 20 个版本的”收入定义”
没有审计轨迹——当 AI 给出错误建议时，无法追溯用了什么信息
无法规模化——靠人手拼 prompt，根本覆盖不了上百个业务系统

真正的上下文管理（Context Engineering）是一套持久化基础设施：它将企业的业务定义、数据血缘、治理策略、组织知识，以机器可读的方式持续维护、统一治理、随时可被任何 AI Agent 调用。

二、四层上下文架构：大多数公司只做了第一层

在企业环境中，AI Agent 需要的上下文分为四个层级，每一层都建立在前一层之上：

1. 数据上下文Schema 定义、字段类型、数据血缘、质量评分、更新时间戳。这是技术基础层。

2. 语义上下文业务术语定义、领域词汇表、同义词、消歧规则。”客户”到底指谁？

3. 知识上下文决策记录、隐性知识、事故历史、文档化推理。为什么这个管道存在？

4. 用户与角色上下文权限控制、使用偏好、组织层级、访问历史。谁能看什么？

残酷的现实是：绝大多数企业只做到了第 1 层（数据目录），而 AI Agent 真正产生商业价值的，恰恰是第 2、3、4 层。

核心洞察

数据上下文 + 语义上下文 = 有意义的元数据；语义上下文 + 知识上下文 = 带判断力的理解。缺了上面三层，Agent 只是在”正确地答错题”。

三、企业级实践：五条可落地的策略

1. 把上下文当成共享基础设施，而非团队私产每个工程师团队都在重复造轮子：自定义向量库、会话缓存、业务本体。结果就是上下文孤岛。正确的做法是一个上下文图谱、一个治理模型、所有团队通过标准协议（如 MCP）查询。这和当年从部门级数据库走向共享数仓的路径完全一致。

2. 在规模扩张之前建立治理机制谁来修改上下文？审计轨迹在哪？哪些 Agent 能访问哪些数据？这些问题必须在有 50 个 Agent 接入之前就回答清楚。GDPR、欧盟 AI 法案、SOX 都对 AI 决策的可追溯性提出了硬性要求。治理不是速度的阻碍，而是信任的前提。

3. 每一条上下文断言都要可溯源哪个系统产生的？何时最后更新？由谁或什么流程维护？适用哪条政策？没有溯源的上下文只是又一个未经验证的输入。当监管机构问”你的 AI 为什么做出这个推荐”时，溯源链就是你的答案。

4. 自动化丰富：持续性胜过手工人工维护 150+ 个系统的业务定义是不可能的。上下文腐烂（Context Rot）是隐形杀手——上季度还准确的业务定义，本季度可能已经过时。用 AI 驱动的 Context Agent 自动生成描述、识别同义词、映射关系、评估质量分数。关键在于”持续”二字。

5. 通过 MCP 让上下文对 Agent 可见MCP（Model Context Protocol）正在成为行业标准——就像 API 标准化了应用间通信一样，MCP 标准化了 AI Agent 访问业务上下文的方式。一个维护良好的词汇表如果锁在 Wiki 里，对组织内所有 Agent 来说等于不存在。

四、长对话场景：三个关键技术方案

在企业实际运行中，Agent 往往需要处理跨越数十轮甚至数百轮的长对话。这时单纯靠扩展上下文窗口是不够的，需要更精细的策略：

策略一：上下文压缩（Compaction）

当对话接近窗口上限时，将已完成的对话压缩为结构化摘要，用摘要重新初始化新窗口。保留架构决策、未解决的 Bug、关键实现细节；丢弃冗余工具输出和原始中间结果。Anthropic 官方的建议是从最大化召回开始，再逐步提升精度。

策略二：结构化笔记（Structured Note-taking）

让 Agent 定期将笔记持久化到外部存储（如 MEMORY.md），需要时按需拉回。适合有清晰里程碑的迭代开发场景——维护待办清单、跨会话追踪进度、维持复杂的任务依赖关系。

策略三：子代理架构（Sub-agent Architecture）

主代理负责高层协调和结果合成，子代理执行具体任务并返回蒸馏后的摘要（控制在 1000-2000 tokens）。这是复杂研究和分析场景的最佳选择——每个子代理专注一个小领域，主代理做全局整合。

// Sub-agent collaboration pattern// Main Agent: orchestratorconst plan = await orchestrator.plan(“analyze competitor moves”); // Sub-agent A: researchconst research = awaitsubAgent(“researcher”, { task: “collect product changes of A/B/C in last 3 months”, outputFormat: “structured_summary”, tokenBudget: 1500 }); // Sub-agent B: analysisconst analysis = awaitsubAgent(“analyst”, { task: “comparative analysis based on data”, context: research.summary, outputFormat: “insights_only”, tokenBudget: 1200 }); // Main Agent: synthesizereturn orchestrator.synthesize([research, analysis]);

五、如何判断你的上下文管理是否达标？

四个自检问题，任何一个回答”No”都说明你还停留在”战术”层面，而非”基础设施”层面：

任意 Agent 团队是否都能直接查询同一套上下文

，无需各自构建检索管线？
底层业务数据变化时，上下文是否自动更新？
每条上下文断言是否有完整的审计追踪？
能否为任意一次 AI 输出证明其合规性？

Gartner 预测到 2027 年，40% 的 Agentic AI 项目将被取消——原因正是成本失控和商业价值不明。而成本失控的根源，往往是每支团队都在重复建设上下文基础设施。

企业 AI 不存在模型问题，只存在上下文问题。上下文问题不能用更好的 Prompt 解决，只能用更好的基础设施解决。

写在最后

上下文管理不是一个性感的技术话题。它不像大模型的参数量那样引人注目，也不像 RAG 那样自带光环。但它是决定你的 AI Agent 是”能用的玩具”还是”生产级的同事”的分水岭。

如果你正在推进企业级 AI 落地，我的建议是：别急着选模型，先把上下文的四层架构搭起来。模型会越来越便宜，但“你的业务怎么运转”这件事，只有你能教会 AI。

— 全文完 —

参考来源：MIT Sloan / Fortune (2025) | Anthropic Context Engineering | Atlan Enterprise Context Layer | AWS Context Engineering | Gartner (2025)