乐于分享
好东西不私藏

企业AI的上下文管理实战

企业AI的上下文管理实战

MIT 在 2025 年发布了一项令人震惊的数据:95% 的企业 AI 项目从未真正上线。不是模型不够强,不是算力不够多,而是——AI 拿到的”上下文”是错的。

模型回答了正确的问题,但回答的是错误的问题。因为没人告诉它,你们公司说的”收入”指的是确认收入而非毛预订量,没人告诉它 EMEA 区域有特殊的业务规则,也没人告诉它那个数据字段在三月就已经废弃了。

这就是 Agent 上下文管理的本质问题——不是模型能力不足,而是企业缺少一套系统性的方法,把”机器可读的业务上下文”持续交付给 AI。

一、什么是 Agent 上下文管理?

先说清楚一件事:上下文管理不等于 Prompt Engineering

Prompt Engineering 是每次对话前组装信息——你手动拼凑一段提示词塞给模型。这在单次交互中有效,但在企业级场景下会立刻崩溃:

  • 每个团队各自维护自己的”上下文”,导致全公司有 20 个版本的”收入定义”
  • 没有审计轨迹——当 AI 给出错误建议时,无法追溯用了什么信息
  • 无法规模化——靠人手拼 prompt,根本覆盖不了上百个业务系统

真正的上下文管理(Context Engineering)是一套持久化基础设施:它将企业的业务定义、数据血缘、治理策略、组织知识,以机器可读的方式持续维护、统一治理、随时可被任何 AI Agent 调用。

二、四层上下文架构:大多数公司只做了第一层

在企业环境中,AI Agent 需要的上下文分为四个层级,每一层都建立在前一层之上:

1. 数据上下文Schema 定义、字段类型、数据血缘、质量评分、更新时间戳。这是技术基础层。

2. 语义上下文业务术语定义、领域词汇表、同义词、消歧规则。”客户”到底指谁?

3. 知识上下文决策记录、隐性知识、事故历史、文档化推理。为什么这个管道存在?

4. 用户与角色上下文权限控制、使用偏好、组织层级、访问历史。谁能看什么?

残酷的现实是:绝大多数企业只做到了第 1 层(数据目录),而 AI Agent 真正产生商业价值的,恰恰是第 2、3、4 层。

核心洞察

数据上下文 + 语义上下文 = 有意义的元数据;语义上下文 + 知识上下文 = 带判断力的理解。缺了上面三层,Agent 只是在”正确地答错题”。

三、企业级实践:五条可落地的策略

1. 把上下文当成共享基础设施,而非团队私产每个工程师团队都在重复造轮子:自定义向量库、会话缓存、业务本体。结果就是上下文孤岛。正确的做法是一个上下文图谱、一个治理模型、所有团队通过标准协议(如 MCP)查询。这和当年从部门级数据库走向共享数仓的路径完全一致。

2. 在规模扩张之前建立治理机制谁来修改上下文?审计轨迹在哪?哪些 Agent 能访问哪些数据?这些问题必须在有 50 个 Agent 接入之前就回答清楚。GDPR、欧盟 AI 法案、SOX 都对 AI 决策的可追溯性提出了硬性要求。治理不是速度的阻碍,而是信任的前提。

3. 每一条上下文断言都要可溯源哪个系统产生的?何时最后更新?由谁或什么流程维护?适用哪条政策?没有溯源的上下文只是又一个未经验证的输入。当监管机构问”你的 AI 为什么做出这个推荐”时,溯源链就是你的答案。

4. 自动化丰富:持续性胜过手工人工维护 150+ 个系统的业务定义是不可能的。上下文腐烂(Context Rot)是隐形杀手——上季度还准确的业务定义,本季度可能已经过时。用 AI 驱动的 Context Agent 自动生成描述、识别同义词、映射关系、评估质量分数。关键在于”持续”二字。

5. 通过 MCP 让上下文对 Agent 可见MCP(Model Context Protocol)正在成为行业标准——就像 API 标准化了应用间通信一样,MCP 标准化了 AI Agent 访问业务上下文的方式。一个维护良好的词汇表如果锁在 Wiki 里,对组织内所有 Agent 来说等于不存在。

四、长对话场景:三个关键技术方案

在企业实际运行中,Agent 往往需要处理跨越数十轮甚至数百轮的长对话。这时单纯靠扩展上下文窗口是不够的,需要更精细的策略:

策略一:上下文压缩(Compaction)

当对话接近窗口上限时,将已完成的对话压缩为结构化摘要,用摘要重新初始化新窗口。保留架构决策、未解决的 Bug、关键实现细节;丢弃冗余工具输出和原始中间结果。Anthropic 官方的建议是从最大化召回开始,再逐步提升精度。

策略二:结构化笔记(Structured Note-taking)

让 Agent 定期将笔记持久化到外部存储(如 MEMORY.md),需要时按需拉回。适合有清晰里程碑的迭代开发场景——维护待办清单、跨会话追踪进度、维持复杂的任务依赖关系。

策略三:子代理架构(Sub-agent Architecture)

主代理负责高层协调和结果合成,子代理执行具体任务并返回蒸馏后的摘要(控制在 1000-2000 tokens)。这是复杂研究和分析场景的最佳选择——每个子代理专注一个小领域,主代理做全局整合。

// Sub-agent collaboration pattern// Main Agent: orchestratorconst plan = await orchestrator.plan(“analyze competitor moves”);  // Sub-agent A: researchconst research = awaitsubAgent(“researcher”, {   task: “collect product changes of A/B/C in last 3 months”,   outputFormat: “structured_summary”,   tokenBudget: 1500 });  // Sub-agent B: analysisconst analysis = awaitsubAgent(“analyst”, {   task: “comparative analysis based on data”,   context: research.summary,   outputFormat: “insights_only”,   tokenBudget: 1200 });  // Main Agent: synthesizereturn orchestrator.synthesize([research, analysis]);

五、如何判断你的上下文管理是否达标?

四个自检问题,任何一个回答”No”都说明你还停留在”战术”层面,而非”基础设施”层面:

  1. 任意 Agent 团队是否都能直接查询同一套上下文
    ,无需各自构建检索管线?
  2. 底层业务数据变化时,上下文是否自动更新?
  3. 每条上下文断言是否有完整的审计追踪?
  4. 能否为任意一次 AI 输出证明其合规性?

Gartner 预测到 2027 年,40% 的 Agentic AI 项目将被取消——原因正是成本失控和商业价值不明。而成本失控的根源,往往是每支团队都在重复建设上下文基础设施。

企业 AI 不存在模型问题,只存在上下文问题。上下文问题不能用更好的 Prompt 解决,只能用更好的基础设施解决。

写在最后

上下文管理不是一个性感的技术话题。它不像大模型的参数量那样引人注目,也不像 RAG 那样自带光环。但它是决定你的 AI Agent 是”能用的玩具”还是”生产级的同事”的分水岭。

如果你正在推进企业级 AI 落地,我的建议是:别急着选模型,先把上下文的四层架构搭起来。模型会越来越便宜,但“你的业务怎么运转”这件事,只有你能教会 AI

— 全文完 —

参考来源:MIT Sloan / Fortune (2025) | Anthropic Context Engineering | Atlan Enterprise Context Layer | AWS Context Engineering | Gartner (2025)