AI超载|第10章:上下文压缩:30分钟后AI失忆怎么办

///

PART 01

10.1 那个令人窒息的场景，你一定遇到过

想象一下这个场景：

⏰ 30分钟前

你：帮我分析这个10万行的代码库，重点关注用户认证模块

AI：好的，我来逐步分析...

AI：找到了！用户认证在 src/auth/ 目录下，有这些文件...

AI：根据分析，认证流程是这样的...

AI：发现了3个潜在的安全问题...

⏰ 35分钟后（你已经和AI讨论了很多轮）

你：刚才说的第三个安全问题是什么来着？

AI：抱歉，我需要更多上下文才能回答这个问题。

「抱歉，我需要更多上下文」 ——这可能是AI编程工具出现以来最让人窒息的句话。

你明明就在30分钟前和AI讨论过这个问题，它当时还给出了详细的分析。但现在它就像完全失忆了一样，需要你重新开始。

这不是AI变笨了，而是它的「记忆」被清除了。

///

PART 02

10.2 理解AI的「记忆」：上下文窗口

10.2.1 什么是上下文窗口？

AI的「记忆」有一个物理上限，叫做上下文窗口（Context Window）。

类比理解：

人类的记忆	AI的上下文窗口
短期记忆容量有限	上下文窗口有Token数量限制
信息过多时遗忘旧的	Token用完时丢掉旧的
长期记忆需要刻意巩固	需要Skill/Summarize等机制

不同的AI模型有不同的上下文窗口大小：

模型	上下文窗口	大约能容纳
Claude Haiku	200K Tokens	一本《战争与和平》
Claude Sonnet	200K Tokens	一本《战争与和平》
Claude Opus	200K Tokens	一本《战争与和平》
GPT-4o	128K Tokens	半本《战争与和平》
GPT-3.5	16K Tokens	一篇中篇小说

10.2.2 Token是什么？

Token是AI处理文本的基本单位。一个Token大约等于：

英文：一个单词的1/4到1/2
中文：一个汉字到两个汉字

举例来说：

"Hello, world!" = 5 Tokens (Hell-o, -, world-!)

"你好，世界！" = 5 Tokens (你-好-，-世-界-！)

上下文窗口的消耗来源：

上下文总消耗 = 输入（你的问题）

+ 输出（AI的回答）

+ 推理过程（thinking）

+ 工具调用结果（read文件、bash输出）

+ 对话历史（之前的问答）

10.2.3 上下文窗口的「隐形杀手」

最容易被忽视的上下文消耗来源是工具调用结果。

看几个真实数据：

工具调用	输出大小
Playwright页面快照	56 KB
20个GitHub Issues	59 KB
1个访问日志文件	45 KB
10个代码文件	100-200 KB

换算成Token：

1 KB ≈ 750 Tokens（中文）或 ~750 Tokens（英文）
56 KB ≈ 42,000 Tokens

这就解释了为什么你的对话会在30分钟后「失忆」——几次页面快照、几个日志文件的工具输出，就已经把上下文窗口填满了。

///

PART 03

10.3 上下文压缩的两步走：Prune + Summarize

当上下文窗口接近满载时，AI编程工具会自动启动压缩机制，分两步走：

10.3.1 第一步：Prune（剪枝）

Prune的核心逻辑：保留最近40,000 Tokens的工具输出，清除更早的。

为什么是40,000？

因为LLM的推理机制需要「最近的上下文」来保持连贯性。太久远的信息对当前任务贡献度低，优先清除。

┌─────────────────────────────────────────────────────┐

│ 上下文窗口 │

│ │

│ [更早的工具输出 - 被清除] [最近40K Tokens - 保留] │

│ ↑ │

│ 当前任务 │

└─────────────────────────────────────────────────────┘

Prune的问题：它是无差别的清除。

如果你在1小时前用Playwright测试了一个页面，那个快照被清除了
如果你后来需要参考那个测试的结果，对不起，没了
如果你在清除后问AI「刚才测试结果是什么」，AI会说「我不知道」

10.3.2 第二步：Summarize（摘要）

Summarize的核心逻辑：用LLM生成摘要，替换原始对话历史。

原始对话历史（10,000 Tokens）

↓ LLM生成摘要

摘要（500 Tokens）

↓ 替换

原始历史被删除，用摘要替代

Summarize的问题：摘要会丢失细节。

AI会生成一个「缩水版」的历史记录
具体的代码片段、测试数据、调试过程可能被简化或忽略
问「上次你读取的那个文件第23行写的什么」，AI可能答不上来

10.3.3 Prune vs Summarize：哪个更痛？

操作	失去什么	保留什么
Prune	更早的工具输出	最近40K Tokens
Summarize	对话细节	核心主题和结论

两种压缩方式的共同问题：

压缩后，你问：「第三个安全问题是什么？」

AI内心OS：我知道我们讨论过安全问题，但我记不清具体是哪三个了

///

PART 04

10.4 /compact命令：正确使用时机

10.4.1 什么是/compact？

/compact是一个手动触发上下文压缩的命令。它的作用是：

主动压缩：不等自动触发，用户主动发起
智能压缩：根据当前任务状态选择压缩策略
可控压缩：用户可以选择压缩的激进程度

10.4.2 正确的使用时机

✅ 应该在这些时候用/compact：

场景1：规划完成后

你让Plan Agent分析了项目架构，生成了一份详细的计划

→ 现在该切换到Build Agent执行了

→ 规划阶段的细节可以压缩，执行阶段的上下文更重要

→ 用/compact

场景2：调试完成后

你花了1小时调试一个bug，终于解决了

→ 调试过程的历史可以压缩

→ bug的root cause和解决方案要保留

→ 用/compact

场景3：里程碑达成后

完成了某个功能的开发，测试全部通过

→ 开发过程的细节可以压缩

→ 完成的成果和下一步计划要保留

→ 用/compact

场景4：阶段性总结前

完成了一个大的开发阶段，需要记录成果

→ 在总结前先压缩

→ 让总结从「干净的」上下文开始

→ 用/compact

10.4.3 错误的压缩时机

❌ 不应该在这些时候用/compact：

场景1：正在调试中

你正在调试一个复杂的bug，已经定位到了大概位置

→ 如果现在压缩，可能丢失关键的调试上下文

→ 等调试完成后再压缩

场景2：实现进行到一半

你让AI写了50%的代码，正在继续

→ 压缩可能导致AI忘记之前的实现细节

→ 等功能完成或一个阶段完成后压缩

场景3：多步骤推理中途

AI正在执行一个复杂的分析推理，已经进行了10步中的第7步

→ 压缩会打断推理链条

→ 等推理完成后再压缩

10.4.4 /compact的正确姿势

/compact [选项]

选项：

--aggressive 激进压缩，最大化上下文节省

--conservative 保守压缩，保留更多细节

--summary-only 只生成摘要，不删除原始内容

--dry-run 预览压缩效果，不实际执行

推荐流程：

# 1. 预览压缩效果

/compact --dry-run

# 2. 查看会保留什么、会丢失什么

# 如果预览结果满意：

# 3. 执行保守压缩

/compact --conservative

///

PART 05

10.5 Context Mode：上下文优化的革命

10.5.1 传统模式的上下文浪费

在传统的AI编程模式中，工具输出的处理方式是这样的：

工具执行

↓

输出原始结果（如56KB的Playwright快照）

↓

全部塞进上下文窗口

↓

上下文窗口被快速填满

↓

触发压缩，丢失重要信息

问题根源：工具输出的原始格式包含了太多冗余信息。

10.5.2 Context Mode的98%压缩原理

Context Mode是ECC提出的上下文优化方案，核心思路是：

不是压缩已有的上下文

而是让工具输出本身就是「压缩版」

原理对比：

模式	工具输出	塞入上下文的实际大小
传统模式	原始输出	56 KB
Context Mode	沙箱化摘要	5.4 KB

98%压缩率怎么实现的？

原始工具输出（56 KB）

↓

Context Mode沙箱处理

↓

只保留语义关键信息：

- 页面标题

- 关键元素定位器

- 操作结果（成功/失败）

- 异常信息（如有）

↓

压缩后（5.4 KB）

10.5.3 沙箱工具输出 vs 原始输出

原始输出示例（Playwright页面快照的一部分）：

<input id="username" type="text"

class="css-2kgf9h"

placeholder="请输入用户名"

value="">

<input id="password" type="password"

class="css-3khf7d"

placeholder="请输入密码"

value="">

<button class="css-4khfr8"

data-testid="login-button"

disabled="">

</button>

</div>

Context Mode沙箱输出：

{

"type": "page_snapshot",

"title": "登录页",

"key_elements": [

{"id": "username", "type": "input", "label": "用户名"},

{"id": "password", "type": "password", "label": "密码"},

{"id": "login-button", "type": "button", "label": "登录", "disabled": true}

"form_action": "/api/login",

"has_captcha": false

}

对比：

指标	原始输出	沙箱输出
大小	56 KB	0.5 KB
Token消耗	~42,000	~375
语义保留	100%	95%

10.5.4 Context Mode的四大解决方案

方案	效果	说明
Context Saving	98%压缩	沙箱化工具输出，只保留语义
Session Continuity	断点续接	SQLite + FTS5 BM25检索
Think in Code	避免读取	LLM写脚本分析，不用读取大文件
Output Compression	65-75%节省	技术内容精简

///

PART 06

10.6 Think in Code：不用读取，用脚本

10.6.1 传统方式的困境

分析代码库时，传统方式是：

Read file1 → 塞进上下文

Read file2 → 塞进上下文

Read file3 → 塞进上下文

... (重复N次)

上下文窗口被撑爆

实际数字：

分析50个代码文件
每个文件平均10KB
总共500KB原始内容
约 375,000 Tokens（超出大多数模型的上下文窗口）

10.6.2 Think in Code的思路

不要读取，让AI写脚本分析：

// 传统方式：47 × Read() = 700 KB上下文消耗

// Think in Code：1 × ctx_execute() = 3.6 KB上下文消耗

ctx_execute("javascript", `

const fs = require('fs');

const path = require('path');

// 递归扫描src目录

function scanDir(dir, depth = 0) {

if (depth > 3) return; // 最多3层

const files = fs.readdirSync(dir);

files.forEach(f => {

const full = path.join(dir, f);

const stat = fs.statSync(full);

if (stat.isDirectory()) {

scanDir(full, depth + 1);

} else if (f.endsWith('.ts') || f.endsWith('.tsx')) {

const content = fs.readFileSync(full, 'utf8');

const lines = content.split('\\n').length;

console.log(full + ': ' + lines + ' lines');

}

});

}

scanDir('src');

上下文消耗对比：

方式	上下文消耗
47次Read	700 KB (~525,000 Tokens)
1次ctx_execute	3.6 KB (~2,700 Tokens)

节省 99.5% 的上下文空间！

10.6.3 什么时候用Think in Code？

适合的场景：

统计代码行数
查找特定模式的代码
分析文件结构
批量重命名
生成报告

不适合的场景：

需要AI理解代码逻辑
需要AI进行复杂推理
需要AI修改代码

///

PART 07

10.7 自动压缩触发阈值配置

10.7.1 为什么需要配置？

不同的任务需要不同的压缩策略：

任务类型	推荐阈值	说明
简单编辑	80%	不需要频繁压缩
代码审查	70%	需要保留较多上下文
复杂调试	60%	调试信息重要
大型重构	50%	重构风险高，需要更多上下文

10.7.2 配置方法

在OpenCode配置文件中：

{

"compaction": {

"auto_trigger_threshold": 0.75,

"prune_threshold": 40000,

"summarize_model": "haiku",

"exclude_patterns": [

"*.log",

"**/node_modules/**"

]

}

配置说明：

字段	说明
`auto_trigger_threshold`	自动触发压缩的阈值（75%）
`prune_threshold`	Prune时保留的Token数（40,000）
`summarize_model`	用于生成摘要的模型（便宜模型即可）
`exclude_patterns`	压缩时排除的文件模式

10.7.3 自定义压缩策略

对于特定任务，可以临时调整阈值：

# 开启激进压缩模式（用于超长任务）

/compact --aggressive

# 开启保守压缩模式（用于重要任务）

/compact --conservative

# 临时禁用自动压缩

/config set compaction.auto_trigger false

# 恢复自动压缩

/config set compaction.auto_trigger true

///

PART 08

10.8 会话持久化与恢复

10.8.1 为什么需要会话持久化？

即使有压缩机制，长期任务仍然需要跨会话保留上下文。

问题场景：

Day 1：你和AI分析了项目架构，做了很多分析

Day 2：你继续工作时，AI完全不记得昨天的分析

Day 3：你需要重新开始

10.8.2 SQLite + FTS5 BM25检索

OpenCode使用SQLite作为会话存储：

# 查看当前会话数据库位置

/opencode session info

# 会话数据库包含：

# - 对话历史

# - 文件修改记录

# - 工具调用记录

# - 上下文压缩历史

FTS5 BM25检索：

当你问「我们上次讨论的那个安全问题」时，系统会：

在会话数据库中搜索相关历史
使用BM25算法排序最相关的结果
将检索结果注入当前上下文
AI基于这些上下文回答问题

10.8.3 手动保存关键上下文

当你在对话中获得了重要的分析结果时，手动保存：

# 保存当前上下文到笔记

/opencode context save --title "项目架构分析-20260502"

# 列出已保存的上下文

/opencode context list

# 加载之前的上下文

/opencode context load "项目架构分析-20260502"

保存的内容：

# 项目架构分析-20260502

## 核心发现

1. 用户认证模块在 src/auth/

2. 发现了3个安全问题...

## 关键文件

- src/auth/login.ts

- src/auth/token.ts

...

## 下一步

1. 修复安全问题

2. 添加单元测试

///

PART 09

10.9 上下文压缩的实战策略

10.9.1 预防优于治疗

在上下文快满之前，主动压缩：

不要等到 95% 才压缩

在 70-80% 时主动压缩效果最好

为什么？

95%时压缩，内容已经被「挤压」得很紧
70-80%时压缩，还有足够的「呼吸空间」
主动压缩可以选择保留什么、压缩什么
被动压缩（自动触发）是无差别压缩

10.9.2 分阶段任务策略

对于大型任务，使用分阶段+压缩的策略：

阶段1：需求分析

→ 分析完成后 /compact

→ 保留：需求结论

→ 压缩：分析过程

阶段2：架构设计

→ 设计完成后 /compact

→ 保留：架构方案

→ 压缩：讨论过程

阶段3：编码实现

→ 每个功能完成后 /compact

→ 保留：实现细节

→ 压缩：中间调试过程

阶段4：测试验证

→ 测试完成后 /compact

→ 保留：测试结果

→ 压缩：调试日志

10.9.3 用Skill保存结构化知识

不要依赖对话历史来保存知识，用Skill：

❌ 不好：依赖AI记住「我们上次讨论的结论」

✅ 好：创建一个Skill保存结论，下次自动加载

创建结论Skill示例：

---

name: project-auth-analysis

description: 用户认证模块分析结论（2026-05-02）

origin: session-20260502

tags: [project-knowledge, auth-module]

version: 1.0.0

---

# 用户认证模块分析结论

## 核心发现

### 目录结构

- `src/auth/` - 认证模块根目录

- `src/auth/login.ts` - 登录逻辑

- `src/auth/token.ts` - Token管理

### 安全问题

1. **SQL注入风险**：login.ts 第45行使用字符串拼接

2. **密码明文存储**：需要迁移到bcrypt

3. **Token无过期时间**：需要添加expiry

## 关键决策

1. 使用JWT Token方案

2. 密码使用bcrypt hashing

3. Token有效期7天

## 下一步

- [ ] 修复SQL注入（第45行）

- [ ] 添加密码hashing

- [ ] 添加Token过期机制

///

PART 10

10.10 本章小结

核心要点

上下文窗口有物理上限：不同的模型有200K、128K等不同的Token限制
工具输出是上下文的主要消耗：一次Playwright快照可能消耗42,000 Tokens
压缩机制两步走：

Prune：保留最近40K Tokens，清除更早的
Summarize：用LLM生成摘要替换原始历史

/compact的正确时机：

✅ 规划后、调试后、里程碑后
❌ 调试中、实现中、推理中途

Context Mode实现98%压缩：沙箱化工具输出，只保留语义关键信息
Think in Code节省99.5%上下文：让AI写脚本分析，不用读取大文件
预防优于治疗：在70-80%时主动压缩，不要等到95%被动触发

实践建议

✅ 养成习惯：每个阶段完成后主动 /compact

✅ 用 Skill 保存结构化知识，不依赖对话历史

✅ 复杂分析时用 Think in Code 代替批量读取

✅ 配置合适的自动压缩阈值（70-80%）

✅ 大型任务分阶段，每个阶段后压缩

❌ 不要等到 95% 才想起来压缩

❌ 不要在调试中途压缩

❌ 不要把所有知识都塞在对话里

下一步

上下文压缩解决了「记忆」问题，但如何选择合适的AI模型来平衡成本和效果？

这就是下一章的主题：Token经济学——月薪3000怎么用出$3000的AI。

THANKS FOR READING

🦐 龙虾 · OpenClaw 技术分享