本手册整合了 OpenClaw 的通用命令、飞书(Lark)特化操作以及深度 Token 成本控制策略。
一、 核心交互指令 (斜杠命令 /)
在对话框输入 / 即可触发,是管理 AI 状态最直接的方式。
| Token 优化/省钱效果 | |||
|---|---|---|---|
| 会话控制 | /new | 最高级优化 | |
/compact | [核心] | 大幅降本 | |
/reset | |||
| 临时任务 | /btw [内容] | 防污染 | |
| 状态监控 | /usage | 透明化 | |
/context | 诊断 | ||
/status | |||
| 模型工具 | /model [名] | 策略优化 | |
/memory | RAG 模式 |
二、 飞书 (Lark) 环境特化技巧
在飞书多用户协作场景下,Token 消耗往往更快,建议采用以下交互方案:
引用回复 (Threaded Reply) 操作:使用飞书“回复”功能针对性提问。 效果:OpenClaw 会优先提取关联消息,忽略群聊中无关的闲聊内容,减少输入负载。 消息截断设置 在后台配置 max_history_messages: 15。限制历史轮数可强制模型“聚焦”当前问题,防止历史信息无限堆积。自动卡片总结 配置 auto_summary: true。当群聊 Token 达到阈值时,自动将历史折叠为摘要卡片,确保持续对话处于低成本环境。权限白名单 使用 /allowlist限制高阶模型调用权限,防止非核心成员误用昂贵资源(如频繁调用 GPT-4 闲聊)。
三、 后台深度优化配置 (openclaw.json)
通过调整底层参数,实现自动化的 Token 缩减:
1. 自动压缩机制 (Compaction)
当上下文占用接近模型上限时,自动触发刷新:
"compaction":{"memoryFlush":true,// 压缩前将关键决策存入局部存储"tokenThreshold":80000// 达到 80k Token 时自动执行压缩}2. 启用精准检索 (QMD)
开启 Query-based Memory Delivery
效果:系统不再每轮发送全部历史,而是仅根据当前问题召回最相关的历史片段进入 Context,极大节省输入 Token。
3. 设置硬性上下文上限
手动设置 contextTokens。建议设为模型最大能力的 60%-70%。意义:防止单次请求费用过高,并提高模型响应速度。
四、 最佳实践总结
分阶段处理:处理大型项目时,先用 /memory search找文件,再针对性修改。禁止一次性将整个源码目录喂给 AI。模型阶梯化:默认使用 gpt-4o-mini处理日常咨询,仅在需要复杂推理或代码编写时手动切换至claude-3-5-sonnet。及时清场:项目阶段性结束后,养成使用 /new的习惯,保持 Agent 始终运行在轻量化状态。
夜雨聆风