核心观点:Agent 可靠性瓶颈不在模型,而在模型周围的系统工程。一次快速校准,让重复错误归零。
一、问题:为什么AI 助理总犯同样的错误
2026 年 3 月 28 日,早上 8:30。早间新闻推送准时发送,但紧接着是第 3 次封面图发送失败报错。
错误原因:图片路径太长 + 中文字符,飞书插件无法预览。
类似问题本周发生 3 次:封面图发送失败 2 次,配置文档不同步 1 次。
累计损失:约 3 小时返工时间。
我意识到:
这不是模型能力问题,是系统工程问题。
二、方案:Harness Engineering 六大支柱
Harness Engineering= AI Agent 的"方向盘和刹车系统"。
模型是引擎,Agent 是整辆车,Harness 是控制系统的集合。
部署时间:约 30-60 分钟(一次性投入)。
| 支柱 | 核心原则 | 解决问题 |
|---|---|---|
| 1. 上下文架构 | 少即是多,40% 利用率临界点 | 上下文膨胀 |
| 2. 架构约束 | 规则编码>prompt 建议 | 规则被忽略 |
| 3. 自验证循环 | 防死循环 + 推理三明治 | 无限迭代 |
| 4. 上下文隔离 | 子 Agent 作防火墙 | 任务污染 |
| 5. 熵治理 | 文档自维护闭环 | 配置漂移 |
| 6. 可拆卸性 | 模块化中间件 | 耦合过紧 |
关键差异:
传统方式:"请记住发送图片前复制到简单路径"
→ 模型可能忘记、可能忽略
Harness 方式:assert path.startswith('/tmp/')
→ 不通过就无法执行
三、实战:快速完成 OpenClaw 校准
第 1 步:配置审计
| 问题 | 配置位置 | 实际情况 |
|---|---|---|
| 通义万相模型缺失 | openclaw.json | 只有 wanx-v1 |
| 脚本使用模型 | scripts/*.py | wanx2.1-t2i-turbo |
| TTS 模型未记录 | TOOLS.md | 完全缺失 |
根因:配置文档与实际使用脱节,无自动同步机制。
第 2 步:架构约束实施
约束 1:图片路径强制检查
if not file_path.startswith('/tmp/'):
return False, ["路径必须在/tmp/下"]
if re.search(r'[\u4e00-\u9fff]', filename):
return False, ["文件名不能有中文"]
return True, []
效果:发送前自动拦截,错误率降至 0%。
约束 2:封面图最大迭代次数
if iteration > MAX_ITERATIONS:
sys.exit(1) # 停止生成
效果:避免无限迭代,单次任务时间可控。
约束 3:文章格式预检查
DATA_PATTERNS = [r"\d+%", r"\d+ 元", r"\d+ 万"]
效果:低创作度风险显著降低。
第 3 步:熵治理
更新的文件:
MEMORY.md→ Harness Engineering 改进章节TOOLS.md→ 28 个技能清单 + TTS 配置openclaw.json→ meta 版本 + 模型配置memory/2026-03-28.md→ 今日改进记录
机制:每次配置变更后,自动同步到记忆文件。
第 4 步:验证与测试
python3 scripts/image_validator.py /Users/gaojihealth/封面图.jpg
# ❌ 路径必须在/tmp/下
# 测试正确路径(应通过)
python3 scripts/image_validator.py /tmp/cover.jpg
# ✅ 图片验证通过,可以发送
四、效果:重复错误归零
| 指标 | 改进前 | 改进后 | 变化 |
|---|---|---|---|
| 封面图发送失败 | 2 次/周 | 0 次 | -100% |
| 配置文档一致性 | 70% | 100% | +43% |
| 重复错误发生 | 3 次/周 | 0 次 | -100% |
时间节省:每周约 2-3 小时返工时间
五、方法论:可复用的实施清单
4 步实施法(预期收益:重复错误归零,每周节省 2-3 小时)
1. 审计
- 检查配置文件与实际使用一致性
- 列出重复发生的错误
- 识别配置漂移点
2. 约束
- 为每个高频错误添加硬编码约束
- 设置最大迭代次数
- 添加格式预检查
3. 熵治理
- 建立文档自动同步机制
- 添加配置版本管理
- 设置定期审计任务
4. 验证
- 编写测试用例
- 验证约束生效
- 量化效果指标
六、核心洞察与行动建议
| 错误认知 | 正确认知 |
|---|---|
| "模型不够聪明,所以会犯错" | "可靠性取决于系统工程,不是模型智商" |
| "预先优化所有可能的问题" | "投入以复利生效,只解决已出现的问题" |
| "配置文档手动维护" | "配置变更自动同步,文档自维护闭环" |
AI 助理不是"训练"出来的,是"工程化"出来的
模型只是引擎,真正决定可靠性的是周围的系统工程。
一次 3 小时的 Harness Engineering 校准,胜过 10 次的 prompt 调优。
可靠性,是设计出来的,不是祈祷出来的。
🎁 本文工具包
• 图片路径检查脚本:image_validator.py
• 封面图生成脚本:cover_generator_v4.py
• 文章格式检查脚本:article_validator.py
• Harness Engineering 实施清单
关注公众号,回复"Harness"获取完整脚本包
夜雨聆风