乐于分享
好东西不私藏

让AI Agent从错误中学习-OpenClaw的自我进化

让AI Agent从错误中学习-OpenClaw的自我进化

前言:

一个让我很痛的发现

上周做Code Review时,我发现了一个让我很痛的现象:

同一个错误,Agent在不同任务中重复犯了5次。

  • 第一次,我没在意;
  • 第二次,我提醒了;
  • 第三次,我开始思考;
  • 第四次,我有点生气;
  • 第五次,我意识到:

这不是Agent的问题,是设计的问题。

大多数AI Agent,只会执行任务,不会从执行中学习。

这就像一个只会干活不会总结的员工,每天重复同样的错误,效率永远提不上来。

所以,我做了一个实验:能不能让Agent具备自我改进的能力?

经过2周的开发,我开源了这个解决方案:

Self-Improvement Agent Skill


🚀 这个项目是什么

简单说,这是一个让OpenClaw Agent具备三层自我改进机制的Skill:

  1. 1. Layer 1: 实时反馈循环 - 每次任务后立即评估
  2. 2. Layer 2: 周期性深度反思 - 每周/月深度分析
  3. 3. Layer 3: 跨Agent经验共享 - 所有Agent集体进化

核心功能

  • ✅ 自动评估系统(打分机制)
  • ✅ 经验学习器(记录成功/失败模式)
  • ✅ 策略优化器(低分触发改进)

项目地址-GitHub:

https://github.com/daxiangnaoyang/self-improving-agent

一句话总结:让Agent越用越聪明,而不是越用越笨。


📋 三层改进机制详解

Layer 1: 实时反馈循环

问题:传统Agent执行完任务就结束了,好坏都不知道。

解决:每次任务完成后,自动触发评估流程。

评分系统

总分 = 完成度(30%) + 效率(20%) + 质量(30%) + 满意度(20%)≥ 90分: 优秀 → 记录最佳实践80-89分: 良好 → 继续保持70-79分: 及格 → 识别改进点< 70分: 不及格 → 触发深度反思

示例

# 任务完成后自动评估$metrics = @{    completion = 90# 完成度 0-100    efficiency = 85# 效率 0-100    quality = 80# 质量 0-100    satisfaction = 85# 满意度 0-100}"scripts/evaluate-task.ps1"-AgentId"dajia"-TaskId"task-001"-TaskType"创作"-Metrics$metrics

Layer 2: 周期性深度反思

问题:单次评估只能看到表面问题,系统性问题需要长期观察。

解决:每周/月自动深度分析。

分析内容

  • 识别重复出现的失败模式
  • 找出瓶颈环节
  • 发现知识缺口
  • 生成优化计划

触发条件

  • 评分 < 70分:立即优化
  • 连续3次及格:主动优化
  • 收到新反馈:针对性优化

Layer 3: 跨Agent经验共享

问题:每个Agent都在重复踩坑,经验无法复用。

解决:所有Agent共享同一个知识库。

共享内容

  • ✅ 最佳实践(什么方法效果好)
  • ✅ 常见错误(什么要避免)
  • ✅ 优化技巧(如何提升效率)
  • ✅ 工具推荐(什么工具好用)

效果:一个Agent学到的教训,所有Agent都能受益。


🛠️ 技术实现架构

核心组件

Self-Evaluator(自我评估器)

文件scripts/self-improvement/evaluate-task.ps1

功能:计算任务得分,生成评估报告

评分维度

  • 任务完成度(是否达成目标)
  • 执行效率(耗时是否合理)
  • 质量评分(输出质量如何)
  • 用户满意度(是否需要返工)
  • 创新度(是否有新方法)

Lesson-Learner(经验学习器)

文件scripts/self-improvement/learn-lesson.ps1

功能:记录经验教训,同步到共享知识库

存储格式

{"id":"lesson-20260311001","timestamp":"2026-03-11T02:00:00Z","agent":"dajia","lesson":"文章创作后要验证链接有效性","impact":"high","category":"quality","applied":false}

Strategy-Optimizer(策略优化器)

文件scripts/self-improvement/optimize-agent.ps1

功能:分析评估数据,生成优化计划

优化策略

  • 流程优化:改进工作流程
  • 工具优化:选择更好的工具
  • Prompt优化:优化提示词
  • 知识补充:学习新知识

跨Agent同步器

文件scripts/self-improvement/sync-learning.ps1

功能:同步学习成果到所有Agent

同步内容

  • 成功模式
  • 失败模式
  • 优化建议
  • 工具推荐

数据结构

  • evaluations.json存储每次任务的评估结果
  • lessons-learned.json存储学到的经验教训
  • optimization-plan.json存储优化计划和执行状态
  • performance-metrics.json存储Agent的性能指标和趋势

🎯 实战案例

案例1:内容创作Agent

场景:Writer Agent负责公众号文章创作

问题

  • 链接经常失效(未验证)
  • 标题不够吸引(流量低)
  • 配图质量不稳定

改进过程

  1. 1. 第1周:平均得分75分
    • 问题:链接失效率高
    • 优化:添加链接检查步骤
  2. 2. 第2周:平均得分82分
    • 问题:标题吸引力不足
    • 优化:应用Content Creation Flow方法论
  3. 3. 第3周:平均得分88分
    • 问题:配图质量波动
    • 优化:使用固定Prompt模板

结果

  • 平均得分:75 → 88(+17%)
  • 链接失效:30% → 5%(-83%)
  • 文章打开率:2% → 5%(+150%)

案例2:代码开发Agent

场景:Coder Agent负责功能开发

问题

  • 代码风格不统一
  • 缺少错误处理
  • 测试覆盖不足

改进过程

  1. 1. 自动发现:评估器识别代码质量问题
  2. 2. 经验积累:记录常见错误模式
  3. 3. 策略优化:集成代码检查工具
  4. 4. 跨Agent共享:其他Agent复用经验

结果

  • 代码质量问题:-60%
  • 返工率:-50%
  • 开发效率:+30%

案例3:数据分析Agent

场景:Danao Agent负责数据分析

问题

  • 数据清洗不彻底
  • 可视化效果差
  • 洞察不够深入

改进过程

  1. 1. 评分触发:连续3次得分<70
  2. 2. 深度反思:识别根本原因
  3. 3. 优化执行:改进数据处理流程
  4. 4. 效果验证:得分提升到85

结果

  • 数据准确性:+25%
  • 报告质量:显著提升
  • 用户满意度:+40%

💻 如何使用

安装

方式1:使用ClawHub(推荐)

clawhub install self-improving-agent

方式2:手动安装

  1. 1. 下载 .skill 文件
    • GitHub: https://github.com/daxiangnaoyang/self-improving-agent/releases
  2. 2. 复制到 ~/.openclaw/skills/
  3. 3. 重启OpenClaw Gateway

配置

在每个Agent中添加评估脚本:

# 加载配置"$env:USERPROFILE\.openclaw\workspace-<agent-id>\scripts\self-improvement\config.ps1"# 任务完成后自动评估$metrics = @{    completion = 90    efficiency = 85    quality = 80    satisfaction = 85}"scripts/evaluate-task.ps1"-AgentId"<agent-id>"-TaskId"task-001"-TaskType"创作"-Metrics$metrics

自定义

调整评分权重

# 修改 evaluate-task.ps1 中的权重$completionScore = $Metrics.completion * 0.4# 改为40%$efficiencyScore = $Metrics.efficiency * 0.3# 改为30%$qualityScore = $Metrics.quality * 0.2# 改为20%$satisfactionScore = $Metrics.satisfaction * 0.1# 改为10%

添加自定义评估维度

# 在 $metrics 中添加新维度$metrics = @{    completion = 90    efficiency = 85    quality = 80    satisfaction = 85    innovation = 75# 新增:创新度}

📊 预期效果

目标指标

  • ✅ 平均任务得分:+10%
  • ✅ 返工率:-50%
  • ✅ 任务完成时间:-20%
  • ✅ 跨Agent知识复用率:>30%

实际效果(基于测试)

Week 1

  • 平均得分:76分
  • 返工率:25%

Week 2

  • 平均得分:82分(+8%)
  • 返工率:18%(-28%)

Week 3

  • 平均得分:87分(+14%)
  • 返工率:12%(-52%)

趋势:持续改进中


❓ FAQ

Q1: 这个Skill适用于所有Agent吗?

A: 理论上适用于任何需要持续改进的Agent:

  • ✅ 内容创作Agent(文章、视频、脚本)
  • ✅ 代码开发Agent(编程、调试、重构)
  • ✅ 数据分析Agent(报告、洞察、预测)
  • ✅ 任务管理Agent(计划、执行、跟踪)

但不适用于:

  • ❌ 一次性任务Agent
  • ❌ 简单工具Agent(如天气查询)

Q2: 评估维度可以自定义吗?

A: 可以!你可以:

  • 调整权重比例
  • 添加新的评估维度
  • 移除不需要的维度

详细方法见"配置"部分。

Q3: 数据存储在哪里?

A: 存储在各Agent的工作区:

~/.openclaw/workspace-/self-improvement/├── evaluations.json├── lessons-learned.json├── optimization-plan.json└── performance-metrics.json

跨Agent共享数据在:

~/.openclaw/workspace-/shared-context/self-improvement/└── collective-wisdom.json

Q4: 会影响性能吗?

A: 影响极小:

  • 评估脚本:<1秒
  • 数据存储:<100ms
  • 同步操作:后台执行

建议在任务完成后异步执行评估。

Q5: 如何查看改进效果?

A: 有三种方式:

  1. 1. 查看 performance-metrics.json
  2. 2. 对比历史评估记录
  3. 3. 可视化仪表板(v1.1计划)

Q6: 需要编程基础吗?

A: 基础使用不需要,但自定义需要:

  • 安装使用:不需要
  • 调整权重:不需要(有配置模板)
  • 添加新维度:需要基础PowerShell知识

🎓结语

核心价值

Self-Improvement Agent Skill 的核心价值不在于技术实现,而在于理念的转变

❌ 旧理念:Agent是工具,用完即弃✅ 新理念:Agent是伙伴,共同成长

三个转变

  1. 1. 从"执行任务"到"执行+学习"
  2. 2. 从"被动优化"到"主动改进"
  3. 3. 从"单打独斗"到"集体进化"

我的思考

我并不认为自我改进机制能让Agent完美无缺。

但我坚信

  • 一个会学习的Agent,远比一个只会执行的Agent有价值
  • 持续改进的能力,是Agent进化的必经之路
  • 集体智慧的力量,远超个体之和

我更希望

  • 这个项目能抛砖引玉,激发更多Agent改进的创意
  • 社区能一起完善这个机制,让所有Agent受益
  • 未来能有更多Agent具备自我进化的能力

行动号召

如果你是

  • ✅ 开发者:欢迎Star、Fork、贡献代码
  • ✅ 研究者:欢迎探索优化算法、评估方法
  • ✅ 使用者:欢迎反馈问题、分享经验
  • ✅ 传播者:欢迎转发、让更多人知道

GitHub: https://github.com/daxiangnaoyang/self-improving-agent

让每个Agent都成为终身学习者! 💪


📚 延伸阅读

相关项目

  • OpenClaw: https://github.com/openclaw/openclaw
  • ClawHub: https://github.com/openclaw/clawhub

作者简介

大象 (Daxiang),AI方案架构师,15年职场经验。抖音·巨量学认证讲师,阿里云Agent智能高级训练师。

致力于普及AI知识,让普通人用上最先进的技术。

公众号:大象AI共学抖音号:大象AI共学Coze账号:大象AI共学


本文原创,转载请注明出处项目地址:https://github.com/daxiangnaoyang/self-improving-agent