1. 自我反思(Self-Reflection)—— 最成熟、最通用
Agent 执行完任务后,自己复盘、自己纠错,不需要训练。
做对了:总结成功范式 做错了:生成修正版 Prompt / 步骤 输出:优化后的执行策略
典型结构:
Act(执行) Reflect(反思) Improve(迭代)
完全不碰权重,只靠多轮推理变强。
2. 记忆进化(Memory Evolution)—— 零训练、最容易落地
不训练模型,而是训练记忆体系:
短期记忆:对话上下文 中期记忆:经验片段(成功 / 失败案例) 长期记忆:自动提炼的规则、偏好、范式
Agent 会:
自动从历史中抽取规律 自动过滤无效经验 自动更新行为偏好
模型权重不变,“脑子” 不变,但经验库在进化。
3. 自生成 Prompt / 自生成子 Agent
Agent 不训练自己,但可以:
自动生成更优的系统提示 自动生成子任务的专属小 Agent 自动生成工具调用策略
越用,它生成的指令结构、分工策略越高级。这是MetaGPT、ChatDev 等多智能体框架的核心进化逻辑。
4. 自我博弈与自对弈(Self-Play)
不依赖外部数据,Agent 自己和自己玩:
提出问题 给出方案 扮演对手 / 评审攻击方案 修补漏洞 形成更鲁棒策略
典型场景:
代码自动 Debug 决策风险自查 对话安全对齐
模型权重不动,策略在博弈中进化。
5. 环境驱动进化(Environment-Driven)
Agent 不训练,但环境会教它:
工具返回结果 用户反馈 外部知识检索 规则校验
Agent 通过观察环境奖励 / 惩罚,自动调整:
思考步骤 工具选择 回答风格 决策偏好
这是RL 思想,但完全无训练、无梯度。
最简单一句话总结
不训练模型 = 不改变权重Agent 自进化 = 改变:策略、记忆、反思、结构、分工。
看相关论文:
Training-Free GRPO: Efficient RL for Large Language Models链接:https://arxiv.org/pdf/2510.08191;
核心痛点:传统GRPO需要昂贵的微调和大量数据。 方法:提出一种无需更新参数的方法。它在推理时生成一组候选答案,利用奖励模型打分,然后根据组内相对优劣,通过Prompt引导模型重新生成或加权选择。 - 效果:以极低的成本(据报道仅需几美元算力)实现了类似微调后的推理能力提升,且保持了基座模型的泛化性。
夜雨聆风