1. 我当前的结论是什么
当前我对编码 Agent 的判断是:
不应该继续把主要精力放在 Agent 本体通用能力的设计上,而应该聚焦 Agent 在高频研发场景中的实际价值,并围绕具体项目补齐它最难自动获得的能力。
更具体地说,有三点结论:
1.1 Agent 的通用能力框架正在逐渐收敛
对于编码 Agent 来说,围绕“如何理解任务、如何执行、如何使用工具、如何输出结果”的通用设计,已经逐步形成相对稳定的模式。
同时,模型厂商也会持续围绕这些通用能力不断迭代,底层 LLM 的理解能力、执行能力和工具使用能力也会持续增强。
这意味着,很多关于 Agent 通用行为方式的设计,未来会越来越标准化、产品化、平台化。
1.2 当前更有价值的方向,是聚焦 Agent 擅长的问题类型
现阶段,编码 Agent 更适合处理项目中的高频、小范围、可闭环任务,例如:
bug 处理 小需求修改 UI 调整 代码逻辑调整 问题排查与定位
这类任务通常目标清晰、上下文相对可控,同时又高度依赖项目知识,因此更适合作为 Agent 价值落地的重点场景。
1.3 真正值得建设的,是项目侧的增强能力
Agent 本身可以越来越强,但它天然缺少对具体项目的深度理解。
因此,后续真正值得建设的,不是反复定义一个通用 Agent 应该如何工作,而是围绕项目实际,为 Agent 补齐三类关键能力:
- 认知能力
:让它理解项目中的业务概念、代码结构和历史经验 - 处理能力
:让它知道在这个项目里,不同问题应该如何分析和处理 - 落地能力
:让它能把分析结果真正落到具体仓库、目录、模块和验证路径上
一句话概括就是:
Agent 的通用框架会越来越成熟,而项目侧真正有价值的工作,是围绕高频场景补齐它的项目认知、问题处理和实施落地能力。
2. 我是怎么得到这个结论的
这个结论,主要来自两部分观察。
2.1 对不同 IDE 中 Agent 设计思路的横向观察
今天尝试让不同 IDE 中的 Agent 输出各自的设计思路和提示词,汇总后发现,虽然实现方式和表达形式不同,但核心框架已经比较接近,整体上可以归纳为四层:
目标定义层
用于规定 Agent 的总体目标和基本行为原则,例如:
不要凭空猜测,先收集上下文 不只是回答问题,而是尽量推动任务完成 不只是修改代码,还要关注结果验证 不做大而散的改动,优先形成最小闭环 不过早结束,尽量推动问题真正解决
这一层本质上是在定义 Agent 的价值取向。
执行策略层
用于规定 Agent 接到任务后的基本执行顺序,例如:
理解需求 拆分问题 定位相关代码 阅读上下文 分析影响范围 实施修改 执行验证 汇报结果
这一层本质上是在定义 Agent 的流程骨架。
工具约束层
用于规定 Agent 在使用搜索、阅读、修改、验证等能力时应遵守的纪律,例如:
不知道位置时先搜索 修改前先阅读上下文 修改后要检查错误 可以验证时必须验证 多文件改动时避免混乱并行 不杜撰不存在的代码结构
这一层本质上是在定义 Agent 的操作纪律。
输出约束层
用于规定 Agent 面向用户时应如何表达,例如:
先说明计划 通过 checklist 提高过程可见性 给出结论,也说明依据 说明改了什么、没改什么、如何验证 避免暴露内部推理细节
这一层本质上是在定义 Agent 的交互规范。
综合来看,这四层已经基本构成了 Agent 的通用能力框架。
这也说明,Agent 本体通用设计这件事,本身已经开始进入收敛阶段。
2.2 对 Agent 实际适用场景的判断
除了看设计框架,我更关心的是:Agent 在真实研发活动里,到底在哪些场景最容易产生稳定价值。
从现阶段能力边界来看,Agent 并不适合直接覆盖所有研发工作,而更适合聚焦在高频、小范围、可闭环的问题上。因为这类任务通常具有几个特点:
目标相对明确 上下文范围相对可控 对定位速度和修改准确性要求较高 对项目知识、历史经验和代码结构理解依赖较强 更容易形成“分析—修改—验证”的最小闭环
这类场景既能发挥 Agent 的理解、搜索、阅读、修改和总结能力,又能通过额外补充项目知识显著提升效果。
2.3 对“通用能力”和“项目能力”边界的判断
进一步思考后,我认为:
通用能力会随着模型和平台持续增强 项目能力却天然不会被通用模型自动补齐
通用 Agent 即使有较强的搜索、阅读、总结和修改能力,也依然很难天然掌握以下内容:
业务概念和代码结构之间的真实映射 项目内部约定俗成的问题处理方式 哪些入口是真正生效的入口 哪些改动风险高、哪些地方容易遗漏 怎样验证才算真正完成闭环
而这些恰恰决定了 Agent 在真实项目里是否“好用”、是否“靠谱”、是否“能落地”。
所以,最终我得到的判断是:
与其继续重复设计 Agent 的通用工作方式,不如围绕具体项目补齐它最难自动获得的上下文能力。
3. 后续准备怎么做
基于上述判断,后续的建设方向会聚焦在 “高频场景 + 项目增强” 上,而不是继续做抽象层面的 Agent 本体设计。
具体来说,会从三个层面推进。
3.1 第一层:补齐项目认知能力
目标是让 Agent 不只是“会写代码”,而是“看得懂这个项目”。
重点会沉淀:
业务术语与代码对象之间的映射 核心业务流程与系统入口之间的关系 模块职责划分与代码结构认知 历史问题案例与经验总结 高风险改动点与隐性约束 常见验证和回归建议
这一层解决的是 Agent “不懂项目”的问题。
3.2 第二层:补齐问题处理能力
目标是让 Agent 不只是会走通用流程,而是知道“在这个项目里,这类问题通常应该怎么处理”。
重点会沉淀:
问题分类方式 不同问题类型的分析 SOP 入口定位顺序 上下文阅读重点 信息不足时的追问规则 影响面分析规则 修改后的验证要求
这一层解决的是 Agent “知道流程,但不会高效处理具体问题”的问题。
3.3 第三层:补齐实施落地能力
目标是让 Agent 不只是能提出建议,而是能把分析和处理真正落到具体项目资产上。
重点会沉淀:
代码仓库与业务模块的对应关系 核心目录与关键入口位置 关键页面、接口、服务、配置、测试的所在位置 常见改动链路和生效路径 与实施和验证相关的实际落点
这一层解决的是 Agent “知道方向,但落不下去”的问题。
3.4 场景上优先聚焦高频小任务
在实际推进中,优先聚焦以下场景:
bug 处理 小需求修改 UI 调整 代码逻辑调整 问题排查与定位
原因是这些场景:
高频出现 价值明确 更容易沉淀模板 更容易验证效果 更适合形成最小闭环
夜雨聆风