上周有个朋友跟我说,他让 Claude Code 修一个 bug 。
正常操作。打开终端,描述问题,等结果。
结果 Claude Code 把那个 bug 改掉之后,没有停——它扫了一遍整个 codebase ,又发现了三处潜在问题,自己写了单元测试,然后问他:"要不要帮你提一个 PR ?"
他当时盯着屏幕看了大概五秒钟。
"这不是代码补全,"他说,"这像是来了个实习生。"
他说对了一半。
你以为的 Agent ,跟真正的 Agent 不是一回事
大多数人看到"AI Agent"这个词,脑子里浮现的是: GitHub Copilot ,但更厉害一点。
坦白说,这个认知让我有点担心。不是差了一点,是差了一个层级——用这个认知框架去评估 Agent ,最后做的决策基本上都会偏。
Copilot 的底层逻辑是 human-in-the-loop——人在回路里。你写代码,它给建议;你决定要不要用;它从来不会在你没按确认的情况下多做一步。主动权在你手上, AI 是副驾驶,你手没离开方向盘。
Agent 的底层逻辑是 AI-in-the-loop——AI 在回路里。你给目标,它分解任务、调用工具、执行步骤、处理异常,碰到需要你决策的时候才停下来问你。你更像是一个 PM :提需求、验收、打回修改。
这不是同一种东西的升级版。这是反馈环的方向变了。
一个做了十五年汽车的工程师跟我说过一句话,我觉得挺准的: L2 辅助驾驶和 L3 自动驾驶之间不是技术差距,是责任归属的分界线。 L2 ,你出了事是你的问题; L3 ,你不碰方向盘,事故责任要重新定义。
AI 编程工具也在过这条线。
2026 年的 Agent 已经在生产环境工作了
不是演示,不是 Demo ,不是"未来可能"。
Gartner 在今年年初发的报告里有个数字,我觉得值得认真对待: 2026 年底 40% 的企业级应用将集成 AI Agent 。不到 12 个月前,这个数字还不足 5%。
三十五个百分点,一年。
跟这个数字同样值得看的,是 Deloitte 的预测: AI 将推动整个软件开发生命周期 30% 到 35% 的生产力提升, 80% 的组织预计在 2030 年前把大型软件工程团队转型为"更精简的 AI 增强型团队"。
"更精简"三个字,大家自行体会。说实话,这种表述方式我不太喜欢——"精简"是个很温柔的词,实际上该说的是:那些做重复性编码工作的岗位,正在快速缩水。
工具层面, 2026 年的开发者选择比两年前丰富太多了:
这几个东西放在一起,你会发现一件事:它们都不是"更厉害的代码补全",它们都有一个共同特征——可以在没有人盯着的情况下完成一个完整任务。
这个特征,以前是不存在的。
但这里有一个没人在说的问题
大家讨论 Agent 的时候,通常在聊:它能干什么、它能替代谁、它的准确率是多少。
这些都是对的问题,但不是最重要的问题。
最重要的问题是:Agent 正在重构的,不只是"代码怎么写",而是"软件是谁开发的"这件事本身。
举个具体例子。以前一个 10 人的开发团队,有 4 个人在写业务逻辑, 2 个人搞测试, 1 个人做 DevOps ,剩下的混着做架构和 review 。这个比例是由"人类写代码的速度"和"人类写代码的出错率"决定的。
Agent 进来之后,业务逻辑的编写速度急剧加快,出错率取决于 Prompt 的质量而不只是工程师的水平。这个比例要重新算。
跟踪这个话题这几个月,我看到一个让我有点不安的规律:最先感受到人员结构压力的,不是初级工程师,而是中级工程师。因为 Agent 最擅长的,恰好是那种"有点难但有迹可循"的任务——这正是中级工程师每天做的那 80%的活儿。
初级工程师的优势是便宜、成长快;高级工程师的优势是判断力和对业务的深度理解。这两端, Agent 短期内碰不了。
中间那一段,麻烦了。
我说这话不是为了制造焦虑——这种"AI 要来了大家要完了"的论调我也很烦,糊弄人。但回避这个问题同样不负责任。
那你现在该干什么
我见过两种反应,两种都挺令人头疼的。
一种是"哇好厉害,我要学 Agent"——然后装了几个工具,跑了几个 Demo ,发了条朋友圈,觉得自己已经跟上了。没用。走马观花式地体验一遍根本没法建立对 Agent 局限性的判断,碰到真实任务还是不知道该不该用、该怎么用。
另一种是"AI 又不懂我的业务"——然后继续过日子,把这件事当成另一波过去就好的热潮。这个判断我觉得有风险,因为 Gartner 的数据和我自己观察到的情况都不支持它。你的同行已经在用了,而且不只是在玩,是在提交代码。
学会"用 Agent"不难,难的是学会跟 Agent 协作。这是两件事。
前者是「打开 CLI 、输入指令、看输出」,上手半天就会。后者需要几个真正有用的能力:
第一,写高质量的任务描述。 Agent 执行的质量,跟你描述任务的质量高度相关。"帮我优化这个函数"和"这个函数在高并发下会有数据竞争问题,主要集中在第 23-45 行的共享状态读写,帮我用加锁或 immutable 的方式解决,目标是不改接口签名"——得到的结果完全不同。这个能力很多工程师不擅长,因为以前不需要。
第二,合理切分任务边界。 Agent 给大了容易跑偏,给小了失去价值。我自己摸索出来的经验法则:一个任务在 30 分钟以内、有明确验收标准、失败了可以回滚——这个粒度最合适。给它"重构整个用户模块"这种任务,多半结果让人崩溃。
第三,认真 review 它的输出。 这里有个坑很多人踩:以为能跑就是对的。不是。 Agent 不会告诉你它做了什么假设、跳过了什么边界检查。有时候它交给你的代码,测试全过,但逻辑有静默 bug ,过两个月才爆。 review 的重点不是能不能跑,是做没做对。
说白了,你需要从"写代码的人"变成"管代码的人"。这个转变,有些人觉得是解放,有些人觉得别扭。
别扭很正常。这本来就是一件反直觉的事。
入手路径
如果你还没开始,几个比较务实的建议:
Claude Code 直接在终端里用,免安装,对复杂任务的理解能力目前比较扎实,适合处理多文件联动的重构或 debug 。入门门槛:低。
Cursor( Agent mode )如果你更习惯 IDE 环境, Cursor 的体验相对丝滑,对 Python/TypeScript 支持比较好。适合日常开发场景。
Devin 更适合独立任务的端到端执行——你描述一个需求,它自己从头跑到尾。价格不便宜,适合有明确 ROI 的场景,不适合当"高级代码补全"用。
先选一个场景,比如你下周有个需要改三个文件的 bug ,试着交给 Agent 去修,看看结果。不用一上来就想"我要重构整个工作流"。
这件事的学习曲线比你想象的平,但反馈也比你想象的快。
一个我还没答案的问题
Gartner 的那份报告里,有一个我觉得比较诚实的预测: 2028 年, 33% 的企业软件应用会集成 AI Agent , 15% 的日常工作决策将由 Agent 自主完成。
自主完成。
不是"辅助完成",不是"建议然后人决定"。是它自己做决定。
这个数字如果是准的,那意味着现在距离"Agent 参与核心决策链"大概还有两年时间。
两年不长。够用吗?
我不知道。我的判断是,这取决于你接下来两年在这件事上投入多少注意力——不是工具,是理解。理解 Agent 的边界在哪里,理解它出错的模式,理解在什么情况下你还是那个不可替代的部分。
这个问题现在没有标准答案。
但不思考它,代价可能比想象的大。
夜雨聆风