AI 代理开发的真正拐点:从堆工具到建标准
大多数团队还在为 AI Agent 配置越来越强的工具,但真正拉开差距的,是能不能把工程师脑子里的经验变成可复用的技能体系。
GitHub Trending 上 addyosmani/agent-skills 项目今日新增约 3009 星标。
这个仓库的全称是「Production-grade engineering skills for AI coding agents」,三个词值得注意:production、grade、engineering。
Production 意味着这些技能不是实验室玩具,而是能在真实生产环境里扛住压力的工程实践;grade 代表它们有明确的质量分级标准,不是「能用就行」的模糊判断;engineering 则点明了核心——这是工程经验的结构化沉淀,不是简单的工具调用清单。
给 Agent 多接几个工具,远不如把判断标准建起来。
工具够强,判断自然就有了?
给 AI Agent 配上最强大的工具链,然后假设有了 linter、type checker、test runner,它就能自动做出正确的工程决策——这是最常见的做法。
「堆工具」模式的核心假设是工具能力会自动带来工程判断,但真实情况往往是 AI 可能会用完美的工具跑出错误的结论:它能调用这些工具,但不知道什么时候该跑哪个、该相信谁的报告、该怎么权衡冲突的建议。
工程师的日常决策里藏着大量隐性经验:看到 PR 里改了某个核心模块,第一反应不是看代码 diff,而是先翻翻测试覆盖率;遇到性能问题,不会上来就 profiling,而是先查查最近的部署记录。
这些判断没法写成简单的 if-else 规则,但它们恰恰决定了一个工程师是不是真的「做得好」。
传统的 AI Agent 方案试图通过更强大的推理能力来补这块短板,但推理能力再强,如果缺少结构化的工程知识作为输入,输出质量也上不去。
让一个聪明绝顶但没有实际工程经验的人去 review 代码,他可能看出语法问题,但看不到架构隐患。
判断标准显性化,工具只是执行层
agent-skills 项目做的事情,是把工程经验从「师傅带徒弟」的隐性传递模式,变成了可标准化、可复用、可验证的显性模块。
「建标准」和「堆工具」的根本差别在于:前者把判断标准显性化,工具降级为执行层;后者假设工具能力会自动带来工程判断。
每个技能文件不只描述「做什么」,更重要的是定义「怎么判断做得好」:代码审查技能会明确说要检查 SQL 安全性、LLM 信任边界、向后兼容性;性能优化技能会要求先 profiling 再优化、每次只改一个变量。
这些判断标准本身才是核心资产。
它们来自真实世界的工程实践,凝聚了大量踩坑经验,现在变成了 AI 可以直接调用的「工程常识」。
这套思路也把技能和工具解耦了。
一个技能可以依赖多个工具,一个工具也能服务于多个技能,这种模块化设计让技能库可以渐进式生长:不用一开始就追求大而全,从最痛的那几个点开始建,慢慢沉淀成团队自己的工程资产。
这套方法已经在大型项目里得到验证。
除了 addyosmani/agent-skills,anthropics/claude-code 也内置了类似的技能体系,用于触发特定的工程流程,比如代码审查、安全检查、性能分析。
什么时候不该上这套体系
这套方法有明确的适用前提,而且代价不低。
第一个前提是你的工程实践已经足够成熟,可以被提炼成可复用的模式。
如果团队还在为基本的质量标准打架——比如有人认为测试覆盖率 60% 就够了,有人坚持必须 90%——过早标准化反而会把错误的实践固化下来。
你们最好已经有了稳定的 code review 流程、明确的测试覆盖率要求、可操作的性能指标,这些才能被写成有效的技能描述。
第二个前提是你有持续维护技能库的资源和意愿。
技能库不是写完就扔的静态资产,工程实践在演进,技能描述也得跟着更新,否则就会变成「看起来很专业但已经过时」的形式主义。
维护成本比想象中高:每次工程实践调整,你都得同步更新技能文件,还得验证更新后的技能在各个 Agent 上的表现是否一致。
真正的代价不是写技能文件的那点时间,而是后续持续的同步成本——当你们的 code review 标准变了、测试策略调整了、性能指标更新了,技能库也得跟着改,否则就会变成束缚而非助力。
如果项目还处在早期探索阶段,或者团队对工程实践本身还在摸索中,那就不该急着上这套体系。
过早的标准化会限制探索空间,维护一个形式上完善但实质上僵化的技能库,成本可能比收益还高。
同样,如果 AI Agent 用途非常单一,比如就做特定格式的数据转换,花大精力建通用技能体系也是过度设计。
agent-skills 这样的项目提供的是方向和参考,不是必须照搬的标准答案。
值得借鉴的,是它把工程标准从隐性变成显性、从依赖个人变成可复用模块的思路,具体怎么实现、做到什么程度,得看你的实际需求和资源。
AI 代理开发的真正拐点,不是工具越来越强,而是开始用工程标准系统化地定义什么叫「做得好」。
这个转变才刚开始,但方向已经清晰了。
夜雨聆风