上周在整理AI代码生成工具的资料时,偶然发现了一个让人眼前一亮的GitHub开源项目。它不是什么新的编程语言,也不是什么颠覆性的大模型,而是一套专门为AI编码智能体设计的生产级工程技能库。
这个项目叫做agent-skills,发布者是曾在Google Chrome团队工作多年的addyosmani。项目上线后迅速积累,截至目前已经获得了29.2k颗星标,3.5k个Fork,热度可见一斑。
我们先聊聊这个项目为什么值得关注。如果你用过Claude Code或者Cursor这类AI编程助手,应该对这样一个问题深有体会:这些AI编码代理有时候确实很聪明,写代码速度快得让人惊叹,但它们常常会选择最短路径。什么意思呢?就是能跑就行,什么需求文档、测试用例、安全审查,统统往后放。它们缺少一种工程化的思维,缺少那种资深工程师心中固有的工作流程和质量门槛。
agent-skills这个项目解决的就是这个问题。它把资深工程师在构建软件时遵循的工作流、质量门禁和最佳实践,全部打包成了结构化的技能模块。这些技能模块不是宽泛的建议,而是具体到每一步的操作流程。AI智能体在执行任务时,可以遵循这些技能,按照指定的步骤来工作,而不只是凭直觉或者模型的本能反应。
项目的设计思路非常清晰。它把软件开发的完整生命周期分成了六个阶段:定义、计划、构建、验证、审查、发布。每个阶段对应一个斜杠命令。比如你在定义需求时,用/spec命令;在规划实现方案时,用/plan命令;在编码实现时,用/build命令;测试验证用/test命令;代码审查用/review命令;发布上线用/ship命令。这里面还有一个/code-simplify命令,专门用于简化代码,核心原则是清晰比聪明更重要。
每一个斜杠命令背后,都捆绑了对应的技能模块。这些技能模块可不是随便写写的提示词,它们每个都有严格的骨架结构。我们来看看具体包含什么内容。
在定义阶段,有两个技能:idea-refine和spec-driven-development。
idea-refine用于把模糊的想法转化成具体的方案,它采用结构化发散与聚敛思维的方法,帮助团队在开发前就把问题想透。
spec-driven-development则强调
先写文档再写代码,它要求AI智能体撰写包含目标、命令、代码风格、测试策略等项目规范的PRD文档。这个思路其实和很多技术团队倡导的“先设计后编码”一脉相承。
规划阶段有一个技能叫做
planning-and-task-breakdown。它把需求规格拆解成小的、可验证的任务,每个任务有明确的验收标准和依赖顺序。这样AI智能体在执行时,不会一股脑地生成大量代码,而是一步一步来。
构建阶段是技能最密集的部分,包含了七个技能。
incremental-implementation强调增量实施,每次只做一个薄薄的垂直切片,做好测试,验证通过,再提交。test-driven-development强调红绿重构的TDD流程,并且要求遵循测试金字塔原则,80%的单元测试,15%的集成测试,5%的端到端测试。source-driven-development要求每个框架决策都要基于官方文档,验证来源,注明引用,标出未经核实的内容。frontend-ui-engineering涵盖了组件架构、设计系统、状态管理、响应式设计以及WCAG 2.1 AA级别的无障碍规范。api-and-interface-design强调契约优先设计,应用海鲁姆定律,确保接口边界验证到位。- 还有一个
context-engineering技能,专门指导AI智能体如何在对话中合理注入上下文,包括规则文件、上下文打包、MCP集成等。
验证阶段
有两个技能,
browser-testing-with-devtools利用Chrome开发者工具MCP协议,实时获取DOM结构、控制台日志、网络请求等运行时数据。
debugging-and-error-recovery则是一个五步问题排查流程:复现、定位、简化、修复、防御。
审查阶段有四个技能。
code-review-and-quality是五维代码审查,对变更大小、严重等级标签、审查速度都有明确规范。code-simplification要求应用切斯特顿栅栏原则和500行规则,在保持行为不变的前提下简化代码。security-and-hardening覆盖OWASP Top 10防护、身份认证模式、密钥管理、依赖审计等。performance-optimization强调先测量后优化,以核心网页指标为目标进行性能剖析。
集中了五个技能。
git-workflow-and-versioning推行主干开发、原子提交和小型变更。ci-cd-and-automation左移测试,快速反馈。deprecation-and-migration把代码视为负债,有强制性和建议性两种弃用策略。documentation-and-adrs记录架构决策,突出记录为什么做这个决策。shipping-and-launch有完整的发布前检查清单和功能开关生命周期。
这个项目还预置了三个专精角色。code-reviewer模拟高级工程师,以“Staff Engineer是否会批准”为标准做五维审查。test-engineer从测试策略和覆盖率角度分析问题。security-auditor专门做漏洞检测和威胁建模。每个角色都带着自己的视角和判断标准。
项目里面还带了四个参考清单,分别是testing-patterns.md、security-checklist.md、performance-checklist.md和accessibility-checklist.md。这些清单在AI智能体需要的时候会自动引入,补充详细的检查项和示例。
这个项目最让我觉得踏实的一点,是它对“反合理化”的处理。每一个技能模块里都有一张表格,列出了AI智能体在跳过某些步骤时常用的借口,并且给出了对应的反驳论据。比如“我会后面再加测试”、“这个改动太小不需要评审”、“先这样后期再优化”,这些借口在表格里都有明确的回击。这个设计非常巧妙,等于在系统层面堵住了AI智能体偷懒的路径。
另外,项目的设计者很懂实际工程中的痛点。比如代码审查技能里明确提到了变更大小控制在一百行左右,超过这个规模要拆分。测试技能里有一条Beyonce规则,意思是如果你不够喜欢它,就不要写(主要针对测试案例太少的情况)。CI/CD技能里强调“更快意味着更安全”,鼓励小而快的发布节奏。
整体来看,这个项目虽然挂着技能库的名字,但它实质上是一套成熟的工程实践方法论。它把谷歌工程文化中的很多核心原则,比如海鲁姆定律、Beyonce规则、测试金字塔、切斯特顿栅栏、主干开发、Shift Left这些理念,全部编码成了可供AI智能体直接执行的工作流。它不是抽象的教学案例,而是可以直接嵌入到Claude Code、Cursor、Gemini CLI这些工具里的具体配置。
如果你是AI编程工具的重度使用者,或者你团队正在尝试用AI智能体辅助开发,这个项目值得好好研究。它提供的不是一个模棱两可的建议,而是一套经过验证的、可以直接落地的工程规范。AI智能体执行代码的前提,是我们给它规规矩矩的工程思维。这个项目做到了。
感兴趣的读者可以访问项目Github网址,了解更多细节:
https://github.com/addyosmani/agent-skills
夜雨聆风