乐于分享
好东西不私藏

AI 编程光会写代码还不够?聊聊 6 种主流 Harness 框架到底怎么选

AI 编程光会写代码还不够?聊聊 6 种主流 Harness 框架到底怎么选

Vibe Coding 玩得爽,但真上项目就翻车?也许你缺的不是更强的模型,而是一套「脚手架」。


一、AI 编程为什么需要「脚手架」?

想象一下:你请了一个能力超强的实习生,写代码飞快,做一个小工具又快又好。但当你把他丢进一个几万行代码的大项目,说”帮我重构一下用户系统”——他大概率会搞出一堆看起来能跑、但细看全是坑的东西。

这就是现在 AI 编程的真实状态。

AI编程现状

过去一两年,AI 写代码的能力突飞猛进。但越来越多人发现一个扎心的事实:能写 ≠ 能稳定交付。

你让它改个页面、补个函数,当然又快又爽。但一旦任务变复杂——需求不明确、代码量大、需要多人协作、质量要把关——问题就来了:

  • 🔸 需求全靠聊天传达,换个会话可能就理解成另一个东西
  • 🔸 聊久了就「失忆」,约束忘了、规则丢了、越写越偏
  • 🔸 跨会话像断片,昨天讲的架构原则今天得从头再来
  • 🔸 多个 AI 同时干活,不但不协作,反而互相捣乱
  • 🔸 看起来写对了,实际上删了功能、绕了校验、埋了隐患

所以社区里慢慢出现了一类东西,叫 Harness——你可以把它理解成给 AI 搭的「工程化脚手架」。它不是让 AI 更会聊天,而是让 AI 在真实项目里更可控、更可验证、更能规模化地干活。


二、6 种主流框架,各管什么?

市面上已经冒出了不少 Harness 框架。今天聊 6 个比较有代表性的:OpenSpec、Superpowers、GSD、OMC、ECC、Trellis

先打个底:这 6 个不是同一种东西。 它们各自在不同的层面上解决不同的问题。

框架全景

用一张表快速建立直觉:

框架
它在补哪一层
一句话说清
适合谁
OpenSpec
规范层
动手之前先把需求写清楚
需求经常跑偏的团队
Superpowers
技能层
让 AI 默认遵守工程纪律
在意代码质量的开发者
GSD
上下文层
拆碎任务,防止聊久了崩掉
搞大型重构的场景
OMC
编排层
让多个 AI 像团队一样配合
Claude Code 深度用户
ECC
增强层
给整套流程补记忆、安全和验证
想长期工程化 AI 工作流的人
Trellis
结构层
统一规格/任务/工作区的骨架
多工具协作的团队项目

下面逐个拆。


三、逐个拆解

🔍 OpenSpec:先把要做的事讲清楚

OpenSpec

OpenSpec 的核心理念就四个字:先对齐,再开工。

它推崇一种叫 SDD(规格驱动开发)的方式——在开始写代码之前,先把需求拆成 proposal → specs → design → tasks 这样一组结构化文件。

这解决的是最基础但最容易被忽视的问题:需求只存在脑子里或聊天记录里,AI 只能靠猜。而 OpenSpec 把模糊意图变成了可审核、可复用、可迭代的资产。

它不管你怎么写代码、怎么编排 Agent——它只管一件事:确保你在干正确的事。

⚡ Superpowers:让 AI 像工程师一样干活

Superpowers

如果 OpenSpec 解决的是”做什么”,Superpowers 解决的就是”怎么做”。

它的思路是把优秀工程师的工作习惯(TDD、代码审查、分支隔离、系统化调试)变成 AI 的默认技能

你不用每次都在 prompt 里叮嘱”先写测试再写代码”——有了 Superpowers,这些就是 Agent 的标准动作。

适合什么场景? 你发现 AI 写代码太随意、不做测试、不走审查、调试全凭运气——这些问题它都能管。

💪 GSD(Get Shit Done):专治「聊着聊着就歪了」

GSD

GSD 有一种很强的实战气质。它的核心卖点三个字:防失忆。

任何用过 AI 做复杂任务的人都知道,聊天记录一长,AI 就开始遗忘约束、重复犯错、自相矛盾。GSD 称这个问题为 context rot(上下文腐烂)。

它的解决方案是把复杂任务拆成阶段:讨论 → 计划 → 执行 → 验证,每个阶段用干净的上下文重新开始。

不是让 AI 更聪明,而是让它在变笨之前就换一波新鲜空气。

🤖 OMC(Oh My ClaudeCode):单兵变团战

OMC

前面三个更偏”一个 AI 怎么干活”,OMC 开始解决”多个 AI 怎么配合”。

它围绕 Claude Code 构建了一套团队式编排:team-plan → team-prd → team-exec → team-verify → team-fix。支持 tmux workers、多模型协作、并行执行。

核心价值: 你不再是跟一个助手聊天,而是指挥一支 AI 开发小队。

不过边界也很清楚——它深度绑定 Claude Code 生态,如果你主要用其他工具,这套可能不太合适。

🧠 ECC(Everything Claude Code):给整套流程装上「大脑」

ECC

ECC 容易被误解成一个配置包,但它想做的其实更大——给 AI 的整个工作流补上记忆、技能、安全和持续学习的能力。

比如:每次新会话不再从零开始,因为有 memory 系统;代码不只是能跑就行,因为有安全扫描和验证闭环;踩过的坑不会再踩,因为有 instincts(直觉集合)在学习。

代价是什么? 东西多,信息密度高,学习曲线陡。适合已经跑通基础流程、想进一步系统化的团队。

🏗️ Trellis:给整个项目搭一副骨架

Trellis

Trellis 和前面几个都不太一样。它不是给某个 Agent 增强能力,而是给整个项目搭一套统一的结构。

核心目录只有三个:.trellis/spec/.trellis/tasks/.trellis/workspace/。但这三层就把规格、任务、工作区记忆全串起来了。

它解决的核心问题是:团队用了好几个 AI 工具,每个工具一套规矩,项目记忆到处散落,换个人接手就像考古。Trellis 让所有东西有了统一的「归档地址」。

它不追求单次使用的爽感,更像是长期沉淀的基础设施。


四、怎么选?一张决策树

决策思路

别想着”6 选 1″。实际上你需要的是弄清楚自己最缺哪一层

第一步:找最痛的点

  • 需求总跑偏 → 从 OpenSpec 开始
  • 代码质量太随意 → 上 Superpowers
  • 长任务容易崩 → 用 GSD
  • 需要多 Agent 并行 → 考虑 OMC
  • 想做系统化增强 → 学习 ECC
  • 多工具协作混乱 → 搭 Trellis

第二步:轻量组合(如果需要)

落地路径

跑稳一层之后,可以考虑补第二层:

  • OpenSpec + Superpowers:先保证做对的事,再保证做事的方式对
  • OpenSpec + GSD:规格固定 + 上下文保鲜,双重保险
  • OMC + Superpowers:多 Agent 编排 + 工程纪律

⚠️ 千万别一上来就叠三四层。 框架一多,规范重复、资产重叠、状态分散——系统本身可能比业务还复杂。


五、实战踩坑:老手们的教训

实战经验

聊几条社区里反复验证过的经验:

📊 多 Agent ≠ 自动高效。 很多人以为 Agent 越多越好,结果发现:设计文档越来越厚、协调成本越来越高、真正落到代码上的产出反而没涨。核心问题是控制面膨胀——Agent 们忙着开会,没人干活。

🧹 长期能力比单次表现重要。 短会话里比的是”谁写得快写得像”,长任务里比的是”谁更不容易失忆”。能不能压缩历史、能不能生成交接文档、新会话接手时能不能快速恢复——这些才是真功夫。

🎯 把大愿望拆成小任务。 一次性把一大堆耦合需求扔给 AI,它不会线性变强,只会在复杂度里迷路。写清 spec → 拆成 task → 按阶段推进 → 每段留验证 才是稳的。

🧠 让贵的大脑做决策,让便宜的手做执行。 高阶模型负责架构判断和方向决策,执行型工具负责批量修改和重复工作。别让最聪明的模型泡在日志堆里磨时间。


六、说句实在的

最后的话

Harness 不是银弹,也不该被当成公司强推的”又一个新规范”。它更像是 AI 编程从玩具走向生产工具的过程中,自然长出来的工程需求。

就像早年 JVM 调优——服务器只有 128M 内存的时候你不得不调;现在动辄 16G 了,很多时候不用手动管了。今天 Harness 里的不少做法,未来模型上下文窗口够大之后,可能也会被简化。

现阶段,它就是让 AI 从”能写”到”能交付”的必要过程。

如果让我总结成一句话:

Harness 是一种思想,不是一套模板。核心是在使用中发现缺口,再把缺口补起来。

这个思路,就算未来模型再强,也不会过时。