AI人工智能课程第1期:从 Harness 到 Fulfillment-夜雨聆风

AI人工智能课程第1期:从 Harness 到 Fulfillment

先说几句真心话。

这两年 AI 变化太快了，快到很多人一上来就被模型榜单、热词、演示视频带偏。

今天一个新框架火了，明天一个新 Agent 爆了，后天又有人在讲新的 protocol、memory、browser use、multi-agent。

如果你每天都在追这些表层信息，很容易产生一种错觉：

好像什么都在变，所以不知道该从哪里学，也不知道什么才是真正有价值的东西。

但我自己的体感越来越明确：

真正有价值的，不是再背几个模型名，也不是再看几个炫技 demo。

真正有价值的东西，其实集中在四层：

你能不能理解今天最前沿的 Agent / Harness 在解决什么问题
你能不能把测试、部署、验收、回滚这些工程链路真正打通
你能不能把一个需求从“看起来做了”推进到“现实里真的做成了”
你能不能在系统失控时接得住、补得回、重建得起来

所以如果你问我：
面对日新月异的人工智能技术，我们到底应该从何学起？

我的答案不是“先学最火的模型”，而是：

先学真正进入实战后，什么东西会决定成败。

那什么才是今天实战最需要的能力？

不是单点 prompt 技巧，也不是只会调用几个 API。

而是这些硬能力：

看懂复杂系统
抽象出稳定 workflow
给 Agent 建立 legibility、memory、skills、feedback loop
把验证链、部署链、验收链打通
在生产里保留人工接管面和重建能力

如果再往前问一句：
今天最前沿的探索是什么？

我认为，一条线是 Peter Pang / CREAO 代表的 Harness 方法；另一条线，是我这段时间越来越确信必须补上的 Fulfillment。

如果你还没看过 Peter Pang 那篇《Why Your “AI-First” Strategy Is Probably Wrong》，我先用最短的话讲清楚他的核心观点。

他真正想说的，不是“99% 的生产代码由 AI 写”这个传播点，而是：AI-first 绝不等于给旧流程外挂一个 Copilot。 真正的 AI-first，是把产品规划、代码实现、测试验证、发布回滚、错误分诊、团队分工，全部围绕“AI 是主要建设者”重新设计。CREAO 能做到一天多次上线、快速 A/B、坏功能当天砍掉，靠的不是灵感 prompt，而是 monorepo、严格 CI/CD、AI review、feature flag、CloudWatch / Sentry / Linear 组成的 Harness 闭环。

前者在回答：Agent 怎么才能稳定工作。
后者在回答：需求怎么才能稳定进入现实完成态。

最近很多人都在讲 Agent、讲 Harness、讲 Hermes。

但我越来越确定，行业真正要补的那一层，不是“Agent 会不会干活”，而是：

一个需求，最后到底能不能稳定地做进生产。

这不是文字游戏。

这是我看完 Peter Pang / CREAO 的高热度 Harness 案例，又回头看自己这段时间的工程实践之后，越来越确定的一件事。

Peter 那套东西，我认可，而且我觉得很强。

但我也越来越明确：

Harness 管治理与能力供给，Fulfillment 管完成与现实交付。

再说得更直一点：

他解决的是 Agent 的工作能力问题。我们正在解决需求的现实完成问题。

而这件事，恰恰是今天中国工程师最该往前推的一步。

一、为什么现在必须重新看 Harness

过去一年，AI 工程圈最热的词，一路从 Prompt、Context、Workflow，慢慢走到了 Harness。

这说明行业开始成熟了。

因为大家终于意识到，问题不只是“模型够不够聪明”，而是：

Agent 看不看得懂系统
Agent 能不能跨模块改动
Agent 有没有长期记忆
Agent 会不会把经验沉淀成技能
Agent 出错以后，能不能自动回归、自动 reopen、自动继续迭代

也就是说，行业终于开始认真讨论：怎么给 Agent 上马具。

这就是 Harness 的价值。

如果没有 Harness，很多所谓 AI Coding，只是把大模型挂在一套并不适合它工作的旧流程表面。模型再强，也是在烂系统上硬干。

所以我先把判断讲清楚：

Harness 不是噱头。Harness 是 AI 工程进入第二阶段成熟度的标志。

二、Peter Pang / CREAO 到底做对了什么

Peter Pang / CREAO 这类案例，最值钱的地方，不是“AI 写了 99% 的代码”这种传播数字。

最值钱的是，他们先承认了一件很多人不愿意承认的事：

如果代码库、人类流程、测试链、集成链本来就不适合 Agent，模型再强也救不了。

所以他们先做的不是换模型，而是先把系统改造成 Agent 看得见、能验证、能修改、能持续提炼经验的样子。

这套原始 Harness 方法，核心强项很明确：

legibility
memory
skills
feedback loop
self-healing
组织流程 agent 化

换句话说，他们在解决的是：

Agent 能不能稳定工作。

这件事非常重要。

因为很多团队今天还停留在“让 AI 偶尔聪明一次”，而不是“让 Agent 长期稳定地产生杠杆”。

从这个角度看，Peter Pang / CREAO 的确已经把 Harness 做到了很高的成熟度。

三、为什么 Harness 还不够

问题来了。

如果 Harness 已经这么强，为什么我还要单独提出 Fulfillment？

因为真实工程里，真正吃掉 CTO 和核心工程师时间的，往往根本不是写代码本身。

而是这些东西：

测试链有没有真的打通
部署链有没有真的打通
节点是不是都跑在正确运行态
smoke 到底是真通过还是假通过
页面是不是旧缓存假象
出问题以后谁能接手、怎么接手
一套东西换人、换模型、换机器以后还能不能重建

也就是说，Harness 已经把“Agent 怎么干活”做得很强了。

但真实生产还会继续追问：

这件事到底有没有被做成？

这一步，就是 Fulfillment 要补的。

它不是反对 Harness。

它是在 Harness 之上，把问题继续往前推。

从让 Agent 能干，到让需求完成。

从 verified modules，推到 verified production。

四、什么叫 Fulfillment

我说的 Fulfillment，不是“任务完成一下”的那个完成。

它指的是：

把一个需求推进到可验证、可部署、可接管、可重建、最终进入生产现实完成态的全过程。

所以它的重点，不是模型有没有生成出代码。

而是：

这条业务链有没有被真实验证
这套部署链有没有被真实跑通
这个环境角色有没有被说清楚
这个结果能不能被别人接手
半个月后出问题，能不能重新验证、重新恢复、重新证明

我现在项目里的做法，其实已经长出了一条很明确的 Fulfillment 子链。

默认顺序不是“本地能跑就算完”，而是：

local
168 test
jp-gpu-04 preprod
人工闸门
80 production

而且我把几条硬约束钉得很死：

/health 只能算存活，不算完成
默认必须用真实业务 API 验证
默认 insist POST /v1/responses
页面验收必须配合同源 API
环境角色不能漂
不能自动越过人工生产闸门

这背后的逻辑其实很简单：

我不关心你写没写完代码，我关心这件事有没有真的被做成。

五、Peter 的案例，和我的案例，到底差在哪里

如果把 Peter Pang / CREAO 的案例和我自己的工程实践摆在一起，差异会非常清楚。

Peter 那边更强的是：

Agent runtime
memory / skills 沉淀
自动 triage
自动自愈
组织级流程 agent 化

一句话：他是在把 Agent 变成一个高杠杆工程实体。

我这边更执着推进的是：

测试链、部署链、验收链是否真实打通
多环境角色是否清晰
业务 API 是否真实通过
页面是否联合验收
是否保留人工接管面
最终能不能进入 production 完成态

一句话：我是在把“完成”本身拉到理论中心。

所以这不是谁高谁低的问题。

而是推进方向不同。

Peter 解决的是：Agent 能不能稳定工作。

我现在要解决的是：需求能不能稳定地做进生产，并且随时可接管、可重建、可再次验证。

这也是我为什么会说：

Harness 管治理与能力供给，Fulfillment 管完成与现实交付。

六、为什么中国工程师现在反而应该有信心

很多人一到这种时候，就喜欢先自卑。

觉得国外已经有 Peter Pang、CREAO、Hermes-Agent、各种高热案例，中国人是不是只能跟着学。

我完全不这么看。

恰恰相反，我觉得中国工程师在这件事上应该非常有信心。

原因很简单。

过去二十年，中国工程师最擅长的，从来就不是凭空发明一切。

我们最擅长的是：

学得快
模仿得快
工程化落地快
把别人开创的东西，压到更大规模、更重场景、更高强度的现实里去跑

这不是丢人的能力。

这是极其硬核的能力。

今天 AI 时代也是一样。

我们先认真学习 Harness。
我们先认真理解 Peter Pang / CREAO 到底做对了什么。
然后我们不止停在模仿。

我们继续往前推。

把“让 Agent 更能干”，推进到“让需求真的被做成”。
把“验证模块”，推进到“验证生产”。
把“会用工具”，推进到“能构建交付系统”。

这一步，就是超越开始的地方。

所以我这篇文章真正想留下的，不是一句口号。

而是一个判断：

中国工程师不该只满足于学会 Harness。

中国工程师应该在 Harness 之上，做出自己的 Fulfillment。

这不是情绪。

这是路径。

七、最后一句

如果你今天还在把 AI 工程理解成“更快写代码”，那你看到的还只是表层。

真正决定下一轮胜负的，不只是模型名字，也不只是 Agent 会不会调工具。

而是：

谁能把一套需求，稳定地推进到真实生产，稳定地保留接管面，稳定地留下可重建的验证接口。

这才是下一轮真正的工程竞争。

也是我现在越来越确信的一句话：

From verified modules to verified production.

这，才是 Harness 之后真正该往前走的一步。

这，才是 Fulfillment。

如果你现在也在找稳定、靠谱、能直接上手使用的大模型供应商，想同时用 Claude、Gemini、GPT 这几条主线，可以直接看：

https://sub-lb.tap365.org

这不是讲概念的 demo 站，而是可以真正注册、真正使用、真正开始接入和测试的入口。

如果你刚准备开始，或者你正在筛选更稳的供应商，也可以私信我。

我这边给新朋友准备了新人福利，能帮你少走一点弯路。