乐于分享
好东西不私藏

AI人工智能课程第1期:从 Harness 到 Fulfillment

AI人工智能课程第1期:从 Harness 到 Fulfillment

先说几句真心话。

这两年 AI 变化太快了,快到很多人一上来就被模型榜单、热词、演示视频带偏。

今天一个新框架火了,明天一个新 Agent 爆了,后天又有人在讲新的 protocol、memory、browser use、multi-agent。

如果你每天都在追这些表层信息,很容易产生一种错觉:

好像什么都在变,所以不知道该从哪里学,也不知道什么才是真正有价值的东西。

但我自己的体感越来越明确:

真正有价值的,不是再背几个模型名,也不是再看几个炫技 demo。

真正有价值的东西,其实集中在四层:

  • 你能不能理解今天最前沿的 Agent / Harness 在解决什么问题
  • 你能不能把测试、部署、验收、回滚这些工程链路真正打通
  • 你能不能把一个需求从“看起来做了”推进到“现实里真的做成了”
  • 你能不能在系统失控时接得住、补得回、重建得起来

所以如果你问我:
面对日新月异的人工智能技术,我们到底应该从何学起?

我的答案不是“先学最火的模型”,而是:

先学真正进入实战后,什么东西会决定成败。

那什么才是今天实战最需要的能力?

不是单点 prompt 技巧,也不是只会调用几个 API。

而是这些硬能力:

  • 看懂复杂系统
  • 抽象出稳定 workflow
  • 给 Agent 建立 legibility、memory、skills、feedback loop
  • 把验证链、部署链、验收链打通
  • 在生产里保留人工接管面和重建能力

如果再往前问一句:
今天最前沿的探索是什么?

我认为,一条线是 Peter Pang / CREAO 代表的 Harness 方法;另一条线,是我这段时间越来越确信必须补上的 Fulfillment。

如果你还没看过 Peter Pang 那篇《Why Your “AI-First” Strategy Is Probably Wrong》,我先用最短的话讲清楚他的核心观点。

他真正想说的,不是“99% 的生产代码由 AI 写”这个传播点,而是:AI-first 绝不等于给旧流程外挂一个 Copilot。 真正的 AI-first,是把产品规划、代码实现、测试验证、发布回滚、错误分诊、团队分工,全部围绕“AI 是主要建设者”重新设计。CREAO 能做到一天多次上线、快速 A/B、坏功能当天砍掉,靠的不是灵感 prompt,而是 monorepo、严格 CI/CD、AI review、feature flag、CloudWatch / Sentry / Linear 组成的 Harness 闭环。

前者在回答:Agent 怎么才能稳定工作。
后者在回答:需求怎么才能稳定进入现实完成态。

最近很多人都在讲 Agent、讲 Harness、讲 Hermes。

但我越来越确定,行业真正要补的那一层,不是“Agent 会不会干活”,而是:

一个需求,最后到底能不能稳定地做进生产。

这不是文字游戏。

这是我看完 Peter Pang / CREAO 的高热度 Harness 案例,又回头看自己这段时间的工程实践之后,越来越确定的一件事。

Peter 那套东西,我认可,而且我觉得很强。

但我也越来越明确:

Harness 管治理与能力供给,Fulfillment 管完成与现实交付。

再说得更直一点:

他解决的是 Agent 的工作能力问题。我们正在解决需求的现实完成问题。

而这件事,恰恰是今天中国工程师最该往前推的一步。

一、为什么现在必须重新看 Harness

过去一年,AI 工程圈最热的词,一路从 Prompt、Context、Workflow,慢慢走到了 Harness。

这说明行业开始成熟了。

因为大家终于意识到,问题不只是“模型够不够聪明”,而是:

  • Agent 看不看得懂系统
  • Agent 能不能跨模块改动
  • Agent 有没有长期记忆
  • Agent 会不会把经验沉淀成技能
  • Agent 出错以后,能不能自动回归、自动 reopen、自动继续迭代

也就是说,行业终于开始认真讨论:怎么给 Agent 上马具。

这就是 Harness 的价值。

如果没有 Harness,很多所谓 AI Coding,只是把大模型挂在一套并不适合它工作的旧流程表面。模型再强,也是在烂系统上硬干。

所以我先把判断讲清楚:

Harness 不是噱头。Harness 是 AI 工程进入第二阶段成熟度的标志。

二、Peter Pang / CREAO 到底做对了什么

Peter Pang / CREAO 这类案例,最值钱的地方,不是“AI 写了 99% 的代码”这种传播数字。

最值钱的是,他们先承认了一件很多人不愿意承认的事:

如果代码库、人类流程、测试链、集成链本来就不适合 Agent,模型再强也救不了。

所以他们先做的不是换模型,而是先把系统改造成 Agent 看得见、能验证、能修改、能持续提炼经验的样子。

这套原始 Harness 方法,核心强项很明确:

  • legibility
  • memory
  • skills
  • feedback loop
  • self-healing
  • 组织流程 agent 化

换句话说,他们在解决的是:

Agent 能不能稳定工作。

这件事非常重要。

因为很多团队今天还停留在“让 AI 偶尔聪明一次”,而不是“让 Agent 长期稳定地产生杠杆”。

从这个角度看,Peter Pang / CREAO 的确已经把 Harness 做到了很高的成熟度。

三、为什么 Harness 还不够

问题来了。

如果 Harness 已经这么强,为什么我还要单独提出 Fulfillment?

因为真实工程里,真正吃掉 CTO 和核心工程师时间的,往往根本不是写代码本身。

而是这些东西:

  • 测试链有没有真的打通
  • 部署链有没有真的打通
  • 节点是不是都跑在正确运行态
  • smoke 到底是真通过还是假通过
  • 页面是不是旧缓存假象
  • 出问题以后谁能接手、怎么接手
  • 一套东西换人、换模型、换机器以后还能不能重建

也就是说,Harness 已经把“Agent 怎么干活”做得很强了。

但真实生产还会继续追问:

这件事到底有没有被做成?

这一步,就是 Fulfillment 要补的。

它不是反对 Harness。

它是在 Harness 之上,把问题继续往前推。

从让 Agent 能干,到让需求完成。

从 verified modules,推到 verified production。

四、什么叫 Fulfillment

我说的 Fulfillment,不是“任务完成一下”的那个完成。

它指的是:

把一个需求推进到可验证、可部署、可接管、可重建、最终进入生产现实完成态的全过程。

所以它的重点,不是模型有没有生成出代码。

而是:

  • 这条业务链有没有被真实验证
  • 这套部署链有没有被真实跑通
  • 这个环境角色有没有被说清楚
  • 这个结果能不能被别人接手
  • 半个月后出问题,能不能重新验证、重新恢复、重新证明

我现在项目里的做法,其实已经长出了一条很明确的 Fulfillment 子链。

默认顺序不是“本地能跑就算完”,而是:

  • local
  • 168 test
  • jp-gpu-04 preprod
  • 人工闸门
  • 80 production

而且我把几条硬约束钉得很死:

  • /health 只能算存活,不算完成
  • 默认必须用真实业务 API 验证
  • 默认 insist POST /v1/responses
  • 页面验收必须配合同源 API
  • 环境角色不能漂
  • 不能自动越过人工生产闸门

这背后的逻辑其实很简单:

我不关心你写没写完代码,我关心这件事有没有真的被做成。

五、Peter 的案例,和我的案例,到底差在哪里

如果把 Peter Pang / CREAO 的案例和我自己的工程实践摆在一起,差异会非常清楚。

Peter 那边更强的是:

  • Agent runtime
  • memory / skills 沉淀
  • 自动 triage
  • 自动自愈
  • 组织级流程 agent 化

一句话:他是在把 Agent 变成一个高杠杆工程实体。

我这边更执着推进的是:

  • 测试链、部署链、验收链是否真实打通
  • 多环境角色是否清晰
  • 业务 API 是否真实通过
  • 页面是否联合验收
  • 是否保留人工接管面
  • 最终能不能进入 production 完成态

一句话:我是在把“完成”本身拉到理论中心。

所以这不是谁高谁低的问题。

而是推进方向不同。

Peter 解决的是:Agent 能不能稳定工作。

我现在要解决的是:需求能不能稳定地做进生产,并且随时可接管、可重建、可再次验证。

这也是我为什么会说:

Harness 管治理与能力供给,Fulfillment 管完成与现实交付。

六、为什么中国工程师现在反而应该有信心

很多人一到这种时候,就喜欢先自卑。

觉得国外已经有 Peter Pang、CREAO、Hermes-Agent、各种高热案例,中国人是不是只能跟着学。

我完全不这么看。

恰恰相反,我觉得中国工程师在这件事上应该非常有信心。

原因很简单。

过去二十年,中国工程师最擅长的,从来就不是凭空发明一切。

我们最擅长的是:

  • 学得快
  • 模仿得快
  • 工程化落地快
  • 把别人开创的东西,压到更大规模、更重场景、更高强度的现实里去跑

这不是丢人的能力。

这是极其硬核的能力。

今天 AI 时代也是一样。

我们先认真学习 Harness。
我们先认真理解 Peter Pang / CREAO 到底做对了什么。
然后我们不止停在模仿。

我们继续往前推。

把“让 Agent 更能干”,推进到“让需求真的被做成”。
把“验证模块”,推进到“验证生产”。
把“会用工具”,推进到“能构建交付系统”。

这一步,就是超越开始的地方。

所以我这篇文章真正想留下的,不是一句口号。

而是一个判断:

中国工程师不该只满足于学会 Harness。

中国工程师应该在 Harness 之上,做出自己的 Fulfillment。

这不是情绪。

这是路径。

七、最后一句

如果你今天还在把 AI 工程理解成“更快写代码”,那你看到的还只是表层。

真正决定下一轮胜负的,不只是模型名字,也不只是 Agent 会不会调工具。

而是:

谁能把一套需求,稳定地推进到真实生产,稳定地保留接管面,稳定地留下可重建的验证接口。

这才是下一轮真正的工程竞争。

也是我现在越来越确信的一句话:

From verified modules to verified production.

这,才是 Harness 之后真正该往前走的一步。

这,才是 Fulfillment。


如果你现在也在找稳定、靠谱、能直接上手使用的大模型供应商,想同时用 Claude、Gemini、GPT 这几条主线,可以直接看:

https://sub-lb.tap365.org

这不是讲概念的 demo 站,而是可以真正注册、真正使用、真正开始接入和测试的入口。

如果你刚准备开始,或者你正在筛选更稳的供应商,也可以私信我。

我这边给新朋友准备了新人福利,能帮你少走一点弯路。