AI人工智能课程第1期:从 Harness 到 Fulfillment


先说几句真心话。
这两年 AI 变化太快了,快到很多人一上来就被模型榜单、热词、演示视频带偏。
今天一个新框架火了,明天一个新 Agent 爆了,后天又有人在讲新的 protocol、memory、browser use、multi-agent。
如果你每天都在追这些表层信息,很容易产生一种错觉:
好像什么都在变,所以不知道该从哪里学,也不知道什么才是真正有价值的东西。
但我自己的体感越来越明确:
真正有价值的,不是再背几个模型名,也不是再看几个炫技 demo。
真正有价值的东西,其实集中在四层:
- 你能不能理解今天最前沿的 Agent / Harness 在解决什么问题
- 你能不能把测试、部署、验收、回滚这些工程链路真正打通
- 你能不能把一个需求从“看起来做了”推进到“现实里真的做成了”
- 你能不能在系统失控时接得住、补得回、重建得起来
所以如果你问我:
面对日新月异的人工智能技术,我们到底应该从何学起?
我的答案不是“先学最火的模型”,而是:
先学真正进入实战后,什么东西会决定成败。
那什么才是今天实战最需要的能力?
不是单点 prompt 技巧,也不是只会调用几个 API。
而是这些硬能力:
- 看懂复杂系统
- 抽象出稳定 workflow
- 给 Agent 建立 legibility、memory、skills、feedback loop
- 把验证链、部署链、验收链打通
- 在生产里保留人工接管面和重建能力
如果再往前问一句:
今天最前沿的探索是什么?
我认为,一条线是 Peter Pang / CREAO 代表的 Harness 方法;另一条线,是我这段时间越来越确信必须补上的 Fulfillment。
如果你还没看过 Peter Pang 那篇《Why Your “AI-First” Strategy Is Probably Wrong》,我先用最短的话讲清楚他的核心观点。
他真正想说的,不是“99% 的生产代码由 AI 写”这个传播点,而是:AI-first 绝不等于给旧流程外挂一个 Copilot。 真正的 AI-first,是把产品规划、代码实现、测试验证、发布回滚、错误分诊、团队分工,全部围绕“AI 是主要建设者”重新设计。CREAO 能做到一天多次上线、快速 A/B、坏功能当天砍掉,靠的不是灵感 prompt,而是 monorepo、严格 CI/CD、AI review、feature flag、CloudWatch / Sentry / Linear 组成的 Harness 闭环。
前者在回答:Agent 怎么才能稳定工作。
后者在回答:需求怎么才能稳定进入现实完成态。
最近很多人都在讲 Agent、讲 Harness、讲 Hermes。
但我越来越确定,行业真正要补的那一层,不是“Agent 会不会干活”,而是:
一个需求,最后到底能不能稳定地做进生产。
这不是文字游戏。
这是我看完 Peter Pang / CREAO 的高热度 Harness 案例,又回头看自己这段时间的工程实践之后,越来越确定的一件事。
Peter 那套东西,我认可,而且我觉得很强。
但我也越来越明确:
Harness 管治理与能力供给,Fulfillment 管完成与现实交付。
再说得更直一点:
他解决的是 Agent 的工作能力问题。我们正在解决需求的现实完成问题。
而这件事,恰恰是今天中国工程师最该往前推的一步。
一、为什么现在必须重新看 Harness
过去一年,AI 工程圈最热的词,一路从 Prompt、Context、Workflow,慢慢走到了 Harness。
这说明行业开始成熟了。
因为大家终于意识到,问题不只是“模型够不够聪明”,而是:
- Agent 看不看得懂系统
- Agent 能不能跨模块改动
- Agent 有没有长期记忆
- Agent 会不会把经验沉淀成技能
- Agent 出错以后,能不能自动回归、自动 reopen、自动继续迭代
也就是说,行业终于开始认真讨论:怎么给 Agent 上马具。
这就是 Harness 的价值。
如果没有 Harness,很多所谓 AI Coding,只是把大模型挂在一套并不适合它工作的旧流程表面。模型再强,也是在烂系统上硬干。
所以我先把判断讲清楚:
Harness 不是噱头。Harness 是 AI 工程进入第二阶段成熟度的标志。
二、Peter Pang / CREAO 到底做对了什么
Peter Pang / CREAO 这类案例,最值钱的地方,不是“AI 写了 99% 的代码”这种传播数字。
最值钱的是,他们先承认了一件很多人不愿意承认的事:
如果代码库、人类流程、测试链、集成链本来就不适合 Agent,模型再强也救不了。
所以他们先做的不是换模型,而是先把系统改造成 Agent 看得见、能验证、能修改、能持续提炼经验的样子。
这套原始 Harness 方法,核心强项很明确:
- legibility
- memory
- skills
- feedback loop
- self-healing
- 组织流程 agent 化
换句话说,他们在解决的是:
Agent 能不能稳定工作。
这件事非常重要。
因为很多团队今天还停留在“让 AI 偶尔聪明一次”,而不是“让 Agent 长期稳定地产生杠杆”。
从这个角度看,Peter Pang / CREAO 的确已经把 Harness 做到了很高的成熟度。

三、为什么 Harness 还不够
问题来了。
如果 Harness 已经这么强,为什么我还要单独提出 Fulfillment?
因为真实工程里,真正吃掉 CTO 和核心工程师时间的,往往根本不是写代码本身。
而是这些东西:
- 测试链有没有真的打通
- 部署链有没有真的打通
- 节点是不是都跑在正确运行态
- smoke 到底是真通过还是假通过
- 页面是不是旧缓存假象
- 出问题以后谁能接手、怎么接手
- 一套东西换人、换模型、换机器以后还能不能重建
也就是说,Harness 已经把“Agent 怎么干活”做得很强了。
但真实生产还会继续追问:
这件事到底有没有被做成?
这一步,就是 Fulfillment 要补的。
它不是反对 Harness。
它是在 Harness 之上,把问题继续往前推。
从让 Agent 能干,到让需求完成。
从 verified modules,推到 verified production。
四、什么叫 Fulfillment
我说的 Fulfillment,不是“任务完成一下”的那个完成。
它指的是:
把一个需求推进到可验证、可部署、可接管、可重建、最终进入生产现实完成态的全过程。
所以它的重点,不是模型有没有生成出代码。
而是:
- 这条业务链有没有被真实验证
- 这套部署链有没有被真实跑通
- 这个环境角色有没有被说清楚
- 这个结果能不能被别人接手
- 半个月后出问题,能不能重新验证、重新恢复、重新证明
我现在项目里的做法,其实已经长出了一条很明确的 Fulfillment 子链。
默认顺序不是“本地能跑就算完”,而是:
- local
- 168 test
- jp-gpu-04 preprod
- 人工闸门
- 80 production
而且我把几条硬约束钉得很死:
/health只能算存活,不算完成- 默认必须用真实业务 API 验证
- 默认 insist
POST /v1/responses - 页面验收必须配合同源 API
- 环境角色不能漂
- 不能自动越过人工生产闸门
这背后的逻辑其实很简单:
我不关心你写没写完代码,我关心这件事有没有真的被做成。

五、Peter 的案例,和我的案例,到底差在哪里
如果把 Peter Pang / CREAO 的案例和我自己的工程实践摆在一起,差异会非常清楚。
Peter 那边更强的是:
- Agent runtime
- memory / skills 沉淀
- 自动 triage
- 自动自愈
- 组织级流程 agent 化
一句话:他是在把 Agent 变成一个高杠杆工程实体。
我这边更执着推进的是:
- 测试链、部署链、验收链是否真实打通
- 多环境角色是否清晰
- 业务 API 是否真实通过
- 页面是否联合验收
- 是否保留人工接管面
- 最终能不能进入 production 完成态
一句话:我是在把“完成”本身拉到理论中心。
所以这不是谁高谁低的问题。
而是推进方向不同。
Peter 解决的是:Agent 能不能稳定工作。
我现在要解决的是:需求能不能稳定地做进生产,并且随时可接管、可重建、可再次验证。
这也是我为什么会说:
Harness 管治理与能力供给,Fulfillment 管完成与现实交付。
六、为什么中国工程师现在反而应该有信心
很多人一到这种时候,就喜欢先自卑。
觉得国外已经有 Peter Pang、CREAO、Hermes-Agent、各种高热案例,中国人是不是只能跟着学。
我完全不这么看。
恰恰相反,我觉得中国工程师在这件事上应该非常有信心。
原因很简单。
过去二十年,中国工程师最擅长的,从来就不是凭空发明一切。
我们最擅长的是:
- 学得快
- 模仿得快
- 工程化落地快
- 把别人开创的东西,压到更大规模、更重场景、更高强度的现实里去跑
这不是丢人的能力。
这是极其硬核的能力。
今天 AI 时代也是一样。
我们先认真学习 Harness。
我们先认真理解 Peter Pang / CREAO 到底做对了什么。
然后我们不止停在模仿。
我们继续往前推。
把“让 Agent 更能干”,推进到“让需求真的被做成”。
把“验证模块”,推进到“验证生产”。
把“会用工具”,推进到“能构建交付系统”。
这一步,就是超越开始的地方。
所以我这篇文章真正想留下的,不是一句口号。
而是一个判断:
中国工程师不该只满足于学会 Harness。
中国工程师应该在 Harness 之上,做出自己的 Fulfillment。
这不是情绪。
这是路径。

七、最后一句
如果你今天还在把 AI 工程理解成“更快写代码”,那你看到的还只是表层。
真正决定下一轮胜负的,不只是模型名字,也不只是 Agent 会不会调工具。
而是:
谁能把一套需求,稳定地推进到真实生产,稳定地保留接管面,稳定地留下可重建的验证接口。
这才是下一轮真正的工程竞争。
也是我现在越来越确信的一句话:
From verified modules to verified production.
这,才是 Harness 之后真正该往前走的一步。
这,才是 Fulfillment。
如果你现在也在找稳定、靠谱、能直接上手使用的大模型供应商,想同时用 Claude、Gemini、GPT 这几条主线,可以直接看:
https://sub-lb.tap365.org
这不是讲概念的 demo 站,而是可以真正注册、真正使用、真正开始接入和测试的入口。
如果你刚准备开始,或者你正在筛选更稳的供应商,也可以私信我。
我这边给新朋友准备了新人福利,能帮你少走一点弯路。

夜雨聆风