当模型能力已经够用,真正决定交付质量的,是"证据链"。
昨天刷动态的时候看到一条消息:开源 AI 编码项目 OpenSquilla 发布了 0.4.0 版本,核心更新是首次给 AI 编码引入了"自我验证"机制。
说白了就是——AI 不再只是嘴上说"我改好了",而是交回结果之前,先跑出一份测试证据,证明"真的改对了"。
我看到这个更新的第一反应是:这玩意儿早该有了。
01 现在 AI 编码工具最大的问题,不是不够聪明
我用 Claude Code、Cursor 这些工具也有一段时间了。说实话,模型能力已经够用了,大多数 bug 它能理解,大多数重构它也能做。
但真正让我头疼的是什么?
是信任问题。
每次 AI 说"改好了",我都要花时间去 review 它的代码。有时候 review 的时间比我自己写还长。更烦的是那种"改了 A 模块的 bug,结果 B 模块悄悄挂了"的情况——回归问题,AI 自己完全不知道。
这就是为什么 OpenSquilla 这次的更新让我眼前一亮。
它做的事情其实不复杂,核心是一条 红绿回归证据链:
STEP 01 · RED
● 红灯阶段
先写一个注定失败的测试,给问题定性。红灯亮起,故障坐标锁定。
STEP 02 · FIX
● 绿灯阶段
修复代码,让测试从红变绿,证明"改对了"。这一步是可验证的,不是嘴上说的。
STEP 03 · REGRESSION
● 回归阶段
跑一遍项目原有测试,确认没有把其他地方悄悄弄挂。三关全过才算交付。
三关全过才算交付,不过就自动重改。所有改动都在隔离副本里进行,不会影响主分支。
60%–80% 综合成本降幅 | 3 关 红→绿→回归 | 100% 隔离副本执行 |
官方数据说综合成本降了 60%-80%。我没实测过这个数字,但逻辑上是成立的——因为人类 review 的时间被大幅压缩了。你不用再逐行看代码,直接看测试报告就行。
02 为什么必须是"内置",而不是"可选"
有人可能会说:我自己加个测试环节不就行了?为什么一定要框架内置?
这个问题我想了一下,核心在于人性。
如果自我验证是可选的,开发者大概率会偷懒跳过。你想想,单元测试推广了这么多年,覆盖率达标的项目有几个?AI 编码工具也是一样的道理——如果验证是额外步骤,忙起来的时候第一个砍掉的就是它。
更关键的是,Agent 之间的互操作需要统一标准。
未来企业里不可能只有一个 Agent。你有个写代码的 Agent,有个做 Code Review 的 Agent,还有个负责部署的 Agent。如果每个 Agent 的"交付标准"不一样,整个链路就断了。
内置 = 强制契约。每次交付必须附带验证证据,这不是锦上添花,这是 AI 编码从"玩具"走向"生产级"的门槛。
03 AgentScope 能实现这个机制吗?
看到 OpenSquilla 的更新后,我顺手分析了一下 AgentScope 2.0 的能力,想看看用我熟悉的框架能不能实现类似的机制,从而集成到我的编程Agent里。
结论是:完全可行,而且有些能力是现成的。
✓ 已有的底座能力对照
| → | |
| → | |
| → | |
| → | |
| → |
! 还需要补充的部分
01验证中间件:在 Agent 交付前强制执行验证。
02证据链收集器:收集完整的"红 → 绿 → 回归"三段证据。
03验证标准协议:不同级别的修改需要不同级别的验证。
推荐的实现架构
三个 Agent 组成协作团队——Planner 负责分析需求拆解任务,Builder 负责写代码改代码,Verifier 负责跑测试收集证据。三个角色形成一个闭环:
AGENT · 01
Planner
规划者
分析需求,拆解任务,输出可验证的执行清单。
▼
AGENT · 02
Builder
建造者
在隔离副本中写代码、改代码,产出候选交付物。
▼
AGENT · 03
Verifier
验证者
跑测试、收集证据;验证不过就打回 Builder 重做。
Builder 交付后 Verifier 验证,验证不过就打回 Builder 重做,直到三关全过。
04 这件事对我做 OPC 服务的启发
说完技术,聊聊商业层面的思考。
"自带质检的 Agent 编码服务",本身就是一个差异化卖点。
现在市面上做 AI 编码服务的,大多是在卷"模型有多强""能写多复杂的代码"。但企业客户真正在意的,不是你的 Agent 有多聪明,而是交付的东西能不能直接用。
如果你能提供一个 Agent 编码服务,每次交付都附带完整的验证证据链——红灯截图、绿灯截图、回归测试报告——那客户 review 的成本直接降一个量级。
这就是信任。
企业买单的不是代码,是确定性。
05 我的判断
OpenSquilla 这次的方向是对的。AI 编码的下半场,比的不是谁的模型更聪明,而是谁能让交付更可信。
自我验证不是一个可选功能,它是 AI 编码走向生产级的必经之路。
大模型的能力差距在缩小,但信任差距还很大。谁先把信任问题解决掉,谁就占了下一个身位。
—— 加加 · 2026.07.05 ——
AI Coding 观察者 · 记录一线开发者视角
夜雨聆风