AI写代码说＂改好了＂,你敢直接用吗?

当模型能力已经够用，真正决定交付质量的，是"证据链"。

昨天刷动态的时候看到一条消息：开源 AI 编码项目 OpenSquilla 发布了 0.4.0 版本，核心更新是首次给 AI 编码引入了"自我验证"机制。

说白了就是——AI 不再只是嘴上说"我改好了"，而是交回结果之前，先跑出一份测试证据，证明"真的改对了"。

我看到这个更新的第一反应是：这玩意儿早该有了。

01 现在 AI 编码工具最大的问题，不是不够聪明

我用 Claude Code、Cursor 这些工具也有一段时间了。说实话，模型能力已经够用了，大多数 bug 它能理解，大多数重构它也能做。

但真正让我头疼的是什么？

是信任问题。

每次 AI 说"改好了"，我都要花时间去 review 它的代码。有时候 review 的时间比我自己写还长。更烦的是那种"改了 A 模块的 bug，结果 B 模块悄悄挂了"的情况——回归问题，AI 自己完全不知道。

这就是为什么 OpenSquilla 这次的更新让我眼前一亮。

它做的事情其实不复杂，核心是一条 红绿回归证据链：

STEP 01 · RED

● 红灯阶段

先写一个注定失败的测试，给问题定性。红灯亮起，故障坐标锁定。

STEP 02 · FIX

● 绿灯阶段

修复代码，让测试从红变绿，证明"改对了"。这一步是可验证的，不是嘴上说的。

STEP 03 · REGRESSION

● 回归阶段

跑一遍项目原有测试，确认没有把其他地方悄悄弄挂。三关全过才算交付。

三关全过才算交付，不过就自动重改。所有改动都在隔离副本里进行，不会影响主分支。

60%–80%

综合成本降幅
（官方口径）

3 关

红→绿→回归
证据链

100%

隔离副本执行
主分支零污染

官方数据说综合成本降了 60%-80%。我没实测过这个数字，但逻辑上是成立的——因为人类 review 的时间被大幅压缩了。你不用再逐行看代码，直接看测试报告就行。

02 为什么必须是"内置"，而不是"可选"

有人可能会说：我自己加个测试环节不就行了？为什么一定要框架内置？

这个问题我想了一下，核心在于人性。

如果自我验证是可选的，开发者大概率会偷懒跳过。你想想，单元测试推广了这么多年，覆盖率达标的项目有几个？AI 编码工具也是一样的道理——如果验证是额外步骤，忙起来的时候第一个砍掉的就是它。

更关键的是，Agent 之间的互操作需要统一标准。

未来企业里不可能只有一个 Agent。你有个写代码的 Agent，有个做 Code Review 的 Agent，还有个负责部署的 Agent。如果每个 Agent 的"交付标准"不一样，整个链路就断了。

内置 = 强制契约。每次交付必须附带验证证据，这不是锦上添花，这是 AI 编码从"玩具"走向"生产级"的门槛。

03 AgentScope 能实现这个机制吗？

看到 OpenSquilla 的更新后，我顺手分析了一下 AgentScope 2.0 的能力，想看看用我熟悉的框架能不能实现类似的机制，从而集成到我的编程Agent里。

结论是：完全可行，而且有些能力是现成的。

✓ 已有的底座能力对照

红绿测试循环	→ ReActAgent 的 reasoning-acting loop + hook 机制
隔离工作区	→ DockerWorkspace / E2BWorkspace，容器级隔离
自定义验证工具	→ Toolkit + 自定义 Tool 类
自动修复循环	→ ReActAgent 的 max_iters + 中间件系统
多 Agent 协作	→ AgentTeam 的 leader-worker 模式

! 还需要补充的部分

01验证中间件：在 Agent 交付前强制执行验证。

02证据链收集器：收集完整的"红 → 绿 → 回归"三段证据。

03验证标准协议：不同级别的修改需要不同级别的验证。

04 这件事对我做 OPC 服务的启发

说完技术，聊聊商业层面的思考。

"自带质检的 Agent 编码服务"，本身就是一个差异化卖点。

现在市面上做 AI 编码服务的，大多是在卷"模型有多强""能写多复杂的代码"。但企业客户真正在意的，不是你的 Agent 有多聪明，而是交付的东西能不能直接用。

如果你能提供一个 Agent 编码服务，每次交付都附带完整的验证证据链——红灯截图、绿灯截图、回归测试报告——那客户 review 的成本直接降一个量级。

这就是信任。

企业买单的不是代码，是确定性。

05 我的判断

OpenSquilla 这次的方向是对的。AI 编码的下半场，比的不是谁的模型更聪明，而是谁能让交付更可信。

自我验证不是一个可选功能，它是 AI 编码走向生产级的必经之路。

大模型的能力差距在缩小，但信任差距还很大。谁先把信任问题解决掉，谁就占了下一个身位。

—— 加加 · 2026.07.05 ——

AI Coding 观察者 · 记录一线开发者视角

01 现在 AI 编码工具最大的问题，不是不够聪明

02 为什么必须是"内置"，而不是"可选"

03 AgentScope 能实现这个机制吗？

推荐的实现架构

04 这件事对我做 OPC 服务的启发

05 我的判断