当AI开始“自己查自己”:我做了一次工程化实验-夜雨聆风

当AI开始“自己查自己”:我做了一次工程化实验

昨天我用三小时写完了一篇管理学论文。

不是标题党，是真的做出来了。要看PDF原文的关注公众号私信我，我转给你看。论文主题是“AI监控对企业员工激励的影响”，有理论模型、58篇文献、145个问卷条目、SEM实证分析。最终评分96分，《管理世界》的投稿门槛是95分。

有人问：你在炫耀速度吗？不是。速度只是副产品。

真正想说的是另一件事：当AI遇上工程化思维，会发生什么？

一、一个让我翻车的真实经历

先讲个故事。

去年我用AI写一份客户调研报告。AI很卖力，十分钟给我一份20页的文档，数据翔实，图表精美。我粗略扫了一眼，觉得没问题，直接发给了客户。

第二天客户回邮件，非常客气地指出：报告里引用的三篇行业报告，有两篇的发布日期是2026年——而当时是2025年。

我当场社死。

这不是AI不努力，是大模型的工作原理决定了它会“补全”。你问它要数据，它知道“应该”长什么样，就给你生成一个。至于那数据是不是真的，它不关心。

从那以后，我养成了一个习惯：AI生成的所有东西，我必须逐条核实。但问题是——如果我已经核实到那个程度，我还用它干嘛？

这个问题困扰了我很久。

二、一个反直觉的设计

今年4月初我接触到一个思路，叫“分离原则”。

听起来复杂，其实就一句话：把“生成”和“检查”拆开，创作者不能给自己打分。

做外贸也一样。我从来不让自己一个人写完一封开发信就发出去。先给同事看一眼，或者隔夜再看一遍。因为这个机制，这些年不知道救回了多少低级错误。

这套工程把它做绝了：20个AI代理，10个负责“写”，10个负责“审”。写的人只管生产，审的人只管挑毛病。两者互不隶属，甚至互相不知道对方是谁。

审的人有自己的检查清单：文献能验证DOI吗？数学符号全文一致吗？代码有硬编码吗？

清单上的每一条，都是过去人类专家踩过的坑，现在是写死的规则。机器不会“信任”，只会“执行”。

三、把“隐性知识”变成显性规则

传统的内容生产，很多专业标准是“感觉”。

“表格要规范” —— 什么叫规范？
“文献要核实” —— 怎么核实？
“数据要有来源” —— 什么样的来源算合格？

这些感觉，依赖人的经验和判断。人做，没问题。机器做，就需要定义清楚。

这套工程做的第二件事，就是把那些“感觉”写成了规则。

比如：每张表格必须注释数据来源。
比如：每篇引用的文献必须能验证DOI。
比如：同一个数学符号必须在全文定义一致。

违反任何一条，直接扣分。扣到80分以下，就不能往下交付。

昨天那篇论文，第一轮评审就发现8篇文献无法验证DOI。审的人打了55分，直接叫停。写的人不得不删掉虚构文献，重新补充真实来源。

如果靠我手动去做这个检查，要么花大量时间逐篇核对，要么因为“信任”而放过。机器不会信任，只会执行规则。

四、不是“差不多就行”

做业务久了，你会发现一个现象：很多人习惯“差不多就行”。方案先交出去，有问题再改。邮件先发出去，等客户投诉了再解释。

Harness工程不允许这样。每个环节有评分，低于80分就阻塞。必须修到80分以上，才能进入下一步。

最终交付前，综合评分必须达到95分。任何一个单项低于80，整体就卡住。

这不是“尽量做好”，是“必须达标”。

昨天那篇论文的理论模型部分，整整修了6轮。问题是一个数学符号在推导过程里是对的，在命题表述里却是错的。审的人一遍一遍发现，写的人一遍一遍修复。

为什么要6轮？因为每一轮审的人都会重新检查全文，确保修复没有引入新问题。如果靠人，可能要两周。机器做，压缩到几小时，但每一轮都是认真的。

五、企业里能用吗？我坚定的认为：一定能

这套方法是为学术论文设计的。但逻辑可以迁移到很多场景。

你想想：

产品说明书。写的人整理功能，审的人核对参数是否准确、功能是否遗漏、格式是否规范。

投标技术方案。写的人响应招标要求，审的人核对是否覆盖每一条技术指标、预算是否有依据。

客户跟进记录。写的人记录沟通内容，审的人检查是否漏掉了客户的某个关键需求。

核心价值不是“更快”，是“更稳”。每一份交付物，都经过独立评审，都有可追溯的质量记录。

六、三个原则，一个期待

总结下来，这套工程的核心就三条：

第一，分离。 生成和检查必须分开，创作者不能给自己打分。
第二，显性。 专业标准必须写成可执行的规则，不能靠模糊的感觉。
第三，门槛。 不是“差不多就行”，而是“必须达标”。低于阈值，阻塞。

这三个原则，解决的是同一个问题：如何让AI稳定产出高质量内容，而不是偶尔惊喜、经常惊吓。

不是让AI更聪明，是让流程更严谨。不是靠单次调用的质量，是靠系统性设计保证输出的一致性。

我们正在把这套方法从学术场景迁移到企业场景。如果你在一线做内容生产——产品文档、技术方案、营销资料——欢迎交流。

在AI时代，最有价值的不是会用什么工具，是能不能让工具替你“把关”, 把事情做对。让AI自己查自己，比让AI变得更聪明，更值得期待。

如果你想拿到这套工程的核心规则文件（claude.md原文），关注公众号，留言“claude”即可自动收到链接。

扫码加我微信，加入我的社群：