乐于分享
好东西不私藏

当AI开始“自己查自己”:我做了一次工程化实验

当AI开始“自己查自己”:我做了一次工程化实验

昨天我用三小时写完了一篇管理学论文。

不是标题党,是真的做出来了。要看PDF原文的关注公众号私信我,我转给你看。论文主题是“AI监控对企业员工激励的影响”,有理论模型、58篇文献、145个问卷条目、SEM实证分析。最终评分96分,《管理世界》的投稿门槛是95分。

有人问:你在炫耀速度吗?不是。速度只是副产品。

真正想说的是另一件事:当AI遇上工程化思维,会发生什么?

一、一个让我翻车的真实经历

先讲个故事。

去年我用AI写一份客户调研报告。AI很卖力,十分钟给我一份20页的文档,数据翔实,图表精美。我粗略扫了一眼,觉得没问题,直接发给了客户。

第二天客户回邮件,非常客气地指出:报告里引用的三篇行业报告,有两篇的发布日期是2026年——而当时是2025年。

我当场社死。

这不是AI不努力,是大模型的工作原理决定了它会“补全”。你问它要数据,它知道“应该”长什么样,就给你生成一个。至于那数据是不是真的,它不关心。

从那以后,我养成了一个习惯:AI生成的所有东西,我必须逐条核实。但问题是——如果我已经核实到那个程度,我还用它干嘛?

这个问题困扰了我很久。

二、一个反直觉的设计

今年4月初我接触到一个思路,叫“分离原则”。

听起来复杂,其实就一句话:把“生成”和“检查”拆开,创作者不能给自己打分。

做外贸也一样。我从来不让自己一个人写完一封开发信就发出去。先给同事看一眼,或者隔夜再看一遍。因为这个机制,这些年不知道救回了多少低级错误。

这套工程把它做绝了:20个AI代理,10个负责“写”,10个负责“审”。写的人只管生产,审的人只管挑毛病。两者互不隶属,甚至互相不知道对方是谁。

审的人有自己的检查清单:文献能验证DOI吗?数学符号全文一致吗?代码有硬编码吗?

清单上的每一条,都是过去人类专家踩过的坑,现在是写死的规则。机器不会“信任”,只会“执行”。

三、把“隐性知识”变成显性规则

传统的内容生产,很多专业标准是“感觉”。

“表格要规范” —— 什么叫规范?
“文献要核实” —— 怎么核实?
“数据要有来源” —— 什么样的来源算合格?

这些感觉,依赖人的经验和判断。人做,没问题。机器做,就需要定义清楚。

这套工程做的第二件事,就是把那些“感觉”写成了规则。

比如:每张表格必须注释数据来源。
比如:每篇引用的文献必须能验证DOI。
比如:同一个数学符号必须在全文定义一致。

违反任何一条,直接扣分。扣到80分以下,就不能往下交付。

昨天那篇论文,第一轮评审就发现8篇文献无法验证DOI。审的人打了55分,直接叫停。写的人不得不删掉虚构文献,重新补充真实来源。

如果靠我手动去做这个检查,要么花大量时间逐篇核对,要么因为“信任”而放过。机器不会信任,只会执行规则。

四、不是“差不多就行”

做业务久了,你会发现一个现象:很多人习惯“差不多就行”。方案先交出去,有问题再改。邮件先发出去,等客户投诉了再解释。

Harness工程不允许这样。每个环节有评分,低于80分就阻塞。必须修到80分以上,才能进入下一步。

最终交付前,综合评分必须达到95分。任何一个单项低于80,整体就卡住。

这不是“尽量做好”,是“必须达标”。

昨天那篇论文的理论模型部分,整整修了6轮。问题是一个数学符号在推导过程里是对的,在命题表述里却是错的。审的人一遍一遍发现,写的人一遍一遍修复。

为什么要6轮?因为每一轮审的人都会重新检查全文,确保修复没有引入新问题。如果靠人,可能要两周。机器做,压缩到几小时,但每一轮都是认真的。

五、企业里能用吗?我坚定的认为:一定能

这套方法是为学术论文设计的。但逻辑可以迁移到很多场景。

你想想:

产品说明书。写的人整理功能,审的人核对参数是否准确、功能是否遗漏、格式是否规范。

投标技术方案写的人响应招标要求,审的人核对是否覆盖每一条技术指标、预算是否有依据。

客户跟进记录写的人记录沟通内容,审的人检查是否漏掉了客户的某个关键需求。

核心价值不是“更快”,是“更稳”。每一份交付物,都经过独立评审,都有可追溯的质量记录。

六、三个原则,一个期待

总结下来,这套工程的核心就三条:

第一,分离。 生成和检查必须分开,创作者不能给自己打分。
第二,显性。 专业标准必须写成可执行的规则,不能靠模糊的感觉。
第三,门槛。 不是“差不多就行”,而是“必须达标”。低于阈值,阻塞。

这三个原则,解决的是同一个问题:如何让AI稳定产出高质量内容,而不是偶尔惊喜、经常惊吓。

不是让AI更聪明,是让流程更严谨。不是靠单次调用的质量,是靠系统性设计保证输出的一致性。

我们正在把这套方法从学术场景迁移到企业场景。如果你在一线做内容生产——产品文档、技术方案、营销资料——欢迎交流。


在AI时代,最有价值的不是会用什么工具,是能不能让工具替你“把关”, 把事情做对。让AI自己查自己,比让AI变得更聪明,更值得期待。

如果你想拿到这套工程的核心规则文件(claude.md原文),关注公众号,留言“claude”即可自动收到链接。

扫码加我微信,加入我的社群: