乐于分享
好东西不私藏

AI 写稿的真实过程

AI 写稿的真实过程

上篇结尾我说了,下一篇聊聊进化论。但我想先回答一个问题,一个从第 1 篇开始就不断有人问的问题。

这套系统的初稿到底长什么样?AI 写的文章,第一稿就能用吗?

坦率的讲,如果你期待的是「AI 秒出一篇完美初稿」,那你可能要失望了。KZCQL 系统的初稿,远没有你想的那么光鲜。但如果你理解了初稿为什么不够好,以及后续的迭代机制是怎么运作的,你可能会对这套系统有一个完全不同的认识。

今天这篇,我就把 W1 和 W2 的真实工作过程拆开给你看。

W1工作流程

W1 不是自己写

很多人以为 W1 是一个「会写文章的 AI」。不是。

W1 的规范里写得清清楚楚,禁止自行撰写文章。它不能自己动笔,它必须调用一个叫 khazix-writer 的专用写作工具来完成实际写作。W1 的角色更像是一个导演,负责准备好所有素材和上下文,然后交给「演员」去演。

这个设计是有原因的。如果让 W1 自己写,它会按照自己的理解去组织语言、安排结构,写出来的东西可能很流畅,但风格完全不可控。而 khazix-writer 是一个专门为卡兹克风格调校过的写作工具,它知道什么是「有见识的普通人在认真聊一件打动他的事」,知道该用什么语气、什么节奏、什么词。

但光有工具还不够。W1 在调用写作工具之前,必须完成 5 项必问。文章原型是什么类型,案例方向往哪走,开头用什么方式切入,目标读者是谁,篇幅预期多长。这 5 项缺一不可。

除此之外,W1 还要准备 7 项上下文信息。用户身份档案、前置撰写规则的要点、原始材料的完整内容、案例方向、开头偏好、目标读者、篇幅预期。所有这些信息打包好,才能交给写作工具。

你可以理解为,W1 在写作之前,先做了一次非常详细的「备课」。它不是上来就写,而是先把「写什么、怎么写、写给谁看」这些问题全部想清楚,然后再动笔。

我有时候觉得,这个「备课」过程比写作本身更重要。你让一个 AI 直接写,它会凭自己的训练数据去猜你想看什么。但你把上下文喂得足够细,它就知道你想要什么。差距就在这里。同样一个写作工具,上下文准备得好和不好,产出的初稿质量能差出 10 分以上。

初稿的真实水平

初稿自检流程

写作工具产出初稿之后,W1 还要做一件事,四层自检。

第一层,硬性规则检查。标题不超过 20 个字,单段不超过 200 字,禁用词零容忍,标点禁令零容忍,文末不能有署名,不能泄漏元指令。这些是硬杠杠,一条不过都不行。

禁用词有 14 个,我挑几个有代表性的说说。比如「说了算」这种词,AI 特别爱用,意思是「我来拍板」,但读起来特别生硬。再比如「不可否认」,这是 AI 写议论文的万能开头,用了一次整篇文章的 AI 味就出来了。还有「综上所述」,这是论文结尾专用词,放在公众号文章里就像穿西装去烧烤。

标点禁令更狠。冒号不能用,破折号不能用,双引号也不能用。你想想,一篇文章不能冒号、不能破折号、不能双引号,写起来有多别扭。但这恰恰是为了逼出一种更自然的表达方式。没有了冒号,你就不能用那种「XX 有三个特点,第一、第二、第三」的机械句式。没有了破折号,你就不能用那种「这个系统,我称之为 KZCQL,由 10 个 AI 组成」的嵌套结构。逼着你用短句,用逗号,用自然的语流去连接信息。

你如果关注这个领域的话,可能知道很多 AI 写作工具都有类似的标点限制。但 KZCQL 的禁令是最严格的,连双引号都不让用。我一开始也不理解,觉得双引号又不会影响阅读体验。后来发现,双引号是 AI 味的重灾区。AI 特别爱用双引号包裹概念,读起来像在写术语表。禁掉之后,文章反而更干净了。

第二层,风格一致性检查。卡兹克风格到底像不像,口语化程度够不够,身份设定有没有穿帮,有没有 AI 味。这一层检查的是「读起来像不像一个人在说话」。

第三层,内容质量检查。信息密度够不够,逻辑结构顺不顺,开头能不能抓住人,结尾有没有力度。

第四层,活人感终审。整体读感像不像真人写的,情感表达自不自然,有没有独特的个人视角。

四层自检全部通过,初稿才算完成。

说真的,这套自检流程看起来很严谨,但初稿的真实水平怎么样?我直接说结论吧。以这个系列的前三篇文章为例,W1 产出的初稿,通常能拿到 70 分左右的评级。B 级或者 C 级。能用吗?勉强能用。但离「好」还有明显差距。

很多朋友可能不知道,70 分在 KZCQL 的评级体系里是个什么概念。B 级文章需要 W2 做至少一轮迭代修改才能进入人工终审。C 级更惨,需要较大幅度的修改。说到底,W1 交出来的初稿,没有一篇是直接能用的。每一篇都要经过 W2 的打磨。

最常见的问题是口语化不够。AI 写东西天生就偏书面化,它会用「因此」而不是「所以」,用「此外」而不是「还有」,用「然而」而不是「但是」。这些词单独看都没问题,但堆在一起,文章就失去了那种「跟朋友聊天」的感觉。

然后是禁用词。虽然写作工具已经被调校过了,但每次写完扫描下来,还是能找到几个漏网之鱼。有时候是「值得注意的是」,有时候是「不难发现」,有时候是「总而言之」。这些词就像顽固的杂草,拔了一茬又长一茬。

还有一个问题是金句分布。好的文章每隔几段应该有一句加粗的核心洞察,起到视觉锚点的作用。但初稿的金句要么太少,要么位置不对,要么太长太啰嗦,失去了那种「一锤定音」的力量感。

初稿不完美是正常的

初稿与修改对比

你可能觉得奇怪,既然 W1 做了那么多准备工作,又做了四层自检,为什么初稿还是不够好?

我有时候也这么想。但后来我想明白了,初稿不完美不是 W1 的问题,是写作这件事本身的特性。

你让一个人类作家写初稿,第一稿也不会是完美的。海明威说过,所有初稿都是垃圾。虽然话说得极端了点,但道理是对的。初稿的任务是「把东西写出来」,不是「把东西写好」。从「写出来」到「写好」,中间必须经过修改。

我自己也还在摸索这套系统的边界。有时候 W1 交出来的初稿让我眼前一亮,觉得「这次差不多可以直接用了」。但跑完评审一看,还是一堆问题。有时候我觉得初稿烂得不行,但 W2 改了两轮之后,居然变成了一篇不错的文章。怎么说呢,初稿的质量和最终成品的质量之间,没有必然的联系。关键不在于初稿有多好,而在于后面的迭代机制有多强。

AI 写作也一样。初稿负责搭建骨架,确定方向,把核心观点摆到桌面上。至于语言是否精炼、节奏是否流畅、情感是否到位,这些是修改阶段的事。

初稿搭骨架,迭代上细节。

W1 的职责是产出一份「方向正确、内容完整、风格基本到位」的初稿。然后交给 W2 去打磨。初稿不完美,不是缺陷,是分工。 这个分工是刻意的。如果让 W1 一次性把文章写到完美,它要么花极长的时间反复修改,要么在修改过程中迷失方向,把好的地方也改坏了。

与其这样,不如让 W1 快速产出初稿,让 W2 在评审反馈的指导下精准修改。效率更高,效果更好。

W2 的外科手术

W2修改原则

W2 的规范里有一句话,我觉得写得特别好。「你不是重写文章,你是外科手术,用最小的切口解决最关键的问题。」

W2 的修改原则是四级递进。能改词不改句,能改句不改段,能改段不加段,能调整顺序不重写。一次只改 1 到 2 个问题,修改幅度控制在 15% 以内。

为什么要这么严格?因为上篇提到过,AI 改稿有一个致命的毛病,改一处好两处,越改越离谱。你让它改一个日期,它把另一个正确的日期也改错了。你让它优化一段结尾,它在结尾里编了一个不存在的事实。修改幅度越大,引入新问题的概率就越高。

所以 W2 的策略是,每次只动最要命的那一两处,改完就交回去重新审。宁可多改几轮,也不要一轮改太多。

少改一点,改对一点。

W2 在开始修改之前,要先从评审报告里锁定目标。P0 是必须改的,比如否决项、评分低于 60 的维度。P1 是强烈建议改的,从里面选最高优先级的 1 到 2 个。选完之后,W2 要标注预期效果,说明这次修改预计能提升多少分、为什么能达到这个效果。改完之后还要验证,实际提升有没有达到预期。

这个「预期标注加事后验证」的机制,是后来加的。因为之前 W2 改完就交差,到底改好了没有,全靠下一轮评审来检验。如果评审没发现,问题就漏过去了。加了预期标注之后,W2 自己就能判断「我这次改到底有没有用」。

三篇文章的真实修改数据

修改数据对比

光说原则太抽象,我直接上数据。

第 1 篇,修改幅度 3%,提了 3 分。改了什么?消除了几个禁用词,口语化程度提了一点,调整了金句的分布位置,修正了配图路径。改动非常小,像是在一幅画上做了几处微调。

第 2 篇,修改幅度 10%,提了 8 分。这一轮改动比较大。最夸张的是标点禁令,V-09 规则要求不使用冒号和破折号,扫描下来居然有 39 处违规。39 处,几乎每隔几行就有一个。W2 一个一个地改,把冒号换成逗号,把破折号拆成短句。除此之外还修正了事实错误,去重并替换了重复的金句,口语化词组从 0 个增加到了 6 个。

你敢信,39 处标点违规。这说明初稿阶段的四层自检虽然做了,但做得不够彻底。L1 层的标点扫描没有覆盖到所有违规类型,或者说 W1 在自检的时候只关注了最明显的几个,漏掉了一大批。这也印证了我前面说的,自检不是万能的,它只能兜住最基本的质量底线。

第 3 篇最有意思。口语化从 1 分直接拉到 9 分,禁用词从 3 个降到 0 个,还新增了一句结尾金句。数据看起来很漂亮,对吧?

但问题来了。

修改本身,也是一种风险。

修改引入新错误

第 3 篇的 W2 在扩展结尾的时候,写了一句「89 分到 95 分之间,卡了整整两周」。这句话读起来很有戏剧性,很能渲染「系统进化之艰难」的氛围。但它是假的。

我去翻了架构审查的归档记录。89 分到 95 分之间的那些审查和修改,全部发生在同一天。不是两周,是同一天。

W2 在润色结尾的时候,为了让故事更好看,自己编了一个时间线。它没有去查证实际的时间记录,而是凭「感觉」写了一个更有冲击力的版本。这和第 1 篇里 AI 编造日期错误的性质一模一样,只不过这次不是在初稿里犯的错,而是在修改过程中引入的。

幸好 R1 复检查出了这个问题。R1 触发了 V-01 核心事实日期错误和 V-10 事实核查未通过,把文章打回了 W2 重新修改。

说实话,当时我看到 R1 的复检报告,心情很复杂。一方面庆幸系统发现了这个问题,如果没有 R1,这篇带着假数据的文章可能就发出去了。另一方面又有点沮丧,W2 的修改本来是为了让文章更好,结果反而引入了一个比原来更严重的问题。

回到 W2 的修改原则这个话题。这个案例完美诠释了一个道理。改稿不是改好,是改出新问题。 你以为你在修一个漏洞,其实你可能在挖一个新坑。修改幅度越大,挖坑的概率越高。这就是为什么 W2 被严格限制在 15% 的修改幅度内,为什么一次只能改 1 到 2 个问题,为什么每次修改后都要重新跑一遍事实核查。

不是不信任 W2,而是从真实数据里学到的教训。第 3 篇不是孤例。在更早的测试中,W2 曾经在修改过程中把正确的价格改成了错误的价格,把准确的版本号改成了过时的版本号。每一次「改着改着改坏了」的经历,都让修改规则变得更严格。

怎么说呢,W2 的修改原则看起来保守得过分,但每一条保守的规则背后,都有一个血淋淋的教训。15% 的修改幅度上限不是拍脑袋定的,是因为超过这个比例,引入新错误的概率会急剧上升。一次只改 1 到 2 个问题不是效率低,是因为改多了就会失控。

写作组的闭环

写作组闭环

说到这里,W1 和 W2 的真实工作机制就清楚了。

W1 负责产出初稿。它不自己写,而是调用专用写作工具。写作前做 5 项必问和 7 项上下文准备。写完后做四层自检。初稿的目标是「方向正确、内容完整」,不是「完美无缺」。

W2 负责精准修改。它像外科医生一样,每次只动 1 到 2 个最要命的地方,修改幅度控制在 15% 以内。改完之后做风格自检,然后交回去重新评审。

R1 负责在每次修改后做事实核查,确保 W2 没有在修改过程中引入新的错误。这是整个闭环里最关键的一道保险。

这三者形成了一个循环。W1 写,W2 改,R1 复查。写完改,改完查,查完再改。一轮一轮地迭代,直到文章达到可以交付的标准。

反正我觉得,这个循环设计得挺巧妙的。W1 和 W2 之间隔着一道评审,W2 和下一轮 W2 之间也隔着一道评审。每一次修改都有据可依,每一次修改都要经过验证。不是说 W2 不靠谱,而是任何修改都有风险,必须有独立的机制来兜底。

但这里有一个问题我一直没说。谁来决定这篇文章「够好了」?W1 觉得写完了,W2 觉得改好了,R1 觉得没有事实错误了,那这篇文章到底能不能发?四个评审智能体,D1 到 D10 十个维度,每个维度怎么打分?S 级、A 级、B 级的边界在哪里?

这些问题的答案,藏在评审组里。