我造了个AI系统,现在它要挑战写小说了

一个月前，我的AI智能体矩阵还是一片混乱。

让AI写个PPT，它能反复确认到地老天荒；让它分析个项目，一个文件吃掉了整次任务的四分之一预算。更离谱的是，明明活儿干完了，系统却判定它失败了——原因是我在代码里写死了，AI必须在回复里带上“目标已达成”才算成功，而它刚好忘了。

那段时间，我像个给实习生擦屁股的倒霉领导。

于是我干了件很多人觉得“没必要”的事：我不再教AI怎么做，而是用确定性代码给它套上了一层又一层的缰绳。我给它加了个铁面无私的裁判（GoalChecker），让它每次干完活都要被客观验证；我给它画了红线（forbidden_tools），明令禁止它碰那些危险的工具；我把大任务拆成小步骤，每一步只让它做一件事——不给它自由，它就没了犯错的空间。

一个月后，这个系统终于像个能用的工具了。

然后我开始琢磨一个更大的问题：它能管理自己吗？

我给系统配了个“HR”——一个叫系统管理员的智能体。它不干具体活，专门盯着其他智能体。谁和谁的触发词冲突了，谁缺了验证规则，哪个工作流最近失败率高了，它都门儿清。甚至，它还能自动修复一些简单问题——比如发现某个智能体的问候语是空的，它会自己生成一段合适的填上去。

但到这里，系统还停留在“发现问题→修复问题”的层面。我真正想要的，是它能从经验里学到东西。

于是我加了个L3经验进化层。GoalChecker每次失败、系统管理员每次诊断、性能分析器每次发现瓶颈，这些数据不再被丢弃，而是被记录、归档、模式识别。同一个步骤失败三次，系统会自动建议调整；某个智能体频繁出问题，系统会标记为“需要关注”。它开始像一个会从错误中学习的学徒。

到这里，我已经不是在写功能了。我是在建立一套控制论——如何在LLM这个不可控的黑盒上，叠加一层又一层的确定性控制层。

真正的分水岭，是上周。

经过几天的反复翻车和修复，我从项目手册工作流里抽象出了一个东西——我管它叫“确定性管道生成器”。

这玩意说白了就是一个纯Python函数。它不做任何推理，不消耗任何Token，只做一件事：把我验证过的所有确定性控制策略（分片逻辑、内容注入、预编译组装、完成信号协议、自适应并发），组装成一个可执行的工作流YAML。

想做一个测试覆盖率分析器？换个输入目录和分析指令。想做一个文档质量评估器？换个输出格式。骨架不变，只换血肉。

更关键的是，这个元工具可以和我已有的“工作流生成大师”配合：LLM负责理解用户的模糊需求，输出结构化参数；代码负责接收参数，拼装出可靠的YAML；引擎负责执行。三层分工，LLM的灵活性和代码的可靠性各得其所。

系统开始具备自我复制能力。

这意味着什么？意味着我以后不需要再手写复杂的工作流YAML了。对系统说“我要做一个XX分析器”，它自己就能把管子搭好。

而今天，我准备用这套刚出炉的元工具，去挑战一个它从未面对过的场景——也是我一直想验证的终极问题：这套架构的极限在哪？

我要让它写小说。不是短篇，是超长篇小说。

几十万字、上百章的那种。

这个任务几乎会全面压力测试我已经建立的所有能力：

L2语义记忆会被重度使用。主角的性格、世界观设定、埋下的伏笔，都必须作为持久记忆存储，每写一章都要检索一次。这是对记忆系统首次真实的高负载考验。
多Agent协作要真刀真枪地跑。写作Agent、审稿Agent、一致性审查Agent，三个智能体通过工作流引擎自动切换。这个机制代码里早已支持，但从未被端到端跑通过。
断点续写要能扛住中断。一百万字不可能一口气跑完。任务中断后，系统必须能从上一卷的状态恢复，而不是从头开始。
动态步骤和并行组要在大数量下稳定。每卷12章并行生成，10卷以上还能不能稳得住？这比任何单元测试都更真实。

我选了个最短的验证路径：先写一部3卷、每卷5章的中篇小说。3个Agent协作，L2记忆管理，断点续写，并行生成——所有核心机制全部覆盖。跑通了，再挑战10卷100章的鸿篇巨制。

这不是科幻。这是下周之前的事。

因为我手里已经有一整套经过验证的元工具，可以在几分钟内生成这个小说创作系统的工作流骨架。我需要做的，只是调整参数：把“分析模块代码”的指令换成“撰写小说章节”，把“提取函数签名”的验证规则换成“检查章节字数”，然后让它跑起来。

如果你问我这一个月到底在干什么？

我在搭乐高。用一套稳固的、确定性的积木，去围住一团炽热但飘忽不定的火焰。一开始火焰会把积木冲得七零八落，但当你最终找到那个最精巧的结构时，它就会在你设计好的轨道里，安静而耀眼地燃烧。

而下周，我要测试这个轨道能不能撑住一场真正的风暴。

flag已立。下周见分晓