一个月前,我的AI智能体矩阵还是一片混乱。
让AI写个PPT,它能反复确认到地老天荒;让它分析个项目,一个文件吃掉了整次任务的四分之一预算。更离谱的是,明明活儿干完了,系统却判定它失败了——原因是我在代码里写死了,AI必须在回复里带上“目标已达成”才算成功,而它刚好忘了。
那段时间,我像个给实习生擦屁股的倒霉领导。
于是我干了件很多人觉得“没必要”的事:我不再教AI怎么做,而是用确定性代码给它套上了一层又一层的缰绳。我给它加了个铁面无私的裁判(GoalChecker),让它每次干完活都要被客观验证;我给它画了红线(forbidden_tools),明令禁止它碰那些危险的工具;我把大任务拆成小步骤,每一步只让它做一件事——不给它自由,它就没了犯错的空间。
一个月后,这个系统终于像个能用的工具了。
然后我开始琢磨一个更大的问题:它能管理自己吗?
我给系统配了个“HR”——一个叫系统管理员的智能体。它不干具体活,专门盯着其他智能体。谁和谁的触发词冲突了,谁缺了验证规则,哪个工作流最近失败率高了,它都门儿清。甚至,它还能自动修复一些简单问题——比如发现某个智能体的问候语是空的,它会自己生成一段合适的填上去。
但到这里,系统还停留在“发现问题→修复问题”的层面。我真正想要的,是它能从经验里学到东西。
于是我加了个L3经验进化层。GoalChecker每次失败、系统管理员每次诊断、性能分析器每次发现瓶颈,这些数据不再被丢弃,而是被记录、归档、模式识别。同一个步骤失败三次,系统会自动建议调整;某个智能体频繁出问题,系统会标记为“需要关注”。它开始像一个会从错误中学习的学徒。
到这里,我已经不是在写功能了。我是在建立一套控制论——如何在LLM这个不可控的黑盒上,叠加一层又一层的确定性控制层。
真正的分水岭,是上周。
经过几天的反复翻车和修复,我从项目手册工作流里抽象出了一个东西——我管它叫“确定性管道生成器”。
这玩意说白了就是一个纯Python函数。它不做任何推理,不消耗任何Token,只做一件事:把我验证过的所有确定性控制策略(分片逻辑、内容注入、预编译组装、完成信号协议、自适应并发),组装成一个可执行的工作流YAML。
想做一个测试覆盖率分析器?换个输入目录和分析指令。想做一个文档质量评估器?换个输出格式。骨架不变,只换血肉。
更关键的是,这个元工具可以和我已有的“工作流生成大师”配合:LLM负责理解用户的模糊需求,输出结构化参数;代码负责接收参数,拼装出可靠的YAML;引擎负责执行。三层分工,LLM的灵活性和代码的可靠性各得其所。
系统开始具备自我复制能力。
这意味着什么?意味着我以后不需要再手写复杂的工作流YAML了。对系统说“我要做一个XX分析器”,它自己就能把管子搭好。
而今天,我准备用这套刚出炉的元工具,去挑战一个它从未面对过的场景——也是我一直想验证的终极问题:这套架构的极限在哪?
我要让它写小说。不是短篇,是超长篇小说。
几十万字、上百章的那种。
这个任务几乎会全面压力测试我已经建立的所有能力:
L2语义记忆会被重度使用。主角的性格、世界观设定、埋下的伏笔,都必须作为持久记忆存储,每写一章都要检索一次。这是对记忆系统首次真实的高负载考验。
多Agent协作要真刀真枪地跑。写作Agent、审稿Agent、一致性审查Agent,三个智能体通过工作流引擎自动切换。这个机制代码里早已支持,但从未被端到端跑通过。
断点续写要能扛住中断。一百万字不可能一口气跑完。任务中断后,系统必须能从上一卷的状态恢复,而不是从头开始。
动态步骤和并行组要在大数量下稳定。每卷12章并行生成,10卷以上还能不能稳得住?这比任何单元测试都更真实。
我选了个最短的验证路径:先写一部3卷、每卷5章的中篇小说。3个Agent协作,L2记忆管理,断点续写,并行生成——所有核心机制全部覆盖。跑通了,再挑战10卷100章的鸿篇巨制。
这不是科幻。这是下周之前的事。
因为我手里已经有一整套经过验证的元工具,可以在几分钟内生成这个小说创作系统的工作流骨架。我需要做的,只是调整参数:把“分析模块代码”的指令换成“撰写小说章节”,把“提取函数签名”的验证规则换成“检查章节字数”,然后让它跑起来。
如果你问我这一个月到底在干什么?
我在搭乐高。用一套稳固的、确定性的积木,去围住一团炽热但飘忽不定的火焰。一开始火焰会把积木冲得七零八落,但当你最终找到那个最精巧的结构时,它就会在你设计好的轨道里,安静而耀眼地燃烧。
而下周,我要测试这个轨道能不能撑住一场真正的风暴。
flag已立。下周见分晓
夜雨聆风